logo好方法网

基于深度学习与大数据的手语识别与转换系统及方法


技术摘要:
本发明公开了一种基于深度学习与大数据的手语识别与转换系统及方法,该系统包括:图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块;通过采集人体影像序列;提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标;在  全部
背景技术:
我国存在着大量的聋哑人使用手语进行交流,对于不会手语的人来说,理解手语 的意思是非常困难的,手语由手势、手臂运动、面部表情组合而成,具有完备的表达能力。掌 握手语的人之间可以高效地交流沟通,而不了解手语的人往往难以理解手语所表达的意 思,这种情况阻碍了人与人之间的沟通与交流。
技术实现要素:
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。 为此,本发明的一个目的在于提出一种基于深度学习与大数据的手语识别与转换 系统,该系统能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出,使得普 通人能够更加容易地理解手语的含义,提高沟通效率。 本发明的另一个目的在于提出一种基于深度学习与大数据的手语识别与转换方 法。 为达到上述目的,本发明一方面实施例提出了一种基于深度学习与大数据的手语 识别与转换系统,包括:图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字 输出模块和语音输出模块; 所述图像采集模块与所述图像识别模块连接,用于采集人体影像序列,并将所述 人体影像序列发送至所述图像识别模块; 所述图像识别模块与所述信息匹配模块连接,用于提取所述人体影像序列的每一 帧图像中的面部关键点坐标和手部关键点坐标,并将所述面部关键点坐标和所述手部关键 点坐标发送给所述信息匹配模块; 所述信息匹配模块与所述内容整理模块连接,用于在手语动作数据库中搜索与所 述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素,计算匹配值,将所述自 然语言语素与所述匹配值发送给所述内容整理模块; 所述内容整理模块与所述文字输出模块连接,用于根据相邻语素间的重复情况与 所述匹配值对所述自然语言语素进行过滤,将保留的自然语言语素发送给所述文字输出模 块; 所述文字输出模块与所述语音输出模块连接,用于将保留的自然语言语素转换为 文字并显示在屏幕上,将文字发送给所述语音输出模块; 所述语音输出模块用于根据文字语言数据库寻找与文字对应的语音,并进行播 放。 本发明实施例的基于深度学习与大数据的手语识别与转换系统,通过图像采集模 4 CN 111582039 A 说 明 书 2/6 页 块不断采集人体影像,并逐帧传输到图像识别模块,图像识别模块对于每一帧图像提取面 部与手部关键点坐标,将坐标传输给信息匹配模块,信息匹配模块在手语动作数据库中搜 寻与关键点坐标最匹配的自然语言语素,将语素与传输值传输给内容整理模块,内容整理 模块根据相邻语素之间的重复情况与匹配值过滤到无效的、重复的语素,将保留下来的信 息发送给文字输出模块,文字输出模块将文字显示在屏幕上,并将文字传输给语音输出模 块,语音输出模块在文字语音数据库中寻找文字对应的语音,并播放。由此,能够方便快捷 地将手语图像序列转换成其他语言的文字与语音输出,使得普通人能够更加容易地理解手 语的含义,提高沟通效率。 另外,根据本发明上述实施例的基于深度学习与大数据的手语识别与转换系统还 可以具有以下附加的技术特征: 在本发明的一个实施例中,所述图像识别模块具体用于,利用人脸识别算法在所 述人体影像序列中截取出人的面部区域,通过人脸特征点检测方法,提取人的面部区域的 所述面部关键点坐标; 利用人体运动检测算法,提取所述人体影像序列中肘关节、腕关节和每个手指的 指关节的三维坐标作为所述手部关键点坐标。 在本发明的一个实施例中,所述手语动作数据库包含预先采集的、一一对应的手 语动作与目标语言词语。 在本发明的一个实施例中,所述信息匹配模块具体用于,通过所述匹配值确定与 所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作,根据所述手语动作数据库 中的手语动作与目标语言词语的对应关系,将最匹配的自然语言语素发送到所述内容整理 模块,其中,所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量,所述特征点 平均距离与所述匹配值为负相关。 在本发明的一个实施例中,所述自然语言语素包括中文的词语或汉字、英文的单 词。 在本发明的一个实施例中,根据不同标准的手语、不同的目标语言,更换所述信息 匹配模块中的手语动作数据库。 在本发明的一个实施例中,所述内容整理模块具体用于,根据所述自然语言语素 与所述匹配值,将重复的自然语言语素和匹配值低于预设阈值的自然语言语素删除,将保 留的自然语言语素转换为自然语言,并将所述自然语言发送给所述文字输出模块。 为达到上述目的,本发明另一方面实施例提出了一种基于深度学习与大数据的手 语识别与转换方法,包括: 采集人体影像序列; 提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标; 在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配 的自然语言语素,计算匹配值; 根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤; 将保留的自然语言语素转换为文字并显示在屏幕上; 根据文字语言数据库寻找与文字对应的语音,并进行播放。 本发明实施例的基于深度学习与大数据的手语识别与转换方法,通过采集人体影 5 CN 111582039 A 说 明 书 3/6 页 像序列提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标;在手 语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语 素,计算匹配值;根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤; 将保留的自然语言语素转换为文字并显示在屏幕上;根据文字语言数据库寻找与文字对应 的语音,并进行播放。由此,能够方便快捷地将手语图像序列转换成其他语言的文字与语音 输出,使得普通人能够更加容易地理解手语的含义,提高沟通效率。 另外,根据本发明上述实施例的基于深度学习与大数据的手语识别与转换方法还 可以具有以下附加的技术特征: 在本发明的一个实施例中,所述提取所述人体影像序列的每一帧图像中的面部关 键点坐标和手部关键点坐标,具体包括: 利用人脸识别算法在所述人体影像序列中截取出人的面部区域,通过人脸特征点 检测方法,提取人的面部区域的所述面部关键点坐标; 利用人体运动检测算法,提取所述人体影像序列中肘关节、腕关节和每个手指的 指关节的三维坐标作为所述手部关键点坐标。 在本发明的一个实施例中,所述在手语动作数据库中搜索与所述面部关键点坐标 和所述手部关键点坐标最匹配的自然语言语素,计算匹配值,具体包括: 通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手 语动作,根据所述手语动作数据库中的手语动作与目标语言词语的对应关系,将最匹配的 自然语言语素发送到所述内容整理模块,其中,所述匹配值通过欧氏空间下对应特征点的 坐标距离的平均值衡量,所述特征点平均距离与所述匹配值为负相关。 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。 附图说明 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得 明显和容易理解,其中: 图1为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换系统结 构示意图; 图2为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换方法流 程图。
下载此资料需消耗2积分,
分享到:
收藏