基于深度学习与大数据的手语识别与转换系统及方法-好方法网

技术摘要：
本发明公开了一种基于深度学习与大数据的手语识别与转换系统及方法，该系统包括：图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块；通过采集人体影像序列；提取人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在全部
背景技术：
我国存在着大量的聋哑人使用手语进行交流,对于不会手语的人来说，理解手语的意思是非常困难的，手语由手势、手臂运动、面部表情组合而成，具有完备的表达能力。掌握手语的人之间可以高效地交流沟通，而不了解手语的人往往难以理解手语所表达的意思，这种情况阻碍了人与人之间的沟通与交流。
技术实现要素：
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于深度学习与大数据的手语识别与转换系统，该系统能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。本发明的另一个目的在于提出一种基于深度学习与大数据的手语识别与转换方法。为达到上述目的，本发明一方面实施例提出了一种基于深度学习与大数据的手语识别与转换系统，包括：图像采集模块、图像识别模块、信息匹配模块、内容整理模块、文字输出模块和语音输出模块；所述图像采集模块与所述图像识别模块连接，用于采集人体影像序列，并将所述人体影像序列发送至所述图像识别模块；所述图像识别模块与所述信息匹配模块连接，用于提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，并将所述面部关键点坐标和所述手部关键点坐标发送给所述信息匹配模块；所述信息匹配模块与所述内容整理模块连接，用于在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值，将所述自然语言语素与所述匹配值发送给所述内容整理模块；所述内容整理模块与所述文字输出模块连接，用于根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤，将保留的自然语言语素发送给所述文字输出模块；所述文字输出模块与所述语音输出模块连接，用于将保留的自然语言语素转换为文字并显示在屏幕上，将文字发送给所述语音输出模块；所述语音输出模块用于根据文字语言数据库寻找与文字对应的语音，并进行播放。本发明实施例的基于深度学习与大数据的手语识别与转换系统，通过图像采集模 4 CN 111582039 A 说　明　书 2/6 页块不断采集人体影像，并逐帧传输到图像识别模块，图像识别模块对于每一帧图像提取面部与手部关键点坐标，将坐标传输给信息匹配模块，信息匹配模块在手语动作数据库中搜寻与关键点坐标最匹配的自然语言语素，将语素与传输值传输给内容整理模块，内容整理模块根据相邻语素之间的重复情况与匹配值过滤到无效的、重复的语素，将保留下来的信息发送给文字输出模块，文字输出模块将文字显示在屏幕上，并将文字传输给语音输出模块，语音输出模块在文字语音数据库中寻找文字对应的语音，并播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。另外，根据本发明上述实施例的基于深度学习与大数据的手语识别与转换系统还可以具有以下附加的技术特征：在本发明的一个实施例中，所述图像识别模块具体用于，利用人脸识别算法在所述人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的所述面部关键点坐标；利用人体运动检测算法，提取所述人体影像序列中肘关节、腕关节和每个手指的指关节的三维坐标作为所述手部关键点坐标。在本发明的一个实施例中，所述手语动作数据库包含预先采集的、一一对应的手语动作与目标语言词语。在本发明的一个实施例中，所述信息匹配模块具体用于，通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作，根据所述手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到所述内容整理模块，其中，所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，所述特征点平均距离与所述匹配值为负相关。在本发明的一个实施例中，所述自然语言语素包括中文的词语或汉字、英文的单词。在本发明的一个实施例中，根据不同标准的手语、不同的目标语言，更换所述信息匹配模块中的手语动作数据库。在本发明的一个实施例中，所述内容整理模块具体用于，根据所述自然语言语素与所述匹配值，将重复的自然语言语素和匹配值低于预设阈值的自然语言语素删除，将保留的自然语言语素转换为自然语言，并将所述自然语言发送给所述文字输出模块。为达到上述目的，本发明另一方面实施例提出了一种基于深度学习与大数据的手语识别与转换方法，包括：采集人体影像序列；提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值；根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤；将保留的自然语言语素转换为文字并显示在屏幕上；根据文字语言数据库寻找与文字对应的语音，并进行播放。本发明实施例的基于深度学习与大数据的手语识别与转换方法，通过采集人体影 5 CN 111582039 A 说　明　书 3/6 页像序列提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标；在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值；根据相邻语素间的重复情况与所述匹配值对所述自然语言语素进行过滤；将保留的自然语言语素转换为文字并显示在屏幕上；根据文字语言数据库寻找与文字对应的语音，并进行播放。由此，能够方便快捷地将手语图像序列转换成其他语言的文字与语音输出，使得普通人能够更加容易地理解手语的含义，提高沟通效率。另外，根据本发明上述实施例的基于深度学习与大数据的手语识别与转换方法还可以具有以下附加的技术特征：在本发明的一个实施例中，所述提取所述人体影像序列的每一帧图像中的面部关键点坐标和手部关键点坐标，具体包括：利用人脸识别算法在所述人体影像序列中截取出人的面部区域，通过人脸特征点检测方法，提取人的面部区域的所述面部关键点坐标；利用人体运动检测算法，提取所述人体影像序列中肘关节、腕关节和每个手指的指关节的三维坐标作为所述手部关键点坐标。在本发明的一个实施例中，所述在手语动作数据库中搜索与所述面部关键点坐标和所述手部关键点坐标最匹配的自然语言语素，计算匹配值，具体包括：通过所述匹配值确定与所述面部关键点坐标和所述手部关键点坐标最匹配的手语动作，根据所述手语动作数据库中的手语动作与目标语言词语的对应关系，将最匹配的自然语言语素发送到所述内容整理模块，其中，所述匹配值通过欧氏空间下对应特征点的坐标距离的平均值衡量，所述特征点平均距离与所述匹配值为负相关。本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：图1为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换系统结构示意图；图2为根据本发明一个实施例的基于深度学习与大数据的手语识别与转换方法流程图。

下载此资料需消耗2积分，

相关推荐