logo好方法网

一种图像处理方法及装置


技术摘要:
本申请实施例提供了一种图像处理方法及装置,其中,本申请实施例不是对整张面部图像进行数据处理,而是从整张面部图像中提取了唇部区域图像,继而基于提取的唇部区域图像进行唇语识别,有效降低了唇语识别中需要处理的数据量,提高了唇语识别的效率。同时,本申请实施  全部
背景技术:
人工智能技术突飞猛进的发展,给人们的生活带来了很多智能化的服务,唇语识 别是人工智能技术中的一种,其捕捉人说话时的嘴部动作,再通过对捕捉得到的嘴部动作 进行数据分析和处理,来解读说话人所要表达的内容。唇语识别的应用场景广泛,例如可将 唇语识别应用于活体检测、安防等场景中,实现基于唇语识别的活体检测、安防等。其中,唇 语识别最直接的应用场景就是,帮助听力或发音障碍者实现与他人的顺畅交流。 现有技术中的唇语识别是基于获取的面部图像进行唇语识别,该唇语识别过程中 不仅需要处理大量的数据,识别效率低,并且识别得到的唇语内容偏差较大,精确度不够。
技术实现要素:
有鉴于此,本申请实施例的目的在于提供一种图像处理方法及装置,能够通过提 取唇部区域图像,并基于提取的唇部区域图像的有效时空特征数据进行唇语识别,克服了 现有技术中唇语识别效率低、精确度差的缺陷。 第一方面,本申请实施例提供了一种图像处理方法,包括: 从多张面部图像中的每张面部图像中,获取唇部区域图像,得到多张唇部区域图 像; 提取所述多张唇部区域图像的有效时空特征数据; 基于提取得到的有效时空特征数据,确定所述多张唇部区域图像对应的唇语内 容。 在一种可能的实施方式中,所述从多张面部图像中的每张面部图像中,获取唇部 区域图像,包括: 针对每张面部图像,获取该面部图像的唇部区域中心点,并基于获取的唇部区域 中心点,和图像预定尺寸,从该面部图像中提取所述唇部区域图像。 在一种可能的实施方式中,上述图像处理方法还包括确定所述多张面部图像的步 骤: 解析获取的唇语视频,得到多张原始面部图像; 基于所述原始面部图像对应的时间,将所述多张原始面部图像进行排序; 基于所述原始面部图像的数量、所要筛选的面部图像的预定数量、和每张图像在 排序得到的序列中的位置,从所述多张原始面部图像筛选得到所述多张面部图像。 在一种可能的实施方式中,所述图像处理方法利用如下公式筛选所述多张面部图 像: Stretch_seq[i]=orig_seq[round((i×orig_len)/M)] 5 CN 111611827 A 说 明 书 2/15 页 式中,Stretch_seq[i]表示筛选得到的第i张面部图像,M表示所述预定数量, round表示取整的四舍五入运算,orig_len表示原始面部图像的数量,orig_seq表示所述多 张原始面部图像排序序列。 在一种可能的实施方式中,所述提取所述多张唇部区域图像的有效时空特征数 据,包括: 提取所述多张唇部区域图像的N组时空特征数据; 基于所述N组时空特征数据对应的时间,将所述N组时空特征数据进行排序;其中, N为正整数; 针对每组时空特征数据,基于该组时空特征数据在排序得到的序列中的位置,和 该组时空特征数据,确定该组时空特征数据对应的有效时空特征数据。 在一种可能的实施方式中,所述基于该组时空特征数据在排序得到的序列中的位 置,和该组时空特征数据,确定该组时空特征数据对应的有效时空特征数据,包括: 在该组时空特征数据位于排序序列的第一个位置的情况下,基于该组时空特征数 据,确定该组时空特征数据对应的有效时空特征数据; 在该组时空特征数据未位于排序序列的第一个位置的情况下,基于该组时空特征 数据,和该组时空特征数据的前一组时空特征数据对应的有效时空特征数据,确定该组时 空特征数据对应的有效时空特征数据。 在一种可能的实施方式中,所述基于该组时空特征数据在排序得到的序列中的位 置,和该组时空特征数据,确定该组时空特征数据对应的有效时空特征数据,还包括: 在该组时空特征数据位于排序序列的最后一个位置的情况下,基于该组时空特征 数据,确定该组时空特征数据对应的有效时空特征数据的中间值; 在该组时空特征数据未位于排序序列的最后一个位置的情况下,基于该组时空特 征数据,和该组时空特征数据的后一组时空特征数据对应的有效时空特征数据的中间值, 确定该组时空特征数据对应的有效时空特征数据的中间值; 基于该组时空特征数据对应的有效时空特征数据,和该组时空特征数据对应的有 效时空特征数据的中间值,确定该组时空特征数据对应的最终的有效时空特征数据。 在一种可能的实施方式中,所述提取所述多张唇部区域图像的N组时空特征数据, 包括: 提取所述多张唇部区域图像的N组初始时空特征数据; 针对每组初始时空特征数据,基于与该组初始时空特征数据匹配的权重,确定该 组初始时空特征数据对应的加权时空特征数据; 基于N组加权时空特征数据,确定N组时空特征数据。 在一种可能的实施方式中,所述基于提取得到的有效时空特征数据,确定所述多 张唇部区域图像对应的唇语内容,包括: 基于有效时空特征数据与文字的对应的关系,确定所述定所述多张唇部区域图像 对应的唇语内容。 在一种可能的实施方式中,上述图像处理方法还包括: 利用与每个文字对应的权重和偏移量,剔除得到的唇语内容中的错别字。 第二方面,本申请实施例提供了一种图像处理装置,包括: 6 CN 111611827 A 说 明 书 3/15 页 图像提取模块,用于从多张面部图像中的每张面部图像中,获取唇部区域图像,得 到多张唇部区域图像; 数据提取模块,用于提取所述多张唇部区域图像的有效时空特征数据; 唇语识别模块,用于基于提取得到的有效时空特征数据,确定所述多张唇部区域 图像对应的唇语内容。 在一种可能的实施方式中,所述图像提取模块具体用于: 针对每张面部图像,获取该面部图像的唇部区域中心点,并基于获取的唇部区域 中心点,和图像预定尺寸,从该面部图像中提取所述唇部区域图像。 在一种可能的实施方式中,上述图像处理装置还包括: 视频解析模块,用于解析获取的唇语视频,得到多张原始面部图像; 图像排序模块,用于基于所述原始面部图像对应的时间,将所述多张原始面部图 像进行排序; 图像获取模块,用于基于所述原始面部图像的数量、所要筛选的面部图像的预定 数量、和每张图像在排序得到的序列中的位置,从所述多张原始面部图像筛选得到所述多 张面部图像。 在一种可能的实施方式中,所述图像获取模块利用如下公式筛选所述多张面部图 像: Stretch_seq[i]=orig_seq[round((i×orig_len)/M)] 式中,Stretch_seq[i]表示筛选得到的第i张面部图像,M表示所述预定数量, round表示取整的四舍五入运算,orig_len表示原始面部图像的数量,orig_seq表示所述多 张原始面部图像排序序列。 在一种可能的实施方式中,所述数据提取模块包括: 数据提取子模块,用于提取所述多张唇部区域图像的N组时空特征数据; 数据排序子模块,用于基于所述N组时空特征数据对应的时间,将所述N组时空特 征数据进行排序;其中,N为正整数; 有效数据确定子模块,用于针对每组时空特征数据,基于该组时空特征数据在排 序得到的序列中的位置,和该组时空特征数据,确定该组时空特征数据对应的有效时空特 征数据。 在一种可能的实施方式中,所述有效数据确定子模块包括: 第一数据确定单元,用于在该组时空特征数据位于排序序列的第一个位置的情况 下,基于该组时空特征数据,确定该组时空特征数据对应的有效时空特征数据; 第二数据确定单元,用于在该组时空特征数据未位于排序序列的第一个位置的情 况下,基于该组时空特征数据,和该组时空特征数据的前一组时空特征数据对应的有效时 空特征数据,确定该组时空特征数据对应的有效时空特征数据。 在一种可能的实施方式中,所述有效数据确定模块,还包括: 第三数据确定单元,用于在该组时空特征数据位于排序序列的最后一个位置的情 况下,基于该组时空特征数据,确定该组时空特征数据对应的有效时空特征数据的中间值; 第四数据确定单元,用于在该组时空特征数据未位于排序序列的最后一个位置的 情况下,基于该组时空特征数据,和该组时空特征数据的后一组时空特征数据对应的有效 7 CN 111611827 A 说 明 书 4/15 页 时空特征数据的中间值,确定该组时空特征数据对应的有效时空特征数据的中间值; 第五数据确定单元,用于基于该组时空特征数据对应的有效时空特征数据,和该 组时空特征数据对应的有效时空特征数据的中间值,确定该组时空特征数据对应的最终的 有效时空特征数据。 在一种可能的实施方式中,所述数据提取子模块包括: 初始数据提取单元,用于提取所述多张唇部区域图像的N组初始时空特征数据; 加权单元,用于针对每组初始时空特征数据,基于与该组初始时空特征数据匹配 的权重,确定该组初始时空特征数据对应的加权时空特征数据; 目标数据提取单元,用于基于N组加权时空特征数据,确定N组时空特征数据。 在一种可能的实施方式中,所述唇语识别模块具体用于: 基于有效时空特征数据与文字的对应的关系,确定所述定所述多张唇部区域图像 对应的唇语内容。 在一种可能的实施方式中,上述图像处理装置还包括: 唇语内容处理模块,用于利用与每个文字对应的权重和偏移量,剔除得到的唇语 内容中的错别字。 第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述 存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述 存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或 第一方面的任一种可能的实施方式中的步骤。 第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介 质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的 任一种可能的实施方式中的步骤。 本申请实施例提供的图像处理方法及装置,首先从多张面部图像中的每张面部图 像中,获取唇部区域图像,得到多张唇部区域图像;之后,提取多张唇部区域图像的有效时 空特征数据;最后,基于提取得到的有效时空特征数据,确定多张唇部区域图像对应的唇语 内容。上述技术方案不是对整张面部图像进行数据处理,而是从面部图像中提取了唇部区 域图像,继而基于提取的唇部区域图像进行唇语识别,有效降低了唇语识别中需要处理的 数据量,提高了唇语识别的效率。同时,上述技术方案基于唇部区域图像提取有效时空特征 数据,并基于提取得到的有效时空特征数据,进行唇语识别,能够得到准确度更高的唇语内 容,提高了唇语识别的精确度。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1示出了本申请实施例所提供的一种图像处理系统的结构示意图; 图2示出了本申请实施例所提供的一种图像处理方法的流程图; 图3示出了本申请实施例所提供的另一种图像处理方法中,确定多张面部图像的 8 CN 111611827 A 说 明 书 5/15 页 流程图; 图4示出了本申请实施例所提供的另一种图像处理方法中,提取多张唇部区域图 像的N组时空特征数据的流程图; 图5示出了本申请实施例所提供的另一种图像处理方法中,确定每组时空特征数 据对应的有效时空特征数据的流程图; 图6示出了本申请实施例所提供的另一种图像处理方法中,确定每组时空特征数 据对应的最终的有效时空特征数据的流程图; 图7示出了本申请实施例所提供的一种图像处理装置的结构示意图; 图8示出了本申请实施例所提供的另一种图像处理装置中,有效数据确定子模块 的结构示意图; 图9示出了本申请实施例所提供的另一种图像处理装置中,数据提取子模块的结 构示意图; 图10示出了本申请实施例所提供的一种电子设备的结构示意图。
分享到:
收藏