
技术摘要:
本发明涉及图像处理技术领域,具体涉及场景图像的文本检测方法、装置及计算机设备,该方法包括:通过训练后的全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;筛选在所述文本预测框内的高置信度像素点;根据所述高置信度像素点,计算所述文本预测框对应的 全部
背景技术:
基于计算机视觉的文字识别在现今的大数据时代具有非常重大的使用意义。其是 许多智能化功能(例如推荐系统、机器翻译等)的实现基础。而文本检测作为文字识别过程 的前提条件,其检测精准度对于文字识别的效果具有显著的影响。 在复杂的自然场景下,文本存在多种不同位置的分布、排布形式多样、分布方向不 一致以及多语言混合等的特点,因此文本检测的任务极具挑战性。 传统技术中存在一种被称为CTPN的文本检测算法,其基于将完整文本先分割检测 再合并的思路来实现自然场景下的文本检测。传统技术通过分割再合并的方式检测文本一 方面检测精度不准确,另一方面会过度消耗检测时间,用户体验差,基于此,还有人提出了 一种被称为EAST(an efficient and accurate scene text detector)的文本检测方法。 其借助FCN的架构来进行特征提取和学习,直接进行端到端的训练和优化,消除不必要的中 间步骤。 但是,在EAST的实际应用过程中,仍然存在着许多的局限性,无法很好的满足实际 使用的需求。例如,最终获得的文本预测框的宽度与场景中实际的文本不相符,因此传统技 术需要在EAST的实际应用基础上,进一步改进。
技术实现要素:
本发明旨在解决现有的EAST算法识别精度无法满足实际使用需求的技术问题。 为解决上述技术问题,第一方面,本发明实施例提供了一种场景图像中的文本检 测方法,包括:对全卷积网络模型进行训练优化; 通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测 框;筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信度像素 点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;根据所述高 置信度像素点,计算所述文本预测框对应的最小外接矩形,所述最小外接矩形为将所述文 本预测框中所有高置信度像素点包含在内,面积最小的矩形;计算所述文本预测框与对应 的最小外接矩形之间的重叠度;在所述重叠度大于预设的重叠度阈值时,通过所述最小外 接矩形调整所述文本预测框的宽度;在所述场景图像中切割所述调整后的文本预测框,获 得待识别文本图像;识别所述待识别文本图像中的文字。 可选地,在计算所述文本预测框与对应的最小外接矩形之间的重叠度之前,所述 方法还,包括: 计算所述最小外接矩形内的高置信度像素点的置信度平均值; 在所述置信度平均值小于预设的筛选阈值时,剔除所述最小外接矩形。 4 CN 111582021 A 说 明 书 2/9 页 可选地,所述对全卷积网络模型进行训练优化,包括:构建全卷积网络模型;标注 训练标签,构建训练数据集;通过所述训练数据集和预设的损失函数,对所述全卷积网络模 型进行训练优化。 可选地,所述计算所述文本预测框与对应的最小外接矩形之间的重叠度,包括: 确定同时在所述文本预测框和所述最小外接矩形之内的像素点为第一像素点;确 定只属于所述文本预测框或所述最小外接矩形之内的像素点为第二像素点;计算所述第一 像素点和所述第二像素点的数量之和;计算所述第一像素点的数量与所述第一像素点和所 述第二像素点的数量之和之间的比值,作为所述重叠度。 可选地,在所述重叠度大于预设的重叠度阈值时,所述文本预测框通过如下公式 调整: P1=w*p (1-w)*d, 其中,P1为调整后的文本预测框宽度,w为权重系数,p为所述文本预测框的宽度,d 为所述对应的最小外接矩形的宽度。 可选地,所述根据所述高置信度像素点,计算所述文本预测框对应的最小外接矩 形,包括: 确定所述高置信度像素点中,距离最远的两个高置信度像素点为长度标定像素 点; 以所述长度标定像素点之间的连线作为第一方向,确定在与所述第一方向垂直的 第二方向上,距离最远的两个高置信度像素点作为宽度标定像素点; 以经过所述长度标定像素点并且与所述长度标定像素点之间的连线垂直的第一 线段作为长的同时,以经过所述宽度标定像素点并且与所述宽度标定像素点之间的连线垂 直的第二线段作为宽,围成所述最小外接矩形。 第二方面,本发明实施例提供了一种场景图像的文本检测装置,包括: 训练单元,用于对全卷积网络模型进行训练优化;文本预测框检测单元单元,用于 通过训练后的所述全卷积网络模型,检测确定所述场景图像中的若干个文本预测框;筛选 单元,用于筛选在所述文本预测框内,置信度大于预设的置信度阈值的像素点作为高置信 度像素点,所述置信度为所述全卷积网络模型输出的,像素点属于文本预测框的概率;最小 外接矩形确定单元,用于根据所述高置信度像素点,计算所述文本预测框对应的最小外接 矩形,所述最小外接矩形为将所述文本预测框中所有高置信度像素点包含在内,面积最小 的矩形;重叠度计算单元,用于计算所述文本预测框与对应的最小外接矩形之间的重叠度; 调整单元,用于在所述重叠度大于预设的重叠度阈值时,通过所述最小外接矩形调整所述 文本预测框的宽度;切割单元,用于在所述场景图像中切割所述调整后的文本预测框,获得 待识别文本图像;文本识别单元,用于识别所述待识别文本图像中的文本信息。 可选地,还包括:置信度计算单元,用于计算所述最小外接矩形内的高置信度像素 点的置信度平均值;最小外接矩形筛选单元,用于在所述置信度平均值小于预设的筛选阈 值时,剔除所述最小外接矩形。 第三方面,本发明实施例又提供了一种计算机设备,包括存储器、处理器及存储在 所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时 实现上述场景图像的文本检测方法。 5 CN 111582021 A 说 明 书 3/9 页 第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存 储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述场景 图像的文本检测方法。 本发明实施例提供的文本检测方法,可以在使用EAST方法实现文本检测的基础 上,通过高置信度的区域对文本预测框的宽度进行校正和调整,使得文本预测框的宽度可 靠的被缩小,实现更加精确的文本识别。 附图说明 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的 附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1为本发明实施例提供的一种计算机设备的结构示意图; 图2为本发明实施例提供的一种场景图像的文本检测方法的流程示意图; 图3为图1中步骤20的流程示意图; 图4为本发明实施例提供的筛选最小外接矩形的流程示意图; 图5为本发明实施例提供的一种场景图像的文本检测装置的示意图; 图6为本发明另一实施例提供的一种场景图像的文本检测装置的示意图。