logo好方法网

一种提取图片中的文本的方法和装置


技术摘要:
本发明公开了一种提取图片中的文本的方法和装置,涉及计算机技术领域。该方法的一个具体实施方式包括:在待识别图片中划分多个文本框,其中文本框中包括文本像素点和非文本像素点;对多个文本框进行合并,合并的方法至少包括以下一种:确定相邻的文本框之间是否具有重  全部
背景技术:
包括:在待识别图片中划分多个文 本框,其中文本框中包括文本像素点和非文本像 素点;对多个文本框进行合并,合并的方法至少 包括以下一种:确定相邻的文本框之间是否具有 重叠部分,若具有重叠部分,则合并相邻的文本 框;确定相邻的文本框之间的水平距离、竖直距 离或凸包距离是否不大于预设阈值,若不大于预 设阈值,则连通相邻的文本框;合并后,从文本框 中提取文本。该实施方式能够提高提取文本的完 整性,使得提取结果更准确,尤其适用于需要翻 译的情况,可以使翻译结果更准确,并可以填充 图片,提高大批量图片的识别和处理效率。 CN 111612003 A CN 111612003 A 权 利 要 求 书 1/2 页 1.一种提取图片中的文本的方法,其特征在于,包括: 在待识别图片中划分多个文本框,其中所述文本框中包括文本像素点和非文本像素 点; 对多个所述文本框进行合并,合并的方法至少包括以下一种: 确定相邻的所述文本框之间是否具有重叠部分,若相邻的所述文本框之间具有重叠部 分,则合并相邻的所述文本框; 确定相邻的所述文本框之间的水平距离、竖直距离或凸包距离是否不大于预设阈值, 若相邻的所述文本框之间的水平距离、竖直距离或凸包距离不大于所述预设阈值,则连通 相邻的所述文本框; 合并后,从所述文本框中提取文本。 2.根据权利要求1所述的方法,其特征在于,所述方法还包括: 遍历相邻的所述文本框之间的属性是否相同; 若相邻的所述文本框之间的属性相同,则确定相邻的所述文本框属于同一个段落; 按段落在所述文本框中提取文本; 其中,所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和 识别文本属性中的一种或多种。 3.根据权利要求1所述的方法,其特征在于,所述方法还包括: 对所述文本框中的像素点进行二值化,形成二值化文本框; 将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作 为正极性二值化文本框; 将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作 为负极性二值化文本框; 将所述负极性二值化文本框进行反向处理,使其变为正极性二值化文本框; 根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中 的文本像素点的位置,用所述文本框中的非文本像素点填充所述文本像素点,形成背景文 本框。 4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 在所述背景文本框中添加预设文本。 5.根据权利要求1所述的方法,其特征在于,在待识别图片中划分多个文本框的方法包 括: 使用全卷积网络模型,在所述待识别图片中划分出多个文本框,计算所述文本框中每 个像素点是文本像素点的置信度,其中所述文本框的位置以旋转矩形坐标表示。 6.根据权利要求1所述的方法,其特征在于,所述方法还包括: 确定相邻的所述文本框中的文本的笔划宽度值是否相同;若相邻的所述文本框中的文 本的笔划宽度值相同,则对相邻的所述文本框进行合并或连通。 7.一种提取图片中的文本的装置,其特征在于,包括: 划分模块,用于在待识别图片中划分多个文本框,其中所述文本框中包括文本像素点 和非文本像素点; 合并模块,用于确定相邻的所述文本框之间是否具有重叠部分,若相邻的所述文本框 2 CN 111612003 A 权 利 要 求 书 2/2 页 之间具有重叠部分,则合并相邻的所述文本框;和/或用于确定相邻的所述文本框之间的水 平距离、竖直距离或凸包距离是否不大于预设阈值,若相邻的所述文本框之间的水平距离、 竖直距离或凸包距离不大于所述预设阈值,则连通相邻的所述文本框; 提取模块,用于从所述文本框中提取文本。 8.根据权利要求7所述的装置,其特征在于,所述装置还包括: 段落模块,用于遍历相邻的所述文本框之间的属性是否相同; 若相邻的所述文本框之间的属性相同,则确定相邻的所述文本框属于同一个段落; 其中,所述属性包括笔划宽度属性、文本框位置属性、背景颜色属性、文本颜色属性和 识别文本属性中的一种或多种; 所述提取模块还用于按段落在所述文本框中提取文本。 9.根据权利要求7所述的装置,其特征在于,所述装置还包括: 擦除模块,用于对所述文本框中的像素点进行二值化,形成二值化文本框; 将所述文本像素点的像素值大于所述非文本像素点的像素值的所述二值化文本框作 为正极性二值化文本框; 将所述文本像素点的像素值小于所述非文本像素点的像素值的所述二值化文本框作 为负极性二值化文本框; 将所述负极性二值化文本框进行反向处理,使其变为正极性二值化文本框; 根据所述正极性二值化文本框中的文本像素点的位置确定与其对应的所述文本框中 的文本像素点的位置,用所述文本框中的非文本像素点填充所述文本像素点,形成背景文 本框。 10.根据权利要求9所述的装置,其特征在于,所述装置还包括: 写入模块,用于在所述背景文本框中添加预设文本。 11.根据权利要求7所述的装置,其特征在于,所述划分模块还用于使用全卷积网络模 型,在所述待识别图片中划分出多个文本框,计算所述文本框中每个像素点是文本像素点 的置信度,其中所述文本框的位置以旋转矩形坐标表示。 12.根据权利要求7所述的装置,其特征在于,所述合并模块还用于确定相邻的所述文 本框中的文本的笔划宽度值是否相同;若相邻的所述文本框中的文本的笔划宽度值相同, 则对相邻的所述文本框进行合并或连通。 13.一种电子设备,其特征在于,包括: 一个或多个处理器; 存储装置,用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实 现如权利要求1-6中任一所述的方法。 14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被一个或多 个处理器执行时实现如权利要求1-6中任一所述的方法。 3 CN 111612003 A 说 明 书 1/10 页 一种提取图片中的文本的方法和装置 技术领域 本发明涉及计算机技术领域,尤其涉及一种提取图片中的文本的方法、装置、电子 设备和计算机可读介质。
技术实现要素:
对于带有文本(如文字等)的图片,如何对图片中的文本进行识别、提取并进一步 处理一直是业界广泛关注的问题。例如在电商领域,有大量的商品、广告图片中会带有商品 信息、宣传用语等文本,但是这些文本与图片融为一体,不易单独进行提取。 在实现本发明过程中,发明人发现现有技术中至少存在如下问题: 现有的文本识别和提取手段多关注于文字信息的识别和提取,但是提取的结果多 为单字、单词或者是杂乱的文字,破坏了文本的完整性。尤其是若利用提取出来的文字进行 翻译时,若破坏了某句话或者某段落的整体性,很有可能会导致翻译的结果不正确。并且, 对于大批量的图片,则要提取的文本数量也非常巨大,传统方法为了保证翻译的准确性多 采用人工进行翻译,效率低,成本高。
下载此资料需消耗2积分,
分享到:
收藏