
技术摘要:
本申请公开了一种从图像中提取结构化数据的方法,该方法包括:利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合,所述图像中包括至少一条结构化数据;根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像;识别所述至少一个 全部
背景技术:
随着人工智能和大数据浪潮的来袭,对图像中的结构化数据进行提取成为了一大 研究的热点,经提取的结构化数据便于在数据库中保存和使用。目前,结构化数据提取方案 广泛地应用于各大企业的资源管理系统、账单系统,医院的医疗信息管理系统,教育一卡通 系统等。 传统的结构化数据提取是对图像进行文字检测和文字识别后的一项单独的技术, 因此结构化数据提取的准确率在很大程度上会受到前部分文字识别的准确率的影响,这导 致对于版面较复杂的图像结构化数据提取的准确率不高。另一方面,传统从输入图像到完 成结构化数据提取的过程消耗的计算资源多、时间长。
技术实现要素:
本申请提供了一种从图像中提取结构化数据的方法,该方法通过利用图像文字提 取模型和文字识别模型,提升了结构化数据提取的效率和准确率。 第一方面,本申请提供了一种从图像中提取结构化数据的方法,该方法由计算设 备系统执行,所述方法包括:利用图像文字提取模型获取所述图像中的第一信息集合和第 二信息集合,所述图像中包括至少一条结构化数据;根据所述第一信息集合包括的至少一 个第一信息获取所述图像中的至少一个文字子图像;识别所述至少一个文字子图像中的文 字信息;根据所述至少一个文字子图像中的文字信息与所述第二信息集合包括的至少一个 第二信息,获得所述图像中的至少一条结构化数据。利用所述方法从图像中提取结构化数 据无需依次经过文字位置检测、文字识别和结构化数据提取三个模型,只需结合图像文字 提取模型输出的文字属性信息和文字识别模型输出的文字信息即可获得结构化数据,提高 了结构化数据提取的效率,且避免了结构化数据提取的准确率受到多个模型误差叠加的影 响,提升了结构化数据提取的准确率。 第一方面的一种可能的实现方式中,所述至少一个第一信息指示文字位置信息, 所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置;所述至少一个第二 信息指示文字属性信息,所述文字属性信息表示所述至少一个文字子图像中文字信息的属 性;每条结构化数据包括:所述文字属性信息和所述文字信息。 第一方面的一种可能的实现方式中,所述图像文字提取模型包括主干网络、至少 一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络;所述利用图像文 字提取模型获取所述图像中的第一信息集合和第二信息集合包括:将所述图像输入所述主 干网络,通过所述主干网络对所述图像进行特征提取,输出至少一个特征张量;将所述主干 网络输出的每个特征张量输入一个特征融合子网络,通过所述特征融合子网络获得所述特 5 CN 111615702 A 说 明 书 2/13 页 征张量对应的融合特征张量;将所述融合特征张量输入一个分类子网络和一个边框回归子 网络;所述边框回归子网络根据所述融合特征张量对应的第一候选框执行对所述图像中文 字子图像在所述图像中的位置的定位,获取所述至少一个第一信息;所述分类子网络根据 所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类,获取所述至少一 个第二信息。所述图像文字提取模型实质为一个多分类深度神经网络,其输出文字属性信 息和文字位置信息对于提取结构化数据起到了关键作用,提升了结构化数据提取的效率。 第一方面的一种可能的实现方式中,每个特征融合子网络包括至少一个并列的卷 积层和融合器;所述将所述主干网络输出的每个特征张量输入一个特征融合子网络,通过 所述特征融合子网络获得所述特征张量对应的融合特征张量包括:将所述主干网络输出的 所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层;将所述至少一个并列的 卷积层中各卷积层的输出输入所述融合器;所述融合器融合所述至少一个并列的卷积层中 各卷积层的输出,输出所述特征张量对应的融合特征张量。所述特征融合子网络将主干网 络输出的每一个特征张量进行了进一步的特征提取和融合,提升了整个图像文字提取模型 的准确率。 第一方面的一种可能的实现方式中,边框回归子网络根据所述融合特征张量对应 的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位,获取所述至少一 个第一信息还包括:根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对 应的第一候选框。 第一方面的一种可能的实现方式中,分类子网络根据所述融合特征张量对应的第 二候选框执行对所述图像中文字属性的分类,获取所述至少一个第二信息还包括:根据预 设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。 根据上述方法获得的所述第一候选框和第二候选框的形状更符合文字区域的特 点,提高了获取的文字位置信息和文字属性信息的准确率。 第二方面,本申请提供了一种训练图像文字提取模型的方法,所述方法包括:初始 化图像文字提取模型中的参数;图像文字提取模型读取训练数据集中的训练图像;主干网 络对训练图像进行特征提取,输出至少一个特征张量;将主干网络输出的每个特征张量输 入特征融合子网络,所述特征融合子网络输出对应的融合特征张量;所述每个融合特征张 量分别输入分类子网络和边框回归子网络,分类子网络和边框回归子网络对每个融合特征 张量进行候选区域映射,对每个融合特征张量对应的候选区域进行预测;根据预测的结果 与训练图像标注的结果之间的损失函数,对图像文字提取模型中的参数进行更新。 第二方面的一种可能实现方式中,所述训练数据集中的训练图像中包括至少一条 结构化数据;所述训练图像的某些文字区域被带有属性信息的框进行标注。 第二方面的一种可能实现方式中,所述每个特征融合子网络包括至少一个并列的 卷积层和至少一个融合器;所述将所述主干网络输出的每个特征张量输入一个特征融合子 网络,通过所述特征融合子网络获得所述特征张量对应的融合特征张量包括:将所述主干 网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层;将所述至少 一个并列的卷积层中各卷积层的输出输入所述融合器;所述融合器融合所述至少一个并列 的卷积层中各卷积层的输出,输出所述特征张量对应的融合特征张量。 第二方面的一种可能实现方式中,根据预测的结果与训练图像标注的结果之间的 6 CN 111615702 A 说 明 书 3/13 页 损失函数,对图像文字提取模型中的参数进行更新包括:根据分类子网络输出的文字属性 预测结果计算所述文字属性预测结果与训练图像真实文字属性标注之间的差异,得到文字 属性损失函数值,根据所述文字属性损失函数值对图像文字提取模型中的参数进行更新。 第二方面的一种可能实现方式中,根据预测的结果与训练图像标注的结果之间的 损失函数,对图像文字提取模型中的参数进行更新包括:根据边框回归子网络输出的文字 位置预测结果计算所述文字位置预测结果与训练图像真实文字位置标注之间的差异,得到 文字位置损失函数值,根据所述文字位置损失函数值对图像文字提取模型中的参数进行更 新。 第三方面,本申请提供了一种从图像中提取结构化数据的装置,所述装置包括图 像文字提取模型,用于获取所述图像中的第一信息集合和第二信息集合,所述图像中包括 至少一条结构化数据;文字子图像截取模块,用于根据所述第一信息集合包括的至少一个 第一信息获取所述图像中的至少一个文字子图像;文字识别模型,用于识别所述至少一个 文字子图像中的文字信息;结构化数据构成模块,用于根据所述至少一个文字子图像中的 文字信息与所述第二信息集合中包括的至少一个第二信息结合,获得所述图像中的至少一 条结构化数据。利用所述装置从图像中提取结构化数据无需依次经过文字位置检测、文字 识别和结构化数据提取三个模型,只需结合图像文字提取模型输出的文字属性信息和文字 识别模型输出的文字信息即可获得结构化数据,提高了结构化数据提取的效率,且避免了 结构化数据提取的准确率受到多个模型误差叠加的影响,提升了结构化数据提取的准确 率。 第三方面的一种可能的实现方式中,所述至少一个第一信息指示文字位置信息, 所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置;所述至少一个第二 信息指示文字属性信息,所述文字属性信息表示所述至少一个文字子图像中文字信息的属 性;每条结构化数据包括:所述文字属性信息和所述文字信息。 第三方面的一种可能的实现方式中,所述图像文字提取模型包括主干网络、至少 一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络;所述图像文字提 取模型用于将所述图像输入所述主干网络,所述主干网络用于对所述图像进行特征提取, 输出至少一个特征张量;将所述主干网络输出的每个特征张量输入一个特征融合子网络, 所述特征融合子网络用于获得所述特征张量对应的融合特征张量;将所述融合特征张量输 入一个边框回归子网络和一个分类子网络;所述边框回归子网络用于根据所述融合特征张 量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位,获取所述 至少一个第一信息;所述分类子网络用于根据所述融合特征张量对应的第二候选框执行对 所述图像中文字属性的分类,获取所述至少一个第二信息。 第三方面的一种可能的实现方式中,每个特征融合子网络包括至少一个并列的卷 积层和融合器;所述特征融合子网络用于将所述主干网络输出的所述特征张量输入所述至 少一个并列的卷积层中的每一个卷积层;将所述至少一个并列的卷积层中各卷积层的输出 输入所述融合器;其中,所述融合器用于融合所述至少一个并列的卷积层中各卷积层的输 出,输出所述特征张量对应的融合特征张量。所述特征融合子网络将主干网络输出的每一 个特征张量进行了进一步的特征提取和融合,提升了整个图像文字提取模型的准确率。 第三方面的一种可能的实现方式中,所述边框回归子网络还用于根据预设定的高 7 CN 111615702 A 说 明 书 4/13 页 度值和预设定的宽高比例值获得所述融合特征张量对应的第一候选框。 第三方面的一种可能的实现方式中,所述分类子网络还用于根据预设定的高度值 和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。 根据上述方法获得的所述第一候选框和第二候选框的形状更符合文字区域的特 点,提高了获取的文字位置信息和文字属性信息的准确率。 第四方面,本申请还提供了一种训练图像文字提取模型的装置,所述装置包括:初 始化模块、图像文字提取模型、反向激励模块和存储模块,用于实现第二方面或第二方面的 任意一种可能的实现方式提供的方法。 第五方面,本申请提供了一种计算设备系统,该计算设备系统包括至少一个计算 设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储 器中的代码以执行第一方面或第一方面的任意一种可能的实现方式提供的方法。 第六方面,本申请还提供了一种计算设备系统,该计算设备系统包括至少一个计 算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存 储器中的代码以执行第二方面或第二方面的任意一种可能的实现方式提供的方法。 第七方面,本申请提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储介 质被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式 中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如随 机访问存储器,非易失性存储器,例如快闪存储器、硬盘(英文:hard disk drive,缩写: HDD)、固态硬盘(英文:solid state drive,缩写:SSD)。 第八方面,本申请还提供了一种非瞬态的可读存储介质,所述非瞬态的可读存储 介质被计算设备执行时,所述计算设备执行前述第二方面或第二方面的任意可能的实现方 式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器,例如 随机访问存储器,非易失性存储器,例如快闪存储器、硬盘(英文:hard disk drive,缩写: HDD)、固态硬盘(英文:solid state drive,缩写:SSD)。 第九方面,本申请提供了一种计算设备程序产品,所述计算设备程序产品包括计 算机指令,在被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能 的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第 一方面或第一方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序 产品并在计算设备上执行该计算机程序产品。 第十方面,本申请还提供了另一种计算设备程序产品,所述计算设备程序产品包 括计算机指令,在被计算设备执行时,所述计算设备执行前述第二方面或第二方面的任意 可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前 述第二方面或第二方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机 程序产品并在计算设备上执行该计算机程序产品。 附图说明 为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图 作以简单地介绍。 图1为本申请实施例提供的一种系统架构示意图; 8 CN 111615702 A 说 明 书 5/13 页 图2为本申请实施例提供的另一种系统架构示意图; 图3为本申请实施例提供的一种图像文字提取模型的结构示意图; 图4为本申请实施例提供的主干网络输出N个特征张量的示意图; 图5为本申请实施例提供的特征融合子网络的结构示意图; 图6为本申请实施例提供的图像文字提取模型训练的流程示意图; 图7为本申请实施例提供的一种结构化数据提取方法的流程示意图; 图8为本申请实施例提供的一种装置300的示意图; 图9为本申请实施例提供的另一种装置400的示意图; 图10为本申请实施例提供的一种计算设备系统中计算设备500的示意图; 图11为本申请实施例提供的另一种计算设备系统中计算设备600的示意图; 图12为本申请实施例提供的另一种计算设备系统中计算设备700的示意图。