
技术摘要:
本发明公开了一种端到端的图章识别方法及系统,属于图像处理领域。该方法包括:输入原始图章图像,并提取原始图章图像的卷积网络特征图;基于卷积网络特征图,通过文本框定位网络定位原始图章图像中的文本框;通过卷积网络特征图和文本框的位置,获取文本框包含文字特 全部
背景技术:
在企业事业单位、银行、保险等等日常的工作中,有大量的合同、票据、公文、单据 等正式的文档需要处理、检查、识别、结构化,其中很重要的一个工作就是检查这些正式文 档是否有盖章,以及所盖的章是否正确,是否清晰可辨别等等。 以往的图章识别方法采用了多种传统图像处理方法(尤其OpenCV)或者多个深度 学习的方法组合,步骤多,处理复杂,消耗内存,消耗时间。 深度学习模型在训练过程中,从输入端(输入数据)到输出端会得到一个预测结 果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递(反向传播),每 一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,中间所 有的操作都包含在神经网络内部,不再分成多个模块处理。由原始数据输入,到结果输出, 从输入端到输出端,中间的神经网络自成一体(也可以当做黑盒子看待),这即为端到端技 术。 本发明提供了一个端到端的图章识别方法,可以处理诸如合同、发票、票据、单据、 公文、报告中图章,如图1所示。根据图章的使用类别可以包括合同专用章、发票专用章、保 险专用章、公司公章、政府公章等等,按照形状分,可以分为圆章、椭圆章、正方形章、长方形 章、三角形章、菱形章、六边形章等等,按照取图方式分有扫描仪扫描、高拍仪拍摄、手机拍 摄等等,按照颜色分红色、蓝色、灰色、二值图像等等。 发明介绍 本发明提供了一种端到端的完整图章识别方法及系统,可以处理所有可能的不规 则的图章,在一个训练环节完成整个图章识别的所有步骤,真正做到自动化学习。 根据本发明的第一方面,提供一种端到端的图章识别方法,所述方法包括: 步骤1:输入原始图章图像,并提取所述原始图章图像的卷积网络特征图; 步骤2:基于卷积网络特征图,通过文本框定位网络定位所述原始图章图像中的文 本框; 步骤3:通过卷积网络特征图和文本框的位置,获取文本框包含文字特征对应的文 字编码,得到文本信息; 步骤4:通过卷积网络特征图和文本框的位置获取图网络特征,并通过所述图网络 特征推理得到各文本框之间的关联关系; 步骤5:根据关联关系合并文本框以及文本信息,得到每一个关联的文本行几何信 息以及相应的文本行信息,并输出结果。 进一步地,所述步骤1采用U型卷积神经网络提取所述原始图章图像的卷积网络特 征图。 进一步地,所述U型卷积神经网络包括但不限于VGGNet、ResNet。 4 CN 111553363 A 说 明 书 2/5 页 进一步地,步骤1前还包括图章类型检测步骤。 进一步地,步骤2中,所述文本框定位网络包括但不限于图像分割网络、字符框回 归网络或者RCNN系列网络。 进一步地,所述步骤3具体包括: 步骤31:根据文本框的位置,将文本框映射到卷积网络特征图中; 步骤32:提取文本框内已有的卷积网络特征; 步骤33:经过全连接神经网络,得到各文本框包含文字特征对应的文字编码,基于 文字编码得到相应的文本信息。 进一步地,所述步骤4具体包括: 步骤41:对文本框的坐标信息进行卷积网络特征嵌入; 步骤42:提取文本框下面已有的卷积网络特征; 步骤43:提取该文本框跟周边其他文本框的局部图特征; 步骤44:将嵌入的卷积网络特征、已有的卷积网络特征以及局部图特征进行融合, 形成图网络特征; 步骤45:将所述图网络特征输入图卷积神经网络,计算各文本框相互之间的关联 关系,通过关联关系表述文本框之间的先后顺序以及连接关系。 进一步地,步骤41中,文本框的坐标信息形式为(x,y,Θ,w,h),x表示文本框距y轴 距离,y表示文本框距x轴距离,Θ表示文本框与水平线夹角,w表示文本框宽度,h表示文本 框高度。 进一步地,步骤43中,根据(x,y)的关系提取该文本框跟周边其他文本框的局部图 特征。 进一步地,步骤44中,将嵌入的卷积网络特征、已有的卷积网络特征以及局部图特 征进行融合的方式为: 步骤441:将文字框的坐标信息通过几何特征嵌入(embedding)方法,得到第一特 征向量(矩阵); 步骤442:提取文本框下面已有的卷积网络特征,并展开成第二特征向量(矩阵); 步骤443:将第一特征向量(矩阵)和第二特征向量(矩阵)进行concat,得到该文本 框的节点特征向量矩阵,并进行特征的归一化,得到归一化特征向量矩阵F; 步骤444:以文本框几何中心点为中心节点,依据空间相似度寻找中心节点的二阶 邻阶,得到文本框的相邻特征向量矩阵A,相邻的置为1,不相邻的置为0; 步骤445:最后得到局部融合特征(A,F)。 根据本发明的第二方面,提供一种端到端的图章识别系统,所述系统包括:处理器 和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行 如以上任一方面所述的端到端的图章识别方法。 根据本发明的第三方面,提供一种计算机可读存储介质,其特征在于,其上存储有 计算机程序,所述计算机程序被处理器执行时实现如以上任一方面所述的端到端的图章识 别方法。 本发明的有益效果包括: 1、在一个端到端的网络里面集成了图章识别所需的所有的功能,包含字符定位、 5 CN 111553363 A 说 明 书 3/5 页 字符识别、字符框的管理关系抽取,最后完成图章中文本行信息提取过程,在一个统一的训 练框架下完成一个完整的步骤,无需将这一过程分成多个分离的网络,极大提高了图章识 别的可靠性,可训练性。 2、在这个整体网络中,各个子模块之间共享了最大的信息量, 特别是前面的卷积网络特征提取特征;这样最大范围共享特征,加速了训练和推 理的过程,使得网络更容易训练; 3、利用图卷积网络获得各个文本框之间的相互关系和字符顺序关系,解决了图章 字符任意形状排列导致常规分析语义不清晰的问题,用机器学习的图神经网络来学习这种 关联关系,使得无需设计人工规则,极大统一了规则库的学习。 4、该方法能够适应各种排列方式和几何形状的图章,使得图章识别可以在一个统 一的、整体的、端到端的网络一把完成,具有很好的工程价值。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图示出的结构获得其他的附图。 图1示出现有技术中各种形状的章; 图2示出根据本发明实施例的一种端到端的图章识别方法流程图; 图3示出根据本发明实施例的图章识别数据流示意图; 图4示出根据本发明实施例的特征提取网络结构示意图; 图5示出根据本发明实施例的字符文本框预测结果示意图; 图6示出根据本发明实施例的文字识别结果示意图; 图7示出根据本发明实施例的图网络特征提取过程流程图; 图8示出根据本发明实施例的文本框的关联关系示意图; 图9示出根据本发明实施例的合并得到文字行几何信息和文字信息示意图。 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
技术实现要素:
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。 本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象 而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互 换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序 实施。 此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例 如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些 6 CN 111553363 A 说 明 书 4/5 页 步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它 步骤或单元。 多个,包括两个或者两个以上。 和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象 的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B, 单独存在B这三种情况。 实施例 根据本发明,提供了一种图章识别方法方法,整个流程图如图2-3所示,具体包括: 1、卷积网络特征提取 利用卷积神经网络对输入图像进行特征提取,本申请选用了一个U型网络,主干网 络是VGG类似或者其他Resnet等等,如图4所示,先下采样然后进行向上融合,这是一种典型 网络,对于输出的特征层称作卷积网络特征。 2、字符文本框预测 根据卷积网络特征,马上接上文本框网络子网络,文本框子网络可以是图像分割 网络(如Pixellink、TextField等等)、或者是字符框回归网络(EAST、Textboxes等等),或者 RCNN系列网络。该网络产生图像中每一个字符的文本框,如图5所示。 在这个方法中,卷积网络特征已经被提取了,所以主干网络无线计算,只是利用上 述方法中的预测输出部分。 3、字符分类识别 根据步骤2得到的文本框以及步骤1得到特征图,提取文本框内已有的卷积网络特 征向量,直接进行全连接FC网络,得到该文本框包含文字特征对应的文字编码,如图6所示。 4、局部图特征提取 根据步骤1的卷积网络特征和步骤2得到的预测文本框, 提取相应的图网络特征。对于每一个文本框,本申请提取三个特征: 1)对文本框坐标信息(x,y,Θ,w,h)进行特征嵌入; 2)同时提取该框下面已有的卷积网络特征, 3)根据(x,y)的关系,提取其跟周边其他文本框的局部图特征 将这三个特征进行融合,得到局部图融合特征。图7示出一种生成局部图特征的方 式: a)将文字框定位的几何特征(x,y ,Θ,w,h)通过几何特征嵌入(embedding)的方 法,得到相应的特征向量(矩阵); b)提取对应文本框位置下的卷积网络特征,并展开成对应的特征向量(矩阵); c)将步骤1和步骤2生成的特征进行concat,得到该文本框的节点特征矩阵,并进 行特征的归一化F; d)以文本框中心点为中心点依据空间相似度寻找中心节点的二阶邻阶,得到所有 框的相邻矩阵A,相邻的置为1,不相邻的置为0; e)最后得到局部图的融合特征(A,F)。 5、图卷积网络推理 将局部图的融合特征输入一个图卷积神经网络(GCN Graph Convolutional 7 CN 111553363 A 说 明 书 5/5 页 Network) ,计算各个文本框相互之间的关联关系,通过关联关系表述文本框之间的先后顺 序以及连接关系,如图8所示。 6、将图网络推理得到的关联关系合并文本框及其文本 将图网络推理得到的关联关系合并文本框以及文本,得到每一个关联的文字行几 何信息以及相应的文本行信息,如图9所示。 7、输出图章文本串 将图章识别的所有文字行及其每一个字符的文本框、文字编码输出成JSON、xml、 txt等格式。 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有 的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该 要素的过程、方法、物品或者装置中还存在另外的相同要素。 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法 可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前 者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出 贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空 调器,或者网络设备等)执行本发明各个实施例所述的方法。 上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体 实施方式,上述的