logo好方法网

外观专利的多模态图像检索方法及系统


技术摘要:
本发明公开了外观专利的多模态图像检索方法及系统,首先对外观专利多个视图进行特征提取及融合,再对文本进行特征提取,综合考虑多种模态的信息,最后进行深度视觉语义嵌入,因此在大规模的外观设计专利数据库当中可以具有很好的检索效果;针对ANN中树结构没有对数据进  全部
背景技术:
由于图像是外观设计专利的主要内容,因此,进行外观设计专利搜索的关键技术 是以图搜图核心技术。然而,外观设计专利不仅仅包含了专利设计的多个视图信息,还包含 了相关的简要描述等文字信息,比如针对椅子的文字描述“这是一张圆角的木制长方形餐 桌椅”等等。因此,如何利用好外观设计专利的文字信息进行多模态检索以使其检索效果达 到最优,是一项具有现实意义的问题。 多模态学习技术由于其涉及的模态多,信息丰富等优点,近年来不少学者都投入 到其中进行研究。然而,不同模态异构数据如何进行融合以及不同模态高层语义方面如何 进行更好的统一却一直是多模态研究领域的热点与难点。西安电子科技大学在其专利“基 于深层主题自编码模型的多模态检索方法”(申请号:201910527804.X)中提出一种基于深 层主题自编码模型的多模态检索方法,以泊松伽马置信自编码网络为基础,发掘不同模态 隐层之间由浅到深的联系,得到一个用于检索多模态信息的联合特征,提高检索性能。然 而,其重点放在了多模态信息之间的互联,却并未考虑到多模态系统的规模通常是很大的 这一问题。因此,涉及到大规模时效果可能不如人意。 另外,针对外观专利进行的图像检索往往是一个大规模的图像数据集检索任务。 此类检索具有三个典型的主要特征:图像数据量大、特征维度高,要求响应时间短。近似最 近邻搜索(Approximate  Nearest  Neighbor  Search)是解决大规模相似性检索的有效方 法。ANN通过将全空间进行分割,然后通过某种方式,快速锁定在某几个子空间里做遍历,具 有计算效率高、检索质量好的优点。 ANN方法大体可以分为三大类:基于树的方法、哈希方法、矢量量化方法。基于递归 空间划分的树结构的经典方法包括KD树,R树,有利点树和分层k均值树。但是,对于高维数 据而言,大多数这些技术中的搜索性能甚至可能比遍历扫描更慢。而且,它们没有对数据进 行紧凑编码表示,因此在处理十亿等等大规模数据量的问题时效率较低。 紧凑编码表示通过将高维数据编码为紧凑码,通过简单的位串操作或预先计算的 查找表来进行快速距离(相似性)计算,具有很高的压缩率。目前可分为两大类:基于哈希和 基于矢量量化的方法。哈希方法中,数据点被编码为保持相似性的二进制代码,因此可以通 过遍历相似的二进制代码或在邻近的哈希桶中找到其近邻数据点。重庆邮电大学在其专利 “一种基于多图正则化深度哈希的多模态医学图像检索方法”(申请号:201910048281.0)中 提出利用多通道深度模型提取多模态医学图像的深度特征,然后构建近邻图以保持数据的 局部流行结构,最后将向量编码为哈希码在汉明距离来进行相似性搜索。然而,由于将高维 数据投影到汉明空间的过程中会有精度损失,汉明距离仅给出离散化的排序,而本质上不 提供精确的距离,因此基于哈希的汉明距离计算方法对于大规模的图像来说存在着精确度 4 CN 111597371 A 说 明 书 2/7 页 不够的问题。 基于量化的方法与聚类紧密相关。在这些方法中,一个数据点的紧凑编码表示就 是对包含该数据点的聚类的索引(即码字索引)进行编码。乘积量化将原始数据空间分解为 低维子空间,并使用K均值聚类分别量化每个子空间,并在子空间中进行编码。然后,它将聚 类索引串联起来作为紧凑编码。在这之后,又有不少研究者针对PQ进行了改进,例如Ge等提 出的OPQ,以及随后的LOPQ。相比于其他方法,PQ及其改进方法在近似K近邻搜索中获得了最 好的实验结果。部分原因是PQ平衡了乘积空间,并且可以更准确地估算距离。然而,它们也 存在随着每个子空间聚类数目增加导致检索效果变差,并且在距离估算方面也具有存在着 一定的偏置与方差的缺陷。
技术实现要素:
本发明为解决现有外观专利多模态图像检索方法其检索效率低下、检索精度不高 的问题,提供了外观专利的多模态图像检索方法及系统。 为实现以上发明目的,而采用的技术手段是: 外观专利的多模态图像检索方法,包括以下步骤: S1.提取外观专利多视图的图像特征及文本特征; S2.对所述图像特征及文本特征进行深度视觉语义量化,利用深度学习方法最小 化深度视觉语义量化的目标函数,从而训练得到外观专利多模态图像检索模型;其中深度 视觉语义量化包括对所述图像特征及文本特征进行深度视觉语义嵌入,对所述图像特征进 行视觉语义量化编码; S3.利用所述外观专利多模态图像检索模型对目标外观专利进行外观专利图像检 索,基于距离编码排序得到检索结果。 上述方案中,通过外观专利多模态图像检索模型对多种模态的特征信息训练达到 高层语义方面的统一;并提出包含了残差距离编码的紧凑编码,从而提高多模态图像检索 的效率。 优选的,所述步骤S1采用深度卷积神经网络Res2Net外观专利多视图的图像特征, 得到z1,z2,…,zn,其中n表示外观专利的视图个数;对所述图像特征进行加权融合,得到多 视图融合的图像特征: i表示外观专利的第i个视图,β表示外观专利第i个视图 的权重。 优选的,所述步骤S1采用Word2Vec的CBOW模型或skip-gram模型提取外观专利的 文本特征{v}。 优选的,步骤S2所述的对所述图像特征{z}及文本特征{v}进行深度视觉语义嵌入 具体包括:定义训练阶段的自适应间隔损失函数: 设 表示训练阶段的N1个原始图像的文本特征数据点,而每一个文本特征 5 CN 111597371 A 说 明 书 3/7 页 数据点都与标签集y(yn∈y)当中的某几个有关; 表示自适应间隔,用于保证 图像特征zn与正确文本标签的单词特征vi之间的内积相似性要大于其与错误文本标签的单 词特征vj之间的内积相似性。 优选的,步骤S2所述的对所述图像特征进行视觉语义量化编码具体包括:每个图 像特征zn被M个码本C=[C1 ,… ,CM]量化,其中每个码本Cm都包含了K个码字Cm=[Cm1 ,… , CmK],每个码字都是与文本特征v和图像特征z同维的D维k-means的聚类中心向量; 相应于M个码本,紧凑二进制编码也被分为M个部分b1n,…,bMn,即 则zn表示为 定义训练阶段的量化误差为: 上式服从于离散限制||bmn||0=1并且bmn∈{0,1}K,用于保证每一个码本里面有且 仅有一个码字被激活用来近似图像特征zn。 优选的,步骤S2所述的外观专利多模态图像检索模型具体为: 其中,α是自适应间隔损失与量化误差之间的权衡权重,w,C,B是模型需要更新的 参数,w是网络参数集。综合上面深度视觉语义嵌入及视觉语义量化编码两个损失函数,外 观专利多模态图像检索模型总的目标是最小化上式,从而完成训练。 优选的,所述步骤S3具体包括: 基于步骤S2训练好的模型,对用于查询的数据库向量进行视觉语义量化编码得 数据库向量中每个向量的紧凑编码表示为: 其中Bn为距离编码; 利用非对称距离计算方法对查询向量y与用于查询的数据库向量xn进行距离估 计: 其中, 是属于xn的距离编码Bn所对应的距离;其中查询向量y为目标外观专利经 所述步骤S1得到; 对计算得到的距离估计按升序排序,抽取其前k个作为检索结果。 本发明还提供了外观专利的多模态图像检索系统,包括: 特征提取模块,用于提取外观专利多视图的图像特征及文本特征; 深度视觉语义量化模块,用于对所述图像特征及文本特征进行深度视觉语义量 化,利用深度学习方法最小化深度视觉语义量化的目标函数,从而训练得到外观专利多模 6 CN 111597371 A 说 明 书 4/7 页 态图像检索模型;其中深度视觉语义量化包括对所述图像特征及文本特征进行深度视觉语 义嵌入,对所述图像特征进行视觉语义量化编码; 图像检索模块,用于利用所述外观专利多模态图像检索模型对目标外观专利进行 外观专利图像检索,基于距离编码排序得到检索结果。 与现有技术相比,本发明技术方案的有益效果是: 1、本发明针对大规模外观设计专利图像数据库的多模态的性质,以及目前的检索 方法并没有对外观设计专利的图像与文本描述的高层语义信息进行利用,导致外观设计专 利检索欠佳的问题,本发明首先外观专利多个视图进行特征提取及融合,再对文本进行特 征提取,综合考虑多种模态的信息,最后进行深度视觉语义嵌入,因此在大规模的外观设计 专利数据库当中可以具有很好的检索效果。 2、针对ANN中基于树结构与基于哈希的方法存在较大的缺陷性,树结构没有对数 据进行紧凑编码表示因此效率不高,哈希方法中汉明距离的计算只是离散排序而不是精确 的距离计算,本发明提出距离编码乘积量化,在编码的过程当中不仅将数据点编码为子空 间聚类索引的串联,而且还将每个数据点与其重建编码表示之间的距离也编码进来,形成 一个有效的对每个数据的紧凑编码表示;从而提高检索的效率及准确性。 附图说明 图1为实施例1的方法流程图。 图2为实施例1中图像检索的流程图。 图3为实施例1中的距离编码乘积量化示意图。 图4为实施例2的系统模块示意图。
下载此资料需消耗2积分,
分享到:
收藏