logo好方法网

社交媒体跨模态搜索中数据特征生成器训练及搜索方法


技术摘要:
本发明提供一种社交媒体跨模态搜索中数据特征生成器训练及搜索方法,所述训练方法包括:获取训练样本集,基于训练样本集采用对抗学习的生成器获取各数据信息的表示特征,通过判别器监督对抗生成器,通过固定判别器调参优化生成器以及的固定生成器调参优化判别器,多次  全部
背景技术:
对社交网络跨模态数据内容进行搜索的前提是对社交网络数据进行搜索特征挖 掘,并主要采取两种策略:基于人工的搜索特征分析与挖掘和基于机器学习方法的搜索特 征挖掘。社交媒体中数据量庞大,文本简短且不规则的数据使得文本存在语义稀疏性的问 题;同时社交网络中图像像素低以及构图不完整的情况,导致了与社交网络文本相似语义 稀疏性问题。基于这些特点,人工的搜索特征分析无法适应社交网络中的庞大数据量,而现 有的机器学习难以实现对语义稀疏的文本或图像的特征提取。因此,难以实现不同模态数 据内容之间的搜索。
技术实现要素:
鉴于此,本发明实施例提供了一种社交媒体跨模态搜索中数据特征生成器训练及 搜索方法,以解决现有技术中无法针对社交媒体中数据信息进行跨模态搜索的问题。 本发明的技术方案如下: 一方面,本发明提供一种社交媒体跨模态搜索中数据表示特征生成器的训练方 法,包括: 获取训练样本集,所述训练样本集包括:多种模态的社交媒体数据信息,并将各数 据信息所属的话题以及对应的模态作为标签;其中,多种模态的数据信息包括:文字模态信 息和图像模态信息; 基于所述训练样本集采用生成器获取各数据信息的表示特征,所述生成器包括: 文字模态生成器和图像模态生成器,所述文字模态生成器和所述图像模态生成器用于获取 相应模态下所述数据信息的原始特征,并分割各原始特征获得相应的多个局部特征,基于 所述局部特征,通过自注意力机制获取各模态下所述数据信息在同一表示子空间内的所述 表示特征; 通过判别器监督对抗所述生成器,所述判别器所采用的损失函数包括:由模态内 语义损失函数和模态间相似度损失函数加权求和得到的生成损失函数,以及跨模态判别损 失函数;其中,通过最小化所述模态内语义损失函数的计算值使所述表示特征与对应话题 标签之间的分布差异最小化,通过最小化所述模态间相似度损失函数的计算值使相同话题 下不同模态数据信息的所述表示特征之间的相关性最大化,通过最小化所述跨模态判别损 失函数的计算值使不同模态数据信息的所述表示特征之间关于模态的区别最大化; 通过最小化所述生成损失函数的计算值与所述跨模态判别损失函数的计算值之 差,调参优化所述生成器;通过最大化所述生成损失函数的计算值与所述跨模态判别损失 函数的计算值之差,调参优化所述判别器;多次迭代得到最终的生成器。 6 CN 111598712 A 说 明 书 2/11 页 在一些实施例中,获取多种模态各数据信息的原始特征,包括: 获取所述文字模态信息的TF-IDF特征并作为所示文字模态信息的原始特征,获取 所述图像模态信息的卷积特征作为所述图像模态信息的原始特征,记录各数据信息的所述 原始特征X={x 1,x 2,…,x m,x 1,x 2,…,x n},x mt t t v v v t 为第m个文字模态信息的原始特征,x nv 为 第n个图像模态信息的原始特征,1≤m≤M,1≤n≤N,M与N为正整数。 在一些实施例中,分割各原始特征获得相应的多个局部特征,基于所述局部特征 通过自注意力机制,获取各模态的数据信息在同一表示子空间内的所述表示特征,包括: 分别将所述文字模态信息的TF-IDF特征以及所述图像模态信息的卷积特征分割 为k块,记录为:x m={b m,1,b m,2,…,b m,k},x n={b n,1,b n,2,…,b n,kt t t t v v v v },b m,kt 为第m个文字模 态信息的第k块文本语义特征,b n,kv 为第n个图像模态信息的第k块图像语义特征; 利用函数f t和g t将分割后的所述文本语义特征转换为表示子空间的特征: 其中w ft 和w gt 是ft和gt的参数向量; 第m个文字模态信息的第i块文本语义特征和第j块文本语义特征之间的注意参数 为: 第m个文字模态信息的第i块文本语义特征的输出特征表达式为: 其中, w ht 是ht的参数向量; 第m个文字模态信息的所述表示特征为:S m={o m,1,o m,2,...,o m,kt t t t }; 利用函数f v和g v将分割后的所述图像语义特征转换为表示子空间的特征: 其中w f和w gv v 是fv和gv的参数向量; 第n个图像模态信息的第i个块图像语义特征和第j个块图像语义特征之间的注意 参数为: 第n个图像模态信息的第i块图像语义特征的输出特征表达式为: 其中, w hv 是hv的参数向量; 第n个图像模态信息的所述表示特征为:S nv ={o n,1v ,o n,2v ,...,o n,kv }。 在一些实施例中,所述模态内语义损失函数为: 其中,y i jt 和yv 分别表示所述训练样本集内第i个所述文字模态信息和第j个所述 图像模态信息one-hot形式的话题标签向量,在同一话题下 为所述文字模态 生成器的参数集合为θt时第i个文字模态信息对应的表示特征, 为第i个文字模态信息的 原始特征; 为所述图像模态生成器的参数集合为θv时第j个图像模态信息对应的表 7 CN 111598712 A 说 明 书 3/11 页 示特征, 为第j个图像模态信息的原始特征;M为所述训练样本集内文字模态信息的数量, N为所述训练样本集内图像模态信息的数量;函数 用于把 和 通过全连接神 经网络处理成能够与y it 和/或y jv 相乘的维度。 在一些实施例中,所述模态间相似度损失函数为: 其中,y it 和y jv 分别表示所述训练样本集内第i个所述文字模态信息和第j个所述 图像模态信息one-hot形式的话题标签向量,在同一话题下 为所述文字模态 生成器的参数集合为θt时第i个文字模态信息对应的表示特征, 为第i个文字模态信息的 原始特征; 为所述图像模态生成器的参数集合为θv时第j个图像模态信息对应的表 示特征, 为第j个图像模态信息的原始特征;M为所述训练样本集内文字模态信息的数量, N为所述训练样本集内图像模态信息的数量; 所述生成损失函数为:Lgeneration=αLlabel βLsimilarity,α和β分别为所述模态内语义 损失函数和所述模态间相似度损失函数的权重系数。 在一些实施例中,所述跨模态判别损失函数为: 其中,ce是被搜索目标数据信息one-hot形式的模态标签; 为所述文字模 态生成器的参数集合为θt时第e个文字模态信息对应的表示特征, 为第e个文字模态信息 的原始特征; 为所述图像模态生成器的参数集合为θv时第e个图像模态信息对应的 表示特征, 为第e个图像模态信息的原始特征;训练过程中,文字模态信息与图像模态信 息成对输入,E为数据对的数量;函数 在参数集合θp控制下将各文字模态信息和图像模态 信息的表示特征转换至同一表示子空间。 另一方面,本发明还提供一种社交媒体跨模态数据信息搜索方法,包括: 将待搜索数据信息输入生成器,得到所述待搜索数据信息的表示特征; 其中,所述生成器基于训练样本器通过对抗学习得到;所述训练样本集包括:多种 模态的社交媒体数据信息,并将各数据信息所属的话题以及对应的模态作为标签;其中,多 种模态的数据信息包括:文字模态信息和图像模态信息;所述生成器包括:文字模态生成器 和图像模态生成器,所述文字模态生成器和所述图像模态生成器用于获取相应模态下所述 数据信息的原始特征,并分割各原始特征获得相应的多个局部特征,基于所述局部特征,通 过自注意力机制获取各模态下所述数据信息在同一表示子空间内的所述表示特征;通过判 别器监督对抗所述生成器,所述判别器所采用的损失函数包括:由模态内语义损失函数和 模态间相似度损失函数加权求和得到的生成损失函数,以及跨模态判别损失函数;其中,通 过最小化所述模态内语义损失函数的计算值使所述表示特征与对应话题标签之间的分布 差异最小化,通过最小化所述模态间相似度损失函数的计算值使相同话题下不同模态数据 信息的所述表示特征之间的相关性最大化,通过最小化所述跨模态判别损失函数的计算值 使不同模态数据信息的所述表示特征之间关于模态的区别最大化;通过最小化所述生成损 8 CN 111598712 A 说 明 书 4/11 页 失函数的计算值与所述跨模态判别损失函数的计算值之差,调参优化所述生成器;通过最 大化所述生成损失函数的计算值与所述跨模态判别损失函数的计算值之差,调参优化所述 判别器;多次迭代得到最终的生成器; 遍历目标模态的现有数据信息,并获取各现有数据信息通过所述生成器产生的表 示特征; 基于相似度匹配获取与所述待搜索数据信息的表示特征最相近的一条或多条目 标模态的所述现有数据信息。 在一些实施例中,基于相似度匹配获取与所述待搜索数据信息的表示特征最相近 的一条或多条目标模态的所述现有数据信息,包括: 基于所述待搜索数据信息的表示特征以及目标模态的各现有数据信息对应的表 示特征,计算跨模态匹配的L2范数作为相似度: 其中, 为所述文字模态生成器的参数集合为 时第i个文字模态信息对应 的表示特征, 为第i个文字模态信息的原始特征; 为所述图像模态生成器的参数 集合为 时第j个图像模态信息对应的表示特征, 为第j个图像模态信息的原始特征;固 定 或 之一为相应模态所述待搜索数据信息的表示特征,另一个为目标模态 的各现有数据的表示特征; 基于所述相似度对各现有数据信息进行排序,并获取与所述待搜索数据信息相似 度最高的一条或多条目标模态的现有数据信息。 另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并 可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。 另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特 征在于,该程序被处理器执行时实现上述方法的步骤。 本发明的有益效果是,利用所述生成器在自注意力机制下分别对文字模态信息和 图像模态信息进行表示特征的映射,提取社交媒体中跨模态数据内容在同一表示子空间下 的语义特征;基于生成对抗性学习,利用所述判别器的监督提高所述生成器产生的所述表 示特征在相同模态数据间信息间以及不同模态数据信息间映射相应话题的准确性,同时, 使同一话题下不同模态数据信息间的所述表示特征分布区别化。从而适应社交媒体中数据 信息语义稀疏性的特点,提高跨模态数据信息之间搜索的准确性。 本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对 于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获 知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的 结构实现到并获得。 本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体 所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。 附图说明 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不 9 CN 111598712 A 说 明 书 5/11 页 构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为 了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明 实际制造的示例性装置中的其它部件可能变得更大。在附图中: 图1为本发明一实施例所述社交媒体跨模态搜索中数据特征生成器训练方法的流 程示意图; 图2为本发明一实施例所述社交媒体跨模态搜索中数据特征生成器训练方法的逻 辑结构示意图; 图3为本发明一实施例所述社交媒体跨模态搜索中数据特征生成器训练方法迭代 优化的结构示意图; 图4为本发明一实施例所述社交媒体跨模态数据信息搜索方法的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏