logo好方法网

一种基于领域内部语义的网络表示学习方法及系统


技术摘要:
本发明提供一种基于领域内部语义的网络表示学习方法及系统,该方法包括获取图信息和标签信息;基于所获取的图信息和标签信息,通过读出函数,概括出每一个可见类对应的类语义描述向量;通过预设的网络模型探索图结构信息,并将网络模型的输出投影到语义向量空间和图结  全部
背景技术:
在面向信息传播的社交网络分析的问题中,网络表示学习是一非常重要的问题。 其目标是为网络中每个节点学习一个稠密、连续和低维的向量作为其特征表示。现有工作 已证明,学习到的特征对于各种重要的社交网络数据挖掘任务都有所帮助,如信息传播、节 点分类、链路预测和网络可视化等。 网络表示学习的一个最基本要求是在所学习特征空间中体现原有的网络结构。早 期的一些研究工作,主要保持原来存在链接关系的节点在特征空间中的相似性。现在,更多 的研究工作集中于:在特征空间内,保证原有网络结构中未观测到,但存在合理近邻关系的 节点之间的相似性。为了利用网络结构中的标注信息,近些年来半监督网络学习引起了研 究者的广泛关注,基本思想是同时优化一个利用网络结构信息的网络结构嵌入模型和一个 利用标注信息的分类模型。由于同时考虑到了网络的结构信息和标注信息,学到的特征一 般具有很强的辨别能力,也往往能达到当下最好的效果。 现有的半监督网络表示学习的工作大多数都假设标注数据是平衡的,即网络中的 每一种类别都至少提供一个已标注的节点。对于完全非平衡的场景,即部分类别完全没有 任何已标注的节点,已有的半监督学习方法通常表现不好,分类精度会出现明显的下降。而 这一场景在实际应用中常常出现,例如,著名的文本网络站点维基百科包含非常多种类的 词条页面,比如电影、文学、历史等等,我们很难对该站点上所有主题都提供一些标注样本。 因此需要提出一种新的方法,对部分类别未提供任何标注信息的场景进行网络表示学习。
技术实现要素:
本发明要解决的技术问题是提供一种基于领域内部语义的网络表示学习方法及 系统,以解决现有网络表示学习方法存在的上述问题。 为解决上述技术问题,本发明提供如下技术方案: 一种基于领域内部语义的网络表示学习方法,所述方法包括: 获取图信息和标签信息;其中,所述图信息包括图的邻接矩阵和特征矩阵; 基于所获取的图信息和标签信息,通过预设的读出函数,概括出每一个可见类对 应的类语义描述向量,并构建语义向量空间; 通过预设的网络模型探索图结构信息,并将所述网络模型的输出分别投影到语义 向量空间和图结构空间中,并在其中通过预设的损失函数计算损失,对输出结果进行优化; 基于优化后的结果,输出学习到的网络表示学习结果。 其中,所述基于所获取的图信息和标签信息,通过预设的读出函数,概括出每一个 可见类对应的类语义描述向量,包括: 5 CN 111611498 A 说 明 书 2/7 页 通过预设的读出函数,从标记的节点概括出可见类c对应的类语义描述向量 其 中, 的表达式如下: 其中, 表示预设的读出函数,xi为原始图特征矩阵的第i行,其表示相应的节点vi 的原始特征向量, 表示节点i的标签信息; 对于没有节点特征的图,将其邻接矩阵的行作为节点特征。 其中,所述通过预设的网络模型探索图结构信息,并将所述网络模型的输出分别 投影到语义向量空间和图结构空间中,并在其中通过预设的损失函数计算损失,包括: 采用图卷积神经网络层来探索图结构信息,在遍历所有的图卷积神经网络层之 后,使用全连接层将图卷积神经网络层的输出分别投影到语义向量空间和图结构空间中, 并在其中通过预设的损失函数计算损失。 其中,所述通过预设的损失函数计算损失,对输出结果进行优化,包括: 通过下式,计算语义空间的预测损失,对输出结果进行第一次优化: 其中, 和 分别表示预测的类标签节点vi的语义向量和实际的类标签节点vi 的语义向量,loss表示样本损失函数, 表示标签信息; 通过下式,计算图结构损失,对输出结果进行第二次优化: 其中,loss表示样本损失函数,M表示DeepWalk算法的矩阵形式,U表示网络表示学 习所得到的特征矩阵,U′表示U的转置矩阵。 其中,所述基于优化后的结果,输出学习到的网络表示学习结果,包括: 对第一次优化后所得的第一结果和第二次优化后所得的第二结果进行归一化,并 将归一化后的第一结果和第二结果拼接,得到最终的网络表示学习结果。 相应地,为解决上述技术问题,本发明还提供如下技术方案: 一种基于领域内部语义的网络表示学习系统,所述系统包括: 输入模块,用于获取图信息和标签信息;其中,所述图信息包括图的邻接矩阵和特 征矩阵; 类语义描述获取模块,用于基于所述图信息和标签信息,通过预设的读出函数,概 括出每一个可见类对应的类语义描述向量,并构建语义向量空间; 优化模块,用于通过预设的网络模型探索图结构信息,并将所述网络模型的输出 分别投影到语义向量空间和图结构空间中,并在其中通过预设的损失函数计算损失,对输 出结果进行优化; 输出模块,用于基于优化后的结果,输出学习到的网络表示学习结果。 其中,所述类语义描述获取模块具体用于: 6 CN 111611498 A 说 明 书 3/7 页 通过预设的读出函数,从标记的节点概括出可见类c对应的类语义描述向量 其 中, 的表达式如下: 其中, 表示预设的读出函数,xi为原始图特征矩阵的第i行,其表示相应的节点vi 的原始特征向量, 表示节点i的标签信息; 对于没有节点特征的图,将其邻接矩阵的行作为节点特征。 其中,所述优化模块具体用于: 采用图卷积神经网络层来探索图结构信息,在遍历所有的图卷积神经网络层之 后,使用全连接层将图卷积神经网络层的输出分别投影到语义向量空间和图结构空间中, 并在其中通过预设的损失函数计算损失。 其中,所述优化模块具体还用于: 通过下式,计算语义空间的预测损失,对输出结果进行第一次优化: 其中, 和 分别表示预测的类标签节点vi的语义向量和实际的类标签节点vi 的语义向量,loss表示样本损失函数, 表示标签信息; 通过下式,计算图结构损失,对输出结果进行第二次优化: 其中,loss表示样本损失函数,M表示DeepWalk算法的矩阵形式,U表示网络表示学 习所得到的特征矩阵,U′表示U的转置矩阵。 其中,所述输出模块具体用于: 对第一次优化后所得的第一结果和第二次优化后所得的第二结果进行归一化,并 将归一化后的第一结果和第二结果拼接,得到最终的网络表示学习结果。 本发明的上述技术方案的有益效果如下: 本发明通过预设的读出函数,概括出每一个可见类对应的类语义描述向量;通过 GCN层探索图结构信息,在遍历所有的GCN层之后,使用全连接(FC)层将GCN层的输出分别投 影到语义向量空间和图结构空间中,并在其中通过预设的损失函数计算损失,以对输出结 果进行优化;基于优化后的结果,输出最终学习到的网络表示学习结果。本发明可以利用节 点特征并处理多标签情况。为了利用完全不平衡的标签,本发明采用了一种新的目标函数 来探索类语义知识。本发明中使用的类语义描述不依赖于人工注释或任何第三方资源,非 常适合于实际应用程序。 附图说明 图1为本发明的第一实施例提供的基于领域内部语义的网络表示学习方法的流程 示意图。 7 CN 111611498 A 说 明 书 4/7 页
下载此资料需消耗2积分,
分享到:
收藏