一种基于句子关联图的汉越双语多文档新闻观点句识别方法-好方法网

技术摘要：
本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法，属于自然语言技术领域。本发明针对汉越双语多文档新闻观点句识别任务，提出一种联合句子关联特征和语义特征的观点句识别模型；包括步骤：构建融合事件要素和情感要素的汉越双语多文档关联无向图；获全部
背景技术：
开展汉越双语新闻观点句识别研究，及时掌握中越两国关于同一事件的观点，对于促进中越两国之间的文化交流、经济发展至关重要。在观点句识别任务中，现有的方法主要是根据观点句特征对文档中的观点句进行识别。比如通过观点句语义模型和非观点句语义模型构建语义特征，然后通过融入词汇特征和词性特征对句子进行分类，最后将置信度高的样本加入训练集迭代得到最终的分类器。或者是通过构建词典的方式来获得观点词和非观点词的集合，然后对观点词的强弱程度进行计算，通过对每个句子中包含的观点词的强弱程度的计算来对其是否为观点句进行甄别。还有学者提出了一种基于集成学习的中文观点句抽取方法，该方法首先采用基于Fisher判别准则的特征选择方法，然后使用 Booststraping方法对朴素贝叶斯分类器、SVM分类器和最大熵分类器进行集成，从而对观点句进行识别。但是以上方法都是基于单文档，没有考虑多个文档多个句子之间的关联关系。因此，本发明专利提出了一种联合句子关联关系和句子语义特征的基于句子关联图的汉越双语多文档新闻观点句识别方法。
技术实现要素：
本发明提供了一种基于句子关联图的汉越双语多文档新闻观点句识别方法，以用于解决了汉越新闻观点句识别的问题，且能有效提升汉越新闻观点句抽取的准确性。本发明的技术方案是：一种基于句子关联图的汉越双语多文档新闻观点句识别方法，包括：首先计算不同句子间事件要素和情感要素的关联强度；利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图；获取汉越双语的句子关联特征；利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下；利用BI-LSTM网络对映射到同一个语义空间下的词向量编码，获取句子的语义编码表示；对得到的语义编码进行降维来获得汉越双语的句子语义特征；利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征，采用分类器对观点句识别特征进行分类，并采用二分类的交熵损失函数对分类器进行优化，采用优化好的分类器实现观点句识别。进一步地，具体步骤如下： 5 CN 111581943 A 说　明　书 2/8 页 Step1、语料收集：收集中文新闻文本、越南语新闻文本作为训练语料和测试语料；目前还没有公开的汉越双语新闻语料，因此可以利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件，共计200 篇文档，2832个句子。每个话题事件按照90％，5％，5％随机划分训练集、验证集和测试集。 Step2、计算不同句子间事件要素的关联强度：事件要素包含事件发生的时间、地点、人物和组织机构等信息。可以利用不同新闻句中事件要素的共现次数来表示不同句子间事件要素的关联强度。抽取汉越双语新闻句子中的命名实体作为事件要素，根据汉越双语词典对抽取的要素进行对齐，计算句子间事件要素的共现度。进一步地，首先抽取汉越双语新闻句子中的命名实体作为事件要素，得到的汉语新闻要素的集合记为越南语新闻要素集合记为为了衡量抽取要素的关联强度，首先利用汉越双语词典对抽取的要素进行对齐，得到对齐的汉越新闻要素集合最后通过计算不同句子的事件要素共现次数来确定其关联强度，其共现次数可以通过判断两个句子是否包含相同的要素，即对任意语言的两个句子si、sj的要素集合是否存在交集。如果si和sj的集合有交集，则两者之间具有要素关联关系，其中，若si和sj是同一语种的句子，则直接做交集运算即可判断，若属于不同语种的句子，则需使用对齐集合Acv中的要素重新表示句子si和sj之后，再做交集运算进行判断；判断任意语言的两个句子si、sj的要素集合是否存在交集，即对事件要素关联强度进行归一化操作计算的具体公式为：其中C(si∩sj)表示新闻句si和sj的共现要素数，C(si)则表示句子si的要素个数。 Step3、计算不同句子间情感要素的关联强度：情感要素关联是指汉越双语新闻句子中包含的情感词的关联关系，通过计算不同句子间情感词的相似性来衡量其关联关系。为了实现情感要素关联，首先抽取不同语言新闻句中所包含的情感词，其中，汉语新闻句情感词抽取利用知网情感词典以及台湾大学 NTUSD情感词典，提取出每个句子中的情感词集针对越南语情感词典资源缺乏的问题，采用汉越双语词典翻译汉语情感词典，来构建越南语情感词典，在采用的汉越双语情感词典中，中文情感词典规模可以为5126，越南文情感词典规模可以为3248。抽取后得到每个越南语句子中包含的情感词集合通过计算任意两个句子si 和sj所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到，具体公式为：其中cos为余弦相似度函数，和为情感要素的双语词向量。最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为： 6 CN 111581943 A 说　明　书 3/8 页 Step4、构建汉越双语多文档关联无向图；根据句子间的关联关系，构建汉越双语多文档句子关联图G＝，其中顶点V 表示双语句子、E＝{ea ,eb}表示边的集合，ea表示相同语言顶点之间的边，eb表示不同语言顶点之间的边。作为本发明的优选方案，所述步骤Step4中，图G中任意两个顶点Vi和Vj的边的权重为步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si, sj)的线性加权，利用步骤Step2和步骤Step3得到的事件要素关联强度Fa(si,sj)和情感要素关联强度Fb(si,sj)计算得到无向图G中任意两个顶点Vi和Vj之间边的权重，具体公式为： W(Vi,Vj)＝α·Fa(si,sj) β·Fb(si,sj) 为了降低无向图G的复杂性，设置边的权重的阈值为ε，0＜ε＜1，如果 W(Vi,Vj)＞ε 则保留这条边，反之则删除这条边，α，β均为超参数。 Step5、获取句子关联特征：在步骤Step4构建的汉越双语多文档关联无向图G 上，利用TextRank算法得到汉越双语的句子关联特征；具体公式为：其中R(Vi)是句子Vi的句子关联特征，W(Vj,Vi)为构建的汉越双语多文档关联无向图的顶点Vi和Vj的边的权重，nb(Vj)为与Vi有关联关系的邻居节点，d为阻尼系数，本文取 0.85。 Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下。对于给定的句子si＝{wi,1,wi,2,…,wi,k}，利用下式计算得到其双语词嵌入表征： ei,k＝Embedding(wi,k) 其中，Embedding为双语词向量映射矩阵，wi,k表示第i个句子的第k个词。 Step7、语义编码：使用双向长短期记忆(BI-LSTM)网络作为编码器，编码器在接收到步骤Step6的双语词向量后，顺序更新其隐藏状态，输出句子向量，具体公式为： hi,k＝BI-LSTM(ei,k,hi,k-1) 其中ei,k表示在第i个句子中第k个词的双语词向量表示，hi,k表示隐层向量；编码状态中，前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列其中表示第i个句子中第k个词，后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列采用编码器最后时刻的前向和后向对应的隐层状态拼接，构成句子的语义编码表示，具体公式为： Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征，具体公式为： Si＝sigmoid(Wshi bs) 7 CN 111581943 A 说　明　书 4/8 页其中，Ws和bs为训练参数，sigmoid函数为激活函数。采用的2层的BI-LSTM网络获取汉越双语的语义特征，其中双语词嵌入维度为 300 维。BI-LSTM隐状态设置为512维。为避免模型过拟合，dropout设置为0.3。模型训练批次大小设置为64，训练200轮次，采用Adam优化器对BI-LSTM模型进行优化，学习率为1e-3，同时在BI-LSTM模型训练过程中加入梯度裁剪，最大梯度裁剪为5。 Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征，采用softmax分类器对观点句识别特征进行分类，并采用二分类的交熵损失函数对分类器进行优化，采用优化好的分类器实现观点句识别。进一步地，所述步骤Step9中，利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征，具体公式为：其中，y为观点句识别特征，Si为句子语义特征，Ri为句子关联特征。采用softmax分类器对于观点句识别特征进行分类：并采用二分类的交熵损失函数对分类器进行优化，具体公式为：其中yi是第i个样本的标签，是分类器模型预测样本是正样本的概率。本发明的有益效果是： 1、本发明针对跨语言多文档观点句识别问题，首先定义了事件要素关联和情感要素关联两种关联关系，然后构造以汉越双语句子为顶点，以关联关系为边的句子关联图，最后基于句子关联图，通过TextRank算法计算句子的关联特征。 2、本发明通过融合句子关联特征和通过BI-LSTM得到的句子语义特征，来改善观点句识别的效果，能有效地提高汉越双语多文档新闻观点句识别的准确性。附图说明图1为本发明中的方法流程示意图；图2为本发明中汉越观点句抽取模型的具体细节示意图。

相关推荐