logo好方法网

一种获取文本摘要的方法及语言模型生成方法


技术摘要:
一种获取文本摘要的方法及语言模型生成方法、计算机存储介质及终端,本发明实施例在分句排序调整后生成各分句的语句特征向量,根据语句特征向量确定语句排序信息后,根据标准排序信息和确定的语句排序信息对特征提取器进行参数调整,获得考虑了语句排序对语句权重影响  全部
背景技术:
在能够保证给定的单个或者多个文档的重要内容的情况下,文本摘要用于尽可能 简明扼要地对原文档进行概括总结。质量良好的文本摘要能够在信息检索过程中发挥重要 的作用,比如利用文本摘要代替原文档参与索引,可以有效缩短检索的时间,也能减少检索 结果中的冗余信息,提高用户体验。 自动化文本摘要是自然语言处理领域的一项重要的研究课题;按照文本摘要的生 成方式,自动化文本摘要可分为:抽取式文本摘要、生成式文本摘要和压缩式文本摘要;其 中,抽取式文本摘要通过计算原始文本中语句成分的权重,从原始文本中提取现成的语句 来生成文本摘要,因此,在语法和句法上错误率低,一定程度上保证了文本摘要的质量。抽 取式文本摘要在计算原始文本中语句成分的权重时,需要对语句进行向量表达;常见的向 量表达模型包括:词向量模型(Word  to  Vector)和预训练语言模型(Pre-trained Language  Model);其中,预训练语言模型是基于不同语言学假设的训练方式获得的语言模 型,可将语句直接映射为向量表达,根据模型内的机制(双向和注意力等),预训练语言模型 考虑了词间的相似性与词序关系,包括嵌入式语言模型(ELMO)和双向预训练语言模型 (Bert)等。 通过上述预训练语言模型将语句映射为向量表达后,根据语句的向量表达计算出 原始文本中各语句的权重,相关技术根据计算获得的语句权重进行语句抽取获得文本摘 要;查阅获得的文本摘要时,工作人员发现在抽取语句获得文本摘要时并未考虑语句排序, 获得的文本摘要在语句排序上存在问题,文本摘要抽取质量有待进一步提升。
技术实现要素:
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范 围。 本发明实施例提供一种获取文本摘要的方法及语言模型生成方法、计算机存储介 质及终端,能够在文本摘要抽取时考虑语句排序,提升文本摘要抽取质量。 本发明实施例提供了一种语言模型生成方法,包括: 对分句排列顺序调整的训练文本,按照预设生成策略生成各分句的语句特征向 量; 通过预设的特征抽取器对生成的各分句的语句特征向量进行处理,获得各分句的 输出向量; 根据获得的所有分句的输出向量,确定排列顺序调整后的分句的语句排列顺序信 息; 4 CN 111581341 A 说 明 书 2/10 页 根据标准排序信息和确定的语句排序信息,对特征提取器进行参数调整,以获得 用于向量表达的语言模型; 其中,所述语句特征向量包括:字嵌入的特征信息、区分各相邻分句的特征信息和 标识分句内词语排序的特征信息;所述标准排序信息包括:对未调整分句排列顺序的训练 文本的各分句按序分别添加编号;根据添加的所有分句的编号,生成未调整分句排列顺序 的训练文本的编号排序信息;语句排序信息包括:基于添加的各分句的编号生成的:分句排 列调整后训练文本的所有分句的编号排序信息。 另一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存 储有计算机程序,所述计算机程序被处理器执行时实现上述语言模型生成方法。 再一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中 保存有计算机程序;其中, 处理器被配置为执行存储器中的计算机程序; 所述计算机程序被所述处理器执行时实现如上述语言模型生成方法。 还一方面,本发明实施例还提供一种获取文本摘要的方法,包括: 根据预先生成的语言模型对待处理文本的各分句进行向量表达; 根据各分句的向量表达,计算待处理文本中各分句的权重; 根据计算获得的各分句的权重,对待处理文本中进行语句抽取,以获得文本摘要。 还一方面,本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存 储有计算机程序,所述计算机程序被处理器执行时实现上述获取文本摘要的方法。 还一方面,本发明实施例还提供一种终端,包括:存储器和处理器,所述存储器中 保存有计算机程序;其中, 处理器被配置为执行存储器中的计算机程序; 所述计算机程序被所述处理器执行时实现如上述获取文本摘要的方法。 本发明实施例在分句排序调整后生成各分句的语句特征向量,根据语句特征向量 确定语句排序信息后,根据标准排序信息和确定的语句排序信息对特征提取器进行参数调 整,获得考虑了语句排序对语句权重影响的用于向量表达的语言模型,为提升文本摘要的 抽取质量提供了技术支持。 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利 要求书以及附图中所特别指出的结构来实现和获得。 附图说明 附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本 申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。 图1为本发明实施例语言模型生成方法的流程图; 图2为本发明实施例获取文本摘要的方法的流程图; 图3为本发明实施例语言模型生成装置的结构框图; 图4为本发明实施例获取文本摘要的装置的结构框图。 5 CN 111581341 A 说 明 书 3/10 页
下载此资料需消耗2积分,
分享到:
收藏