logo好方法网

一种获取词项段落关联权重的方法和装置


技术摘要:
本发明涉及一种获取词项段落关联权重的方法和装置,其方法包括步骤:A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号所对应的文档结构位置中的任一段落中  全部
背景技术:
目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作 为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。通常根 据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若 干个评分值最高的作为特征词。 最常用、效果比较好的文本表征方法是建立词项-文档矩阵。词项-  文档矩阵中的 每个元素值代表了相应行上的词项对应于相应列上的文档的权重,即这个词对于该文档来 说的重要程度。一个词对于一个文档是否重要,体现在两个方面:一个词项在一个文档中出 现次数越多,则相对于文档的重要性就越大;若词项在整个语料库中出现的次数越多,那么 对于该文档而言这个词就越没有意义,即越不重要,此为TF-IDF算法的思想。基于TextRank 的关键词提取是另一类方法,可针对单文档实现关键词提取。TextRank关键词抽取的任务 就是从一段给定的文本中自动抽取出若干有意义的词语或词组,TextRank算法是利用局部 词汇之间的关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。 文档中的同一词项在文档同一结构位置中的所处段落不同,对文档主题的表征作 用亦可能不同。譬如文档某章节第1段落与第2段落一般在行文上具有连贯性,第1段落中词 项与第2段落中词项具有某种必然联系(可能是词项的重复出现,或潜在语义的相同,或逻 辑上与阐述上的因果或顺序关联等)。而一般的词项-文档矩阵用中纯粹地采用词项的出现 次数来表示词项对文档主题的表征,以在特定文档词项中低频、而相对其它文档高频的词 项作为主题词,TF-IDF倾向于过滤掉常见的词语、保留重要的词语;TextRank算法利用局部 词汇之间的关系(共现窗口)  对后续关键词进行排序,仅考虑了局部邻接词项之间的共现 关系;两种常用方法均没有考虑词项在文档同一结构位置段落差异邻接关系对文档表征的 差异。
技术实现要素:
(一)要解决的技术问题 为了解决现有技术的上述没有考虑词项在文档同一结构位置段落差异邻接关系 对文档表征的差异的问题,本发明提供一种获取词项段落关联权重的方法与装置。 (二)技术方案 为了达到上述目的,本发明提供一种获取词项段落关联权重的方法,包括步骤: A1、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所述词项所 处的文档结构位置中的段落的编号以及所述词项的权重,获取与所述文档结构位置的编号 所对应的文档结构位置中的任一段落中的词项的数量以及段落中所有词项的权重的总数; 5 CN 111611342 A 说 明 书 2/10 页 其中,所述段落的编号与所述段落所在的文档结构位置中的段落的顺序所对应; A2、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的词 项的数量以及段落中所有词项的权重的总数,获取所述预先设定的多个词项中任一词项的 段落关联权重。 优选的,所述步骤A2包括: A2-1、基于与所述文档结构位置的编号所对应的文档结构位置中的任一段落中的 词项的数量以及段落中所有词项的权重的总数,获取与所述文档结构位置的编号所对应的 文档结构位置中任一段落的第一数值; 其中,所述第一数值为:段落中所有词项的权重的平均值; A2-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一 数值,获取与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序; 其中,所述第一顺序为:与所述文档结构位置的编号所对应的文档结构位置中的 段落的第一数值由高到低排列的顺序; A2-3、针对与所述文档结构位置的编号所对应的文档结构位置,根据预先设定的 初始值,确定所述文档结构位置中任一段落的第一关联权重; 其中,所述段落的第一关联权重为预先设定的初始值; A2-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第一 数值和第一关联权重、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺 序,获取所述预先设定的多个词项中任一词项段落关联权重。 优选的,所述步骤A2-4包括: A2-4-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第 一数值、与所述文档结构位置的编号所对应的文档结构位置中的段落的第一顺序,获取与 所述文档结构位置的编号所对应的文档结构位置中任一段落的第一绝对值; 其中,所述文档结构位置中任一段落的第一绝对值包括:所述任一段落分别与第 一顺序中在所述段落之前的段落的第一数值的差的绝对值; A2-4-2、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对 应的段落的编号、与所述文档结构位置的编号所对应文档结构位置中的段落的第一顺序, 获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的第二绝对值; 其中,所述文档结构位置中任一段落的第二绝对值包括:所述段落分别与第一顺 序中所述段落之前的段落对应的2n的数值; 其中n为所述段落分别与第一顺序中所述段落之前的段落的编号的差的绝对值; A2-4-3、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落所对 应的第一绝对值和第二绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中 任一段落的第三绝对值; 其中,所述第三绝对值包括:所述段落分别与第一顺序中所述段落之前的任一段 落的第一绝对值与第二绝对值的商值; A2-4-4、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的第 三绝对值,获取与所述文档结构位置的编号所对应的文档结构位置中任一段落的对应的第 四平均值; 6 CN 111611342 A 说 明 书 3/10 页 其中,所述第四平均值为:所述段落分别与所述段落在第一顺序中在所述段落之 前的所有段落的第三绝对值的平均值; A2-4-5、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的对 应的第四平均值和所述段落的第一数值,所述词项所处的文档结构位置的编号、所述词项 所处的文档结构位置中的段落的编号,确定所述词项的段落关联权重。 优选的,所述步骤A2-4-5包括: A2-4-5-1、基于与所述文档结构位置的编号所对应的文档结构位置中任一段落的 对应的第四平均值和所述段落的第一数值,确定与所述文档结构位置的编号所对应的文档 结构位置中任一段落的第二关联权重; 其中,所述段落的第二关联权重为:所述段落的第四平均值与所述段落的第一数 值的商的数值,然后再加所述段落的第一关联权重; A2-4-5-2、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第 二关联权重的第二关联权重和预先设定的阈值,确定所述文档结构位置的编号所对应的文 档结构位置中任一段落的第三关联权重值; A2-4-5-3、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的第 三关联权重和所述的第一数值,确定所述文档结构位置的编号所对应的文档结构位置中任 一段落的中任一词项的第四关联权重; 其中,所述段落中任一词项的第四关联权重为:所述词项所在的段落的第三权重 值和第一数值的乘积; A2-4-5-4、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的中 任一词项的第四关联权重和与所述文档结构位置的编号所对应的文档结构位置中的任一 段落的编号所对应的段落中的词项的数量,获取词项的段落关联权重。 优选的,所述步骤A2-4-5-2包括: A2-4-5-2-1、判断所述段落的第二关联权重和所述预先设定的阈值的大小,获取 判断结果; A2-4-5-2-2、基于所述判断结果,确定所述段落的第三关联权重值。 优选的,所述步骤A2-4-5-2-2包括: 若所述判断结果为所述段落的第二关联权重大于所述预先设定的阈值,则确定所 述段落的第三关联权重值为:所述预先设定的阈值; 若所述判断结果为所述段落的第二关联权重小于所述预先设定的阈值,则确定所 述段落的第三关联权重值与所述段落的第二关联权重的值相同。 优选的,所述预先设定的阈值为2。 优选的,所述步骤A2-4-5-4包括: A2-4-5-4-1、基于所述文档结构位置的编号所对应的文档结构位置中任一段落的 中任一词项的第四关联权重,获取所述任一词项所有的第四关联权重的总数值; A2-4-5-4-2、基于预先设定的多个词项、所述词项所处的文档结构位置的编号、所 述词项所处的文档结构位置中的段落的编号获取所述预先设定的多个词项中任一词项的 数量; A2-4-5-4-3、所述任一词项所有的第四关联权重的总数值和多个词项中任一词项 7 CN 111611342 A 说 明 书 4/10 页 的数量,确定所述任一词项的段落关联权重; 其中,所述最终的关联权重为所述任一词项所有的第四关联权重的平均值。 优选的,所述预先设定的初始值为1。 一种获取词项段落关联权重的装置,所述获取词项段落关联权重的装置存储计算 机指令;所述计算机指令使所述获取词项段落关联权重的装置执行如上述任一项所述获取 词项段落关联权重的方法。 (三)有益效果 本发明的有益效果是:本发明在表征文档主题时,考虑段落与高平均词项权重段 落的近邻关系,提升近邻段落中词项的段落关联权重,提升、突出了处于文档结构重要段落 附近词项的地位。 本发明在同一文档结构位置内部,同时考虑多个段落、及近邻距离的影响级差,体 现多段落的共同作用。 本发明将出现在不同文档结构位置的同一词项段落关系权重求平均值,综合考虑 了同一词项在的不同文档结构位置对文档主题表征的差异。 附图说明 图1为本发明的获取词项段落关联权重的方法流程图; 图2为本发明实施例二中的获取词项段落关联权重的方法示意图。
下载此资料需消耗2积分,
分享到:
收藏