logo好方法网

评论短语的提取方法及设备


技术摘要:
本发明实施例提供一种评论短语的提取方法及设备,该方法包括:对目标评论文本进行句法结构分析,并根据所述目标评论文本的句法结构,提取具有预设句法结构的第一评论短语;对所述目标评论文本进行词性分析,并根据所述目标评论文本中各词的词性,提取具有预设词性的第  全部
背景技术:
随着互联网的迅速发展和广泛普及,越来越多的人选择网上购物并分享自己的评 论观点。例如,用户网上购买图书后,会对购物体验、图书属性和图书内容等方面进行评论。 准确而快速的对这些评论数据进行分析,可以为用户提供购买决策支持,并为商家制定销 售策略和改进商品提供全面准确的依据。 由于这些评论信息是海量的无结构化的数据,人工阅读的方式效率低下。为解决 这一问题,目前,许多电子商务网站采用五星制评价方式来量化用户对商品的评价。 然而,发明人发现这种方式虽然在一定程度上方便用户获取评论信息,但会丢失 一些重要信息,导致用户无法全面了解商品的评论信息。
技术实现要素:
本发明提供一种评论短语的提取方法及设备,能够全面提取评论信息,以使用户 全面了解商品的评论信息。 第一方面,本发明实施例提供一种评论短语的提取方法,包括: 对目标评论文本进行句法结构分析,并根据所述目标评论文本的句法结构,提取 具有预设句法结构的第一评论短语; 对所述目标评论文本进行词性分析,并根据所述目标评论文本中各词的词性,提 取具有预设词性的第二评论短语; 将所述第一评论短语和所述第二评论短语进行语义聚合,得到目标评论短语。 在第一种实现方式中,所述对目标评论文本进行句法结构分析,并根据所述目标 评论文本的句法结构,提取具有预设句法结构的第一评论短语,包括: 从句法结构数据库中确定目标评论文本对应的目标句法结构; 对所述目标评论文本进行句法结构分析,提取符合所述目标句法结构的短语作为 第一评论短语。 结合第一种实现方式,在第二种实现方式中,还包括: 获取第一预设数量的第一评论文本样本,并获取所述第一评论文本样本中各评论 文本的评论短语,得到第一评论短语样本; 通过句法结构分析模型对所述第一评论短语样本进行句法结构分析,得到句法结 构数据库,其中,所述句法结构分析模型是通过条件随机场建立序列标注模型得到的。 在第三种实现方式中,所述对所述目标评论文本进行词性分析,并根据所述目标 评论文本中各词的词性,提取具有预设词性的第二评论短语,包括: 根据词性数据库确定所述目标评论文本对应的目标词性; 对所述目标评论文本进行词性分析,提取符合所述目标词性的短语作为第二评论 4 CN 111597791 A 说 明 书 2/9 页 短语。 结合第三种实现方式,在第四种实现方式中,还包括: 获取第二预设数量的第二评论文本样本,并获取所述第二评论文本样本中各评论 文本的评论短语,得到第二评论短语样本; 通过最大熵词性标注模型对所述第二评论短语样本进行词性标注,得到词性数据 库。 结合上述任一种实现方式,在第五种实现方式中,所述将所述第一评论短语和所 述第二评论短语进行语义聚合,得到目标评论短语,包括: 根据词向量特征库,确定所述第一评论短语和/或所述第二评论短语中各词的词 向量,得到目标词向量集; 确定第一词向量与第二词向量之间的余弦相似度,其中,所述第一词向量为所述 目标词向量集中的任一词向量,所述第二词向量为所述目标词向量集中除所述第一词向量 以外的任一词向量; 若所述余弦相似度满足预设阈值,则将与所述第一词向量对应的评论短语、与所 述第二词向量对应的评论短语划分为同一类别; 将属于相同类别的评论短语进行聚合,得到目标评论短语。 结合第五种实现方式,在第六种实现方式中,所述将属于相同类别的评论短语进 行聚合,得到目标评论短语,包括: 对属于相同类别的评论短语进行频次统计; 将频次最大的评论短语作为该类别的目标评论短语。 第二方面,本发明实施例提供一种评论短语的提取装置,包括: 第一提取模块,用于对目标评论文本进行句法结构分析,并根据所述目标评论文 本的句法结构,提取具有预设句法结构的第一评论短语; 第二提取模块,用于对所述目标评论文本进行词性分析,并根据所述目标评论文 本中各词的词性,提取具有预设词性的第二评论短语; 语义聚合模块,用于将所述第一评论短语和所述第二评论短语进行语义聚合,得 到目标评论短语。 第三方面,本发明实施例提供一种评论短语的提取设备,包括:至少一个处理器和 存储器; 所述存储器存储计算机执行指令; 所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个 处理器执行本发明实施例第一方面任一项所述的评论短语的提取方法。 第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介 质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如本发明实施例 第一方面任一项所述的评论短语的提取方法。 本发明实施例提供的评论短语的提取方法及设备,该方法通过对目标评论文本进 行句法结构分析,并根据目标评论文本的句法结构,提取具有预设句法结构的第一评论短 语,对目标评论文本进行词性分析,并根据目标评论文本中各词的词性,提取具有预设词性 的第二评论短语,将第一评论短语和第二评论短语进行语义聚合,得到目标评论短语。从 5 CN 111597791 A 说 明 书 3/9 页 而,能够在大量商品评论信息中快速、全面地提取评论短语,使用户全面了解商品的评论信 息。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。 图1为本发明实施例提供的评论短语的提取方法的流程图一; 图2为本发明实施例提供的评论短语的提取方法的流程图二; 图3为本发明实施例提供的评论短语的提取方法的流程图三; 图4为本发明实施例提供的评论短语的提取方法的流程图四; 图5为本发明实施例提供的评论短语的提取装置的结构示意图; 图6为本发明实施例提供的评论短语的提取设备的硬件结构示意图。
下载此资料需消耗2积分,
分享到:
收藏