技术摘要:
本发明公开了融合语义与问题关键信息的多阶段注意力答案选取方法,该方法包括两个阶段,第一阶段为:获取候选答案LSTM双向输出的语义表示,利用问题的关键信息对候选答案的语义表示进行注意力加权更新,将加权更新后的候选答案语义表示与问题的语义表示进行相关度计算 全部
背景技术:
随着互联网技术的快速发展,网络中的文本信息量呈指数级增长,成为了人们获 取信息的重要来源,因此,利用搜索引擎从海量信息中检索出所需的信息成为了人们获取 信息的主要方式。然而,现有的搜索引擎的检索策略大多是基于字符串匹配的,缺乏从语义 角度挖掘知识的能力,导致搜索到的结果精度差,冗余度高,还需要用户从大规模搜索结果 中进一步理解和筛选才能够获取到真正需要的信息,这与用户快速准确获得信息的需求还 有一定的差距。随着文本处理与理解技术的快速发展和广泛应用,能够更好的满足用户需 要的智能问答技术也逐步成熟,并催生了一批智能助手的问世,与传统的搜索引擎相比,智 能助手更贴近用户的实际需求,他们都力求从语义层面分析用户的问题,精准定位用户的 意图,从而快速、有效、准确地为用户提供所需的信息。 当给定一个问题时,自动问答系统一般的处理流程如下:首先,分析问题以获取问 题的类型、语义等相关信息;然后,依据分析结果在数据集中筛选出候选答案集合;最后,在 候选集合中采用各种排序技术进行重排,筛选出最佳答案或含有最佳答案的文本返回给用 户。因此,最佳答案的选取效果将直接影响到自动问答系统的整体性能,优化最佳答案的选 取策略可以有效的提升自动问答系统为用户服务的能力。 传统的答案选取模型大多利用词法或句法分析以及人工构造特征的方法来选取 答案,这类方法较难捕捉到问题与候选答案之间的语义关联信息。随着深度学习技术的发 展,研究学者们将深度学习框架引入到答案选取任务中来,利用神经网络模型获取问题和 候选答案的语义关联信息,并对它们之间的匹配关联程度进行评估,进而选取匹配关系最 强的答案作为最佳答案。由于答案的选取,完全依赖于问题所传递的信息,因此在基于深度 学习的答案选取模型中,研究者们往往会利用问题的语义信息生成注意力向量,以此来更 新候选答案的语义表示,优化问题与候选答案之间匹配关系的评估效果。这类引入注意力 的模型虽然能够强化问题与候选答案之间语义关联的程度,但是在一定程度上忽略了两者 之间关键信息的联系,从而影响其问题和答案的建模效果。因为对于不同类型的问题,其最 佳答案中关注的内容往往有所不同,例如询问时间相关的问题时,其最佳答案表示中应更 注重于表示时间的关键信息或者与时间语义关联较强的信息;询问天气相关的问题时,其 最佳答案应更注重于表示天气相关的关键信息或者与天气关联较强的信息。另外,现有的 基于注意力的答案选取模型往往将问题和答案的建模放在同一阶段进行,这对从多个候选 答案选取一个最佳答案的答案选取任务来说,不容易捕捉到答案相互之间的差异。
技术实现要素:
针对