
技术摘要:
本发明公开的一种抽取式机器智能阅读理解问答系统,旨在提供一种能够提升问答查询效率与实用性的问答系统。本发明通过下述技术方案实现:文档检索模块针对文档库中的海量文本文档,构建全文本搜索引擎ES检索和语义检索两级文档检索体系,形成问答查询的初步文档集;阅 全部
背景技术:
随着信息技术的发展,互联网信息的爆炸式增长,各种信息在网络上交相辉映,给 互联网用户带来了更加丰富多样的信息。面对互联网上海量的信息,人们越来越依靠搜索 引擎获取信息。但是普通互联网用户很难从搜索引擎检索的网页列表中快速定位与问题相 匹配的正确的答案。传统的搜索引擎检索返回与用户查询相关的网页,用户需要花费大量 时间和精力从中获取所需信息。传统的检索式问答系统采用基于流水线方式的问答算法, 该类问答算法只能捕捉输入信息中的浅层语义关联,且存在着优化成本高和优化难度大等 问题。随着一系列大规模高质量数据集的发布和深度学习技术的快速发展,机器阅读理解 领域发展迅速,各类任务如开放域式、多选式、聊天式和多跳式等不断涌现,同时问答任务 的种类也越来越多样化。文本问答是自然语言处理中的一个重要领域。文本问答旨在要求 机器理解由自然语言组成的问题并给出答案,是迈向通用人工智能的重要课题和探索人类 语言机理的经典人物。为了使得基于阅读理解的知识问答系统获得更好的效果,机器阅读 理解技术一般用于问答系统。早在上世纪50年代,文本问答就通“机器智能”这一概念被 Alan M .Truing所探讨。文本问答涉及到自然语言处理技术的方方面面。为了正确回答问 题,一个问答系统需要进行词性标注以标记文本中单词的特定词性,通过命名实体识别找 出文本中的实体信息,执行句法分析来理解文本的语法结构,以及完成指代消解来理解链 指关系等,其能够为用户提供简短和准确的结果。 机器阅读理解(Machine Reading Comprehension,MRC)又称为阅读理解式问答, 自2015年以来取得了突飞猛进的发展。目前已成为文本问答的一种主流形式,尤其是在开 放领域的问答系统中。机器阅读理解是指:给定一段文本,如果对于任何有关该文本的问 题,大多数母语人士能够正确回答,且机器可以提供一个字符串,使那些发言者同意该字符 串能够回答此问题,并且不包含与之无关的信息,机器阅读理解是文本问答的一个子类,旨 在令机器阅读并理解一段自然语言组成的文本,并回答相关问题。通过这种任务形式,可以 对机器的自然语言理解水平进行评估。早期的阅读理解研究受限于数据集规模以及自然语 言处理技术的发展,进展较为缓慢。直到2015年谷歌发布首个大规模完形填空类阅读理解 数据集CNN/Daily Mai,引发了基于神经网络的阅读理解研究热潮。在2016年之前,大家使 用更多的是统计学习的方法,包含了大量的特征工程,非常耗时耗力。在2016年之后,SQuAD 数据集被斯坦福大学发布,并迅速成为了抽取式阅读理解的基准测试集。SQuAD数据集发布 之后,出现了一些基于注意力机制的匹配模型,比如BiDAF、LSTM等等。这之后出现了各种网 络结构比较复杂的模型,相关工作试图通过复杂的网络结构去捕捉问题和篇章之间的匹配 关系。虽然在这个阶段跳过了一些复杂的特征工程,但是似乎又陷入了更加复杂的网络结 构工程。在2018年之后,随着各种预训练语言模型的出现,阅读理解模型效果得到了近一步 4 CN 111611361 A 说 明 书 2/7 页 大幅的提升,因为表示层的能力变的很强大,任务相关的网络结构开始变的简单起来。机器 阅读理解是对文本的自动、无监督理解,让计算机具备通过文本数据获取知识和回答问题 的能力。机器阅读理解是赋予计算机与人类同等的阅读能力,即让计算机阅读一篇文章,随 后让计算机解答与文中信息相关的问题。早期的阅读理解数据集仅包含数百篇故事以及对 应的问题-答案对以用于验证和测试,且无训练数据。这一阶段的阅读理解系统主要以模式 匹配搭配额外的自动语义处理技术为主。由此可以看出,阅读理解式问答与之前的检索式 问答、知识库问答存在着显著区别。一方面,为了正确回答问题,机器需要阅读并理解一段 文本,因此该任务可以用来评估机器的自然语言理解水平;另一方面,之前的问答类别需要 从结构化知识库或半结构化数据源中寻找答案,而机器阅读理解则是基于非结构化文本来 预测答案,其形式更加丰富也更具挑战性。因此,阅读理解式问答有着重大的研究价值与深 远的现实意义。传统的检索式问答通常是用户在输入一个问题之后,从海量的文档集中检 索出若干候选文档,并对这些若干候选文档做段落切分和排序,最后以段落为单位作为答 案直接反馈给用户。但是通常这样的段落还包含了较多的冗余信息。文档(document)问答 旨在基于海量知识源如维基百科或互联网来回答任意给定的问题,主要采用抽取式问答的 方式,需要结合信息检索、阅读理解、答案排序等多种技术手段。阅读理解题目的形式是非 常多样的,包括选择题、回答题等。但是从主流的学术研究和技术落地来看,我们更加关注 抽取式数据理解。抽取式数据理解是指给定篇章P和问题Q,我们希望从P当中抽取出答案A, 并且通常答案A是篇章P当中的连续片段。 近年来,抽取式问答取得了飞速发展,成为了文本问答领域新的热门研究方向。随 着深度学习技术的飞速发展,通过使用循环神经网络、注意力机制、强化学习以及上下文词 嵌入等技术来自动学习特征表示,持续地推进了抽取式问答技术的发展。最近,一系列预训 练语言模型的出现进一步提升了机器阅读理解的水平,不断促进模型自然语言理解能力的 提升。 虽然目前已经有大量抽取式阅读理解模型被提出,但是这些模型无论在模型结构 还是训练方法上都存在一些问题。例如,注意力的缺乏,即多个注意力分布未能关注到原文 的重要部分。又比如,目前多数抽取式阅读理解模型在模型训练的过程中仅考虑了语料本 身的特征,没有考虑外部特征对阅读理解性能的增益。当前的阅读理解模型往往是一个大 的黑盒(black-box)神经网络,主要关注回答事实类问题,导致的问题是模型可解释性差。 一个好的阅读理解系统应该不仅能提供最终答案,还要能够提供做出该预测背后的逻辑。 然而,由于开放域问答需要经历检索-阅读的流水线过程,且需要为每个问题-文档样例重 新编码,导致这些系统面临实时性方面的严峻挑战。如何基于常识和背景知识进行推理以 获得答案仍旧是一个巨大的挑战。针对离散推理阅读理解任务,当前方法通常面临答案类 型覆盖不全、无法支持多答案预测以及孤立预测算术表达式等问题。
技术实现要素:
本发明的发明目的是针对当前阅读理解集成模型效率低下的问题和现有技术存 在的不足之处,提供一种能够实现文档库中相关文档的检索,并能提升问答查询的效率和 阅读理解式问答的可用性与实用性的抽取式机器智能阅读理解问答系统。 本发明的上述目的可以通过以下技术方案予以实现:一种抽取式机器智能阅读理 5 CN 111611361 A 说 明 书 3/7 页 解问答系统,包括:文本特征提取模块,相连文档库的文档检索模块、相连阅读理解模型的 阅读理解模块、答案合并预测模块和模型优化模块,其特征在于:文档检索模块针对文档库 中的海量文本文档,构建全文本搜索引擎ES检索和语义检索两级文档检索体系,实现与查 询问题匹配文档的粗筛选和精筛选,完成关联文档的缩减与排序,基于用户问题输入,采用 ES检索技术实现海量文档的粗检索,形成问答查询的初步文档集,采用语义检索技术实现 问题与文档的进一步匹配,形成问答查询的最终文档集;阅读理解模块通过阅读理解预训 练模型提取问题与文档深层语义特征,按人工设定规则提取问题与文档的结构特征,结合 语义特征和结构特征,完成问题与文档的联合特征表示,进而利用多层神经网络模型对答 案是否存在于文档中进行预测,判断文档存在答案的概率,并采用指针网络预测答案的起 点和终点,获取问题答案,完成答案的抽取,输出答案的起点和终点;答案合并预测模块综 合阅读理解模型输出的答案、起点终点对应概率对冗余答案进行合并,得到可能的答案列 表以及对应的答案概率,选择概率最高的答案作为问题的最终答案,向用户提供答案。模型 优化模块通过已标注文档集实现阅读理解模型的训练与优化,为问答系统提供更好的阅读 理解模型。 本发明的有益效果是: 问答查询的效率高。本发明针对文档库中的海量文本文档,构建全文本搜索引擎ES检 索和语义检索两级文档检索体系,完成关联文档与查询问题匹配文档的粗筛选和精筛选, 完成关联文档的缩减与排序。借助双重检索体系,查询的数据项、数据量、跨度得以缩减,查 询响应速度快,用户无需建立庞大的问答库,提升了问答查询的效率,极大降低了用户对于 知识库的运营成本。 具有可用性与实用性。本发明着眼于文档检索、语义检索、预训练模型、深度学习 等人工智能前沿技术,实现阅读理解抽取式问答技术的系统性设计。通过预训练模型挖掘 问题与文档的深层语义特征,并构建支撑答案准确抽取的结构特征模型,语义特征与结构 特征的联合实现了问题与文档语义特征的精确表示,进一步通过阅读理解模型优化,实现 阅读理解模型的更新,改善阅读理解式问答的性能,提升了阅读理解式问答的可用性与实 用性。 附图说明 图1是本发明抽取式机器智能阅读理解问答系统工作原理示意图; 图2是图1的全文本搜索引擎ES检索流程框图; 图3是图1文档检索模块的文档语义检索流程框图; 图4是图1阅读理解问答模型的阅读理解流程框图; 图5是图1基于Bert预训练模型的阅读理解流程示意图; 图6是Bert预训练模型工作流程示意图; 图7是多头注意力Attention机制示意图; 图8是多层神经网络示意图; 图9是指针网络示意图; 图10是结构特征提取框图; 图11是阅读理解答案合并生成框图。 6 CN 111611361 A 说 明 书 4/7 页 为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发 明作进一步地详细描述。