logo好方法网

基于倒排索引的短文本匹配方法及装置


技术摘要:
本发明适用于自然语言处理技术领域,提供了基于倒排索引的短文本匹配方法及装置,该方法包括:对输入的文字进行特征提取,并把提取后的特征与知识库中的规则模板进行一一匹配,查找到最合适的模板。特别地,本发明在特征提取之后,采用倒排索引技术对输入的文字建立倒  全部
背景技术:
自然语言处理是研究人和计算机之间通过自然语言进行交互的技术,文本匹配是 自然语言处理中的一个重要任务。通常在一个问答系统中,可以通过事先建立好的一个问 答知识库,并把用户输入的问题文本与知识库中所有问题进行匹配,找到匹配问题的答案 从而回答用户的问题。文本匹配一般包括使用文本与文本之间做匹配,以及文本与规则模 板之间匹做配两种方式。倒排索引是一种根据属性的值来查找记录的技术,通常信息检索 领域,加快搜索引擎全文搜索的效率。 现阶段,文本匹配一般包括使用文本与文本之间做匹配,以及文本与规则模板之 间匹做配两种方式。文本与文本之间的匹配技术,使用起来比较简单,但是往往语义匹配不 够精准,目前基于深度学习的技术在精准度上有了一定突破,但是对数据量的需求比较大, 在数据较少的情况下也不够精准。正则表达式技术,使用起来需要一定的专业知识基础,同 时也不太直观容易出错,特别是它的模糊匹配机制在这种操作符出现次数较多时,会使性 能指数级下降。 另外,CN201811241976提出的方法相对正则表达式来说简单易用,性能也很快,但 是匹配能力却不够强,不能支持基于短语前后位置的规则。
技术实现要素:
本发明提供基于倒排索引的短文本匹配方法及装置,主要目的是用于智能客服问 答领域,精准地匹配问题,正确回答用户的提问。 本发明是这样实现的,基于倒排索引的短文本匹配方法,包括以下步骤: S1、特征提取:对输入的文本进行特征提取,所述特征为从文本中蕴含的若干短 语,以及短语在文本中的位置组成; S2、特征扩展:对步骤S1提取的特征进行扩展,把提取出的短语的同义词或类别 名,配合短语在文本中的位置,作为新的特征; S3、生成倒排索引:对所有特征建立倒排索引; S4、规则匹配:依次把所述倒排索引与预设的规则模板做匹配,输出匹配结果; S5、输出结果:根据匹配出的结果,以及各个规则模板之间的预设的优先级关系, 选择优先级最高的一条规则模板,作为输出。 优选的,所述特征提取具体为: 预设置一个短语词典,用trie树对输入文本进行短语匹配,提取出同时存在于短 语字典与输入文本中的短语; 如果两个短语之间有互相覆盖,则选择长度更长的短语,丢弃掉较短的;如果长度 4 CN 111581329 A 说 明 书 2/5 页 一样,那么选择位置靠前的短语。 优选的,所述特征扩展具体为: 预设置一个短语映射表,短语映射表用于将提取出的特征中的短语进行映射后作 为新的特征加入特征表中。 优选的,所述规则匹配具体为: 预设置一个规则模板知识库,所述规则模板知识库包含多个规则模板,然后把倒 排索引与所述规则模板知识库中的每一条规则模板做匹配,每一条匹配结果均为成功或失 败。 优选的,所述输出结果具体为: 对于所有成功匹配的规则模板,如果数量超过一,视为匹配结果存在冲突; 当存在冲突时,根据规则模板知识库中预设的模板之间的相对优先级,将匹配成 功的模板中的优先级较低的丢弃; 如果不再存在冲突,则输出结果为一条成功匹配的规则模板的编号;如果继续存 在冲突,则输出结果为判定所有匹配失败。 本发明还提供基于倒排索引的短文本匹配装置,其特征在于:包括一个规则模板 知识库、一个特征提取器、一个特征扩展器、一个倒排索引生成器、一个模板编译器和一个 模板匹配器; 所述规则模板知识库包含预定义的多个规则模板,以及多个规则模板之间的相对 优先级的信息; 所述特征提取器包含一个预设置的短语词典,特征提取器在运行时用于提取出同 时存在于短语字典与输入文本中的短语; 所述特征扩展器包含一个预先定义的短语映射表,在运行时对特征提取器提取出 的特征进行扩展; 所述倒排索引生成器用于对特征扩展器扩展后的规则生成倒排索引; 所述模板编译器用于对规则模板知识库中预定义的规则模板进行编译; 所述模板匹配器用于将生成的倒排索引与知识库中的规则模板编译后的对象一 一进行匹配,如果存在多个匹配成功的规则模板,按照规则模板知识库内的优先级规则,做 出筛选,输出最终匹配结果。 优选的,还包括模板匹配缓存器,其用于在模板匹配过程中提供缓存服务,加快整 体匹配效率。 与现有技术相比,本发明的有益效果是:本发明的基于倒排索引的短文本匹配方 法及装置,通过对输入的文字进行特征提取,并把提取后的特征与知识库中的规则模板进 行一一匹配,查找到最合适的模板,特征提取之后,采用倒排索引技术对输入的文字建立倒 排索引,优化了匹配时的计算效率,从而大大加快之后与知识库中的模板进行一一匹配的 过程,本发明可以进行灵活而复杂的文本匹配规则设置,同时保证匹配过程的高效率执行。 附图说明 图1为本发明的
下载此资料需消耗2积分,
分享到:
收藏