
技术摘要:
本发明实施例提供一种数据处理方法、装置、设备及存储介质,通过获取待处理的文本数据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。本发明提供 全部
背景技术:
在自然语言运用中,一些智能终端设备,例如智能音箱需要对用户的口语表达进 行理解,从而能够进行正确的操作,比如:智能音箱需要明白用户的意图并播放正确的资源 或者对用户做出正确的回复。 现有技术的口语语言理解方法,通常将用户的查询信息与预先编译的预设文法集 合中的文法进行匹配,获取用户意图分类,在获取用户意图后再进行槽位抽取获得由查询 信息转化为计算机指令所需的必要信息。现有技术中的方法较为复杂,处理效率低下,缺乏 灵活性和实用性,且在冷启动阶段准确率较低。
技术实现要素:
本发明提供一种数据处理方法、装置、设备及存储介质,以通过输入用户的查询信 息即可得到对应的领域、意图和槽位信息,实现端对端的领域和意图分类以及槽位抽取,提 高数据处理的准确率和效率。 本发明的第一方面是提供一种数据处理方法,包括: 获取待处理的文本数据; 根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预设文法集合包 含的文法中定义了槽位抽取规则; 基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信息。 作为一种可能的实现方式,每一所述文法中包括至少一个表征所述文法匹配规则 的节点; 所述根据预设文法集合,确定与所述文本数据匹配的文法,包括: 对所述文本数据进行分词处理,得到所述文本数据中包含的词汇; 在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一 一匹配的文法,则确定为与所述文本数据匹配的文法。 进一步的,所述方法还包括: 若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所 述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确 定为与所述文本数据匹配的文法。 基于上述任一实施例,所述预设文法集合中还包括至少一个上下文文法; 所述基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息的语义信 息,包括: 若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数 4 CN 111611793 A 说 明 书 2/9 页 据; 基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包 含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。 基于上述任一实施例,所述文法的每一节点对应一个备选词汇集合; 所述根据预设文法集合,确定与所述文本数据匹配的文法前,还包括: 根据所述预设文法集合中所述文法包含的各节点的备选词汇集合,获取全量解析 路径,所述全量解析路径中的每一解析路径为任一文法包含的每一节点对应的任一备选词 汇形成的文本数据; 所述根据预设文法集合,确定与所述文本数据匹配的文法,包括: 根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路 径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。 基于上述任一实施例,所述预设文法集合中的文法根据预定泛化规则进行定义。 进一步的,所述预定泛化规则,包括: 所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点 在所述文法中出现的次数和/或重复次数。 本发明的第二方面是提供一种数据处理装置,包括: 获取模块,用于获取待处理的文本数据; 确定模块,用于根据预设文法集合,确定与所述文本数据匹配的文法,其中所述预 设文法集合包含的文法中定义了槽位抽取规则; 处理模块,用于基于所匹配的文法,获取所述文本数据对应的包含槽位抽取信息 的语义信息。 作为一种可能的实现方式,每一所述文法中包括至少一个表征所述文法匹配规则 的节点; 所述确定模块具体用于: 对所述文本数据进行分词处理,得到所述文本数据中包含的词汇; 在所述预设文法集合中,若查找到所包含的节点均与所述本文数据包含的词汇一 一匹配的文法,则确定为与所述文本数据匹配的文法。 进一步的,所述确定模块还用于: 若未查找到所包含的节点均与所述本文数据包含的词汇一一匹配的文法,则在所 述预设文法集合中,查找所包含的节点与所述文本数据包含的部分词汇匹配的文法,并确 定为与所述文本数据匹配的文法。 基于上述任一实施例,所述预设文法集合中还包括至少一个上下文文法; 所述处理模块具体用于: 若所述文本数据与任一上下文文法匹配,获取该文本数据对应的上下文文本数 据; 基于与所述文本数据匹配的所述上下文文法、以及所述上下文文本数据对应的包 含槽位抽取信息的语义信息,获取所述文本数据对应的包含槽位抽取信息的语义信息。 基于上述任一实施例,所述文法的每一节点对应一个备选词汇集合; 所述确定模块具体用于: 5 CN 111611793 A 说 明 书 3/9 页 在根据预设文法集合,确定与所述文本数据匹配的文法前,根据所述预设文法集 合中所述文法包含的各节点的备选词汇集合,获取全量解析路径,所述全量解析路径中的 每一解析路径为任一文法包含的每一节点对应的任一备选词汇形成的文本数据; 根据所述文本数据,从所述全量解析路径中查找与所述文本数据匹配的解析路 径,将所述匹配的解析路径对应的文法确定为与所述文本数据匹配的文法。 基于上述任一实施例,所述预设文法集合中的文法是根据预定泛化规则进行定义 的。 进一步的,所述预定泛化规则,包括: 所述文法中所包括的至少一个节点标注有规则标签,所述规则标签中定义该节点 在所述文法中出现的次数和/或重复次数。 本发明的第三方面是提供一种电子设备,包括: 存储器; 处理器;以及 计算机程序; 其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实 现如第一方面所述的方法。 本发明的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;所 述计算机程序被处理器执行时实现如第一方面所述的方法。 本发明提供的数据处理方法、装置、设备及存储介质,通过获取待处理的文本数 据;根据预设文法集合,确定与文本数据匹配的文法,其中预设文法集合包含的文法中定义 了槽位抽取规则;基于所匹配的文法,获取文本数据对应的包含槽位抽取信息的语义信息。 本发明提供的方案中,由于预设文法集合包含的文法中定义了槽位抽取规则,使得所定义 的文法更加灵活,并且更具实用性。而根据该预设文法合集即可得到文本数据对应的包含 槽位抽取信息的语义信息,可实现端对端的领域和意图分类、以及槽位抽取,提高了数据处 理的准确率和效率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。 图1为本发明实施例提供的数据处理方法流程图; 图2为本发明另一实施例提供的数据处理方法流程图; 图3为本发明实施例提供的数据处理装置的结构图; 图4为本发明实施例提供的电子设备的结构图。