logo好方法网

一种多嵌入命名实体识别方法、装置、设备及存储介质


技术摘要:
本发明公开了一种多嵌入命名实体识别方法、装置、设备及存储介质,该方法包括:获取句子信息;对句子信息进行数据分析,分别获取得到句子信息对应的字向量、拼音向量和五笔向量;将字向量、拼音向量和五笔向量进行特征融合,得到特征融合结果;利用人工神经网络和条件  全部
背景技术:
目前,智能机器人交互是实现城市智能化的一项重要工作。近年来,随着计算机集 群计算能力的大幅度提升,人工智能算法研究和产业落地步入了发展快车道,而智能机器 人交互作为人工智能重要分支自然语言处理的一个重要应用,也逐渐成为学术界、工业界 重点投入的研究热点和产品方向。无论在教育领域,金融领域,还是医疗领域都有着广泛的 应用,通过使用智能机器人,可以提高效率,减少人力资源。智能机器人交互对社会经济效 益和国家科技发展都具有重大意义。 命名实体识别在智能机器人交互系统中,需要从用户的提问中准确的识别出各种 实体的类型才能更好地回答用户,例如:“我想订一张后天从杭州到三亚的机票?”“从三亚 飞杭州的机票多少钱?”,分别需要准确地识别出“后天”,“三亚”和“杭州”才能准确回答用 户的问题。对话系统需要接收纯文本形式的自然语言,必需经过实体识别将无结构化的数 据转化为结构化数据,才能进行后续的意图识别等步骤。 现有技术中采用的命名实体识别方法是先将句子信息转换为字向量,以字向量为 基础进行命名实体识别得到实体识别结果。但是仅仅依据字向量进行实体识别,基础数据 比较单一,识别的准确性较低。因此,如何提高命名实体识别的准确性是亟待解决的问题。
技术实现要素:
本发明的目的是提供一种多嵌入命名实体识别方法、装置、设备及存储介质,以实 现提高命名实体识别的准确性。 为解决上述技术问题,本发明提供一种多嵌入命名实体识别方法,包括: 获取句子信息; 对句子信息进行数据分析,分别获取得到句子信息对应的字向量、拼音向量和五 笔向量; 将字向量、拼音向量和五笔向量进行特征融合,得到特征融合结果; 利用人工神经网络和条件随机场对特征融合结果进行实体识别,得到实体识别结 果。 优选的,所述对句子信息进行数据分析,分别获取得到句子信息对应的字向量、拼 音向量和五笔向量,包括: 对句子信息进行字转换、向量转换后,得到字向量; 对句子信息进行拼音转换、向量转换后,得到拼音向量; 对句子信息进行五笔转换、向量转换后,得到五笔向量。 优选的,所述将字向量、拼音向量和五笔向量进行特征融合,得到特征融合结果, 4 CN 111597815 A 说 明 书 2/7 页 包括: 将字向量、拼音向量和五笔向量进行拼接,得到拼接结果; 将拼接结果输入至卷积神经网络的全连接层,得到全连接层的输出结果,将输出 结果作为特征融合结果。 优选的,所述利用人工神经网络和条件随机场对特征融合结果进行实体识别,得 到实体识别结果,包括: 将特征融合结果输入至人工神经网络中,输出得到隐藏状态向量; 采用条件随机场对隐藏状态向量进行数据分析,得到实体识别结果。 优选的,所述人工神经网络为双向长短时记忆网络。 优选的,所述拼接结果的计算公式如下: 其中, 和 分别是字向量、拼音向量和五笔向量; 是拼接结果。 优选的,所述全连接层的输出结果的计算公式如下: 其中,σ是sigmoid激活函数,W (t)fc和bfc均为全连接层可训练参数,X 是全连接层的 输出结果。 本发明还提供一种多嵌入命名实体识别装置,包括: 获取模块,用于获取句子信息; 分析模块,用于对句子信息进行数据分析,分别获取得到句子信息对应的字向量、 拼音向量和五笔向量; 融合模块,用于将字向量、拼音向量和五笔向量进行特征融合,得到特征融合结 果; 识别模块,用于利用人工神经网络和条件随机场对特征融合结果进行实体识别, 得到实体识别结果。 本发明还提供一种多嵌入命名实体识别设备,包括: 存储器,用于存储计算机程序; 处理器,用于执行所述计算机程序时实现如上任一项所述的多嵌入命名实体识别 方法的步骤。 本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算 机程序,所述计算机程序被处理器执行时实现如上任一项所述的多嵌入命名实体识别方法 的步骤。 本发明所提供的一种多嵌入命名实体识别方法、装置、设备及存储介质,获取句子 信息;对句子信息进行数据分析,分别获取得到句子信息对应的字向量、拼音向量和五笔向 量;将字向量、拼音向量和五笔向量进行特征融合,得到特征融合结果;利用人工神经网络 和条件随机场对特征融合结果进行实体识别,得到实体识别结果。可见,不仅仅只通过字向 量这个特征进行命名实体识别,还加入了拼音向量和五笔向量这两个特征,对字向量、拼音 向量和五笔向量这三个特征进行了特征融合,依据三个特征的融合结果进行实体识别,中 5 CN 111597815 A 说 明 书 3/7 页 文特有的字音字形特征可以为自然语言处理任务提供额外的辅助知识,能够对中文命名实 体识别任务有增益作用,这样命名实体识别的结果更加准确,实现提高命名实体识别的准 确性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本发明所提供的一种多嵌入命名实体识别方法的流程图; 图2为拼音转化结果示意图; 图3(a)为Skip-gram模型示意图; 图3(b)为CBOW模型示意图; 图4为拼音向量表示结果示意图; 图5(a)为动词与五笔输入潜在的语义关系示意图; 图5(b)为名词和五笔输入潜在的语义关系示意图; 图6为五笔转化结果示意图; 图7为融合了多种嵌入的模型示意图; 图8为本发明所提供的一种多嵌入命名实体识别装置结构示意图; 图9为本发明所提供的一种多嵌入命名实体识别设备结构示意图。
分享到:
收藏