logo好方法网

数据标注方法、问答方法、装置及电子设备


技术摘要:
本发明提供了一种数据标注方法、问答方法、装置及电子设备,数据标注方法包括:获取初始问题;在预先建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;将初始问题与初始问题对应的相似问题组成问题  全部
背景技术:
随着深度学习的发展,数据集作为深度学习模型训练的基石和原料也变的越来越 重要。现有的基于深度学习的问答系统的流程为当用户询问一个问题时,该系统的核模块- 意图判定模块判断该问题的意图,并进行相应的处理,因此需要一个数据集来训练该模块, 在建立数据集时则需要对数据进行标注。现有的数据标注方法大多采用关键词映射的方 式,即一个关键词对应一个意图,这种方法只适用于意图简单或者意图不多的场景,当意图 较多时,很难通过人工标注得到映射列表,同时通过人工主观判断进行标注会导致标注结 果准确性差。
技术实现要素:
有鉴于此,本发明的目的在于提供一种数据标注方法、问答方法、装置及电子设 备,能够在适用于更多场景的同时提高标注结果的准确性。 第一方面,本发明实施例提供了一种数据标注方法,包括:获取初始问题;在预先 建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到 的问题作为初始问题对应的相似问题;将初始问题与初始问题对应的相似问题组成问题 对;根据问题对的相似度对问题对进行标注。 在一种实施方式中,根据问题对的相似度对问题对进行标注的步骤,包括:如果问 题对中的初始问题和相似问题之间的题干相似度小于第二预设阈值,且问题对中的初始问 题和相似问题之间的意图相似度大于第三预设阈值,将问题对标注为第一值;如果问题对 中的初始问题和相似问题之间的题干相似度大于第二预设阈值,且问题对中的初始问题和 相似问题之间的意图相似度小于第三预设阈值,将问题对标注为第二值。 在一种实施方式中,初始问题的数量为多个,方法还包括:将初始问题按照预设类 别划分为多类,得到不同分类类别的初始问题;根据问题对的相似度对问题对进行标注的 步骤,包括:基于问题对中初始问题的分类类别和问题对的相似度,对问题对进行标注。 在一种实施方式中,方法还包括:如果相似问题的数量小于预设数量,获取指定数 量的问题作为补充问题;其中,指定数量为预设数量与相似问题的数量的差值。 在一种实施方式中,问题对的数量为多个,方法还包括:将已标注的多个问题对按 照预设比例进行划分,得到训练集、测试集和验证集;训练集、测试集和验证集均包括多个 已标注的问题对。 第二方面,本发明实施例提供了一种问答方法,包括:获取待回答问题;基于意图 判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建 立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用上述 4 CN 111611781 A 说 明 书 2/9 页 第一方面提供的任一项的方法进行标注的;问答库中包含有问题和答案的对应关系。 第三方面,本发明实施例提供了一种数据标注装置,包括:问题获取模块,用于获 取初始问题;问题查找模块,用于在预先建立的问答库中查找预设数量的与初始问题的相 似度超过第一预设阈值的问题,将查找到的问题作为初始问题对应的相似问题;问题对获 取模块,用于将初始问题与初始问题对应的相似问题组成问题对;标注模块,用于根据问题 对的相似度对问题对进行标注。 第四方面,本发明实施例提供了一种问答装置,包括:获取模块,用于获取待回答 问题;答案确定模块,用于基于意图判断模型和预先建立的问答库确定待回答问题的答案; 其中,意图判断模型是采用预先建立的相似问题数据库训练得到的;相似问题数据库中包 含多个问题对,问题对是采用上述第一方面提供的任一项的方法进行标注的;问答库中包 含有问题和答案的对应关系。 第五方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储 有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一 方面或第二方面提供的任一项的方法的步骤。 第六方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质 上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或第二方面提供的任 一项的方法的步骤。 本发明实施例提供了一种数据标注方法及装置,首先获取初始问题;然后在预先 建立的问答库中查找预设数量的与初始问题的相似度超过第一预设阈值的问题,将查找到 的问题作为初始问题对应的相似问题;接着将初始问题与初始问题对应的相似问题组成问 题对;最后根据问题对的相似度对问题对进行标注。上述方法能够将查找到的相似问题与 初始问题组成问题对,在进行数据标注时充分考虑了问题对的相似度,从而能够保证标注 数据的质量,进而提高标注结果的准确性;同时,上述方法不需要通过人工标注获取关键词 映射列表进行意图识别,从而能够适用于更多场景。 本发明实施例提供了一种问答方法及装置,首先获取待回答问题;然后基于意图 判断模型和预先建立的问答库确定待回答问题的答案;其中,意图判断模型是采用预先建 立的相似问题数据库训练得到的;相似问题数据库中包含多个问题对,问题对是采用前述 数据标注进行标注的;问答库中包含有问题和答案的对应关系。上述方法是采用前述数据 标注方法标注的相似问题数据库训练意图判断模型的,通过前述数据标注方法标注得到的 相似问题数据库中的数据更加准确,因此训练得到的模型也更加准确,从而能够有效保障 待回答问题的答案的准确性。 本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书 以及附图中所特别指出的结构来实现和获得。 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。 附图说明 为了更清楚地说明本发明
下载此资料需消耗2积分,
分享到:
收藏