
技术摘要:
本申请实施例提供一种语料扩充方法、装置、电子设备及存储介质,属于自然语言处理领域。该方法中,可以通过从参考领域中的通用语料中获取与目标领域的目标语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料库中,从而完成目标领域的语 全部
背景技术:
在建立语言模型时,通常需要大量的语料,而对于某些领域,其语料存在不足的情 况,这时需要对这个领域的语料进行扩充,目前其扩充的方式是基于词组的扩充,也就是从 其他领域中获取一些属于这个领域的词组,比如获取该领域中词组的一些同义词进行扩 充。但是对于不同的领域,很多词组是通用的,但是对于同一个词来说,其作为上文,对于不 同的领域,其下文出现的内容可能是不相同的。所以,通过这种方式对语料不足的领域进行 语料扩充,获取的语料通常不是与该领域特别匹配,进而使得获得的语料对于该领域来说 并不准确。
技术实现要素:
有鉴于此,本申请实施例的目的在于提供一种语料扩充方法、装置、电子设备及存 储介质,以对语料不足的领域获取更为准确的扩充语料。 第一方面,本申请实施例提供了一种语料扩充方法,所述方法包括:获取需扩充的 目标领域对应的目标语料;从除所述目标领域外的至少一个参考领域获取通用语料,所述 通用语料包括由多个词组成的句子;从所述通用语料中获取与所述目标语料的相似度达到 预设阈值的语料作为扩充语料;将所述扩充语料添加至所述目标领域的语料库中。 在上述实现过程中,可以通过从参考领域中的通用语料中获取与目标领域的目标 语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料 库中,从而完成目标领域的语料的扩充,本方案相比于现有技术中通过词语的匹配来扩充 目标领域的语料导致语料不准确的问题,本方案中通用语料可以为句子,所以从中获取的 扩充语料可以与目标领域更为匹配,从而可以提高获得目标领域的扩充语料的准确性。 可选地,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作 为扩充语料,包括:判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;若 有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料 的相似度达到预设阈值的扩充语料。 在上述实现过程中,可以从通用语料中直接获取与目标语料的类别相同的语料作 为扩充语料,使得可以从通用语料中获取与目标领域更为匹配的语料作为扩充语料,提高 了目标领域的扩充语料的获取的准确性。 可选地,判断所述通用语料中是否有与所述目标语料对应的类别相同的语料,包 括:通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;判 断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。 在上述实现过程中,通过预先训练的语料分类模型对通用语料进行分类处理,由 4 CN 111611374 A 说 明 书 2/8 页 于语料分类模型预先经过训练,可以使得分类更为准确。 可选地,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作 为扩充语料,包括:计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF 值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;从所述通用语料对应 的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。 在上述实现过程中,通过将获得的通用语料与目标语料之间的IF-IDF值作为通用 语料与目标语料之间的相似度,可以从通用语料中获得更加准确的扩充语料。 可选地,将所述扩充语料添加至所述目标领域的语料库中之后,还包括:将所述目 标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领 域对应的语言模型。 在上述实现过程中,通过将目标领域的所有语料输入语言模型中进行训练,可以 为训练目标领域对应的语言模型提供了丰富的数据基础,从而使得训练获得的语言模型在 后续使用时其预测准确率更高。 第二方面,本申请实施例提供了一种语料扩充装置,所述装置包括: 目标语料获取模块,用于获取需扩充的目标领域对应的目标语料; 通用语料获取模块,用于从除所述目标领域外的至少一个参考领域获取通用语 料,所述通用语料包括由多个词组成的句子; 扩充语料获取模块,用于从所述通用语料中获取与所述目标语料的相似度达到预 设阈值的语料作为扩充语料; 语料增加模块,用于将所述扩充语料添加至所述目标领域的语料库中。 可选地,所述扩充语料获取模块,具体用于判断所述通用语料中是否有与所述目 标语料对应的类别相同的语料;若有,则从所述通用语料中获取与所述目标语料对应的类 别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。 可选地,所述扩充语料获取模块,还用于通过预先训练的语料分类模型对所述通 用语料进行分类,获得多个类别的通用语料;判断所述多个类别的通用语料中是否有与所 述目标语料对应的类别相同的语料。 可选地,所述扩充语料获取模块,还用于计算所述通用语料与所述目标语料之间 的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述 TF-IDF值;从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语 料。 可选地,所述装置还包括: 模型训练模块,用于将所述目标领域的语料库中的所有语料输入至语言模型中, 对语言模型进行训练,获得所述目标领域对应的语言模型。 第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器 存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第 一方面提供的所述方法中的步骤。 第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计 算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。 本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得 5 CN 111611374 A 说 明 书 3/8 页 显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说 明书、权利要求书、以及附图中所特别指出的结构来实现和获得。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1为本申请实施例提供的一种电子设备的示例性硬件和软件组件的示意图; 图2为本申请实施例提供的一种语料扩充方法的流程图; 图3为本申请实施例提供的一种语料扩充装置的结构框图。