技术摘要:
本申请提供了一种样本迁移学习方法和装置,本申请的方案在样本迁移过程中,结合了源领域的预测模型和目标领域的预测模型对样本的预测结果,充分考虑了源领域的样本对于目标领域的预测模型的预测精准度的影响;同时,在样本迁移迭代过程中,还会基于迁移得到的源领域和 全部
背景技术:
迁移学习(transfer learning)通俗来讲,就是运用已有的知识来学习新的知识, 核心是找到已有知识和新知识之间的相似性。在迁移学习中,我们已有的知识叫做源域 (source domain),要学习的新知识叫目标域(target domain),源域和目标域不同但有一 定关联。我们需要找到并利用源域和目标域的关联性,进行知识迁移,从而实现数据标定。 其中,样本迁移学习的目标就是从源领域的样本集里寻找那些能够改善目标领域 预测任务(如,分类预测任务或者回归预测任务等)性能的样本。如,通过样本迁移学习从源 领域的样本集中找到能够提高目标领域分类任务的样本并加入到目标领域的样本集之后, 基于迁移得到的目标领域的样本集训练出的分类模型,比利用原始的目标领域的样本集训 练出的分类模型具有更好的分类性能。然而,基于目前的样本迁移学习方法无法可靠地确 定出目标领域的样本集,从而导致无法有效提升目标领域预测任务的性能。
技术实现要素:
有鉴于此,本申请提供了一种样本迁移学习方法和装置,以更为有效和可靠地确 定出目标领域的样本集,使得最终确定出的目标领域的样本集能够更为有效提升目标领域 预测任务的性能。 为实现上述目的,本申请提供如下技术方案: 一方面,本申请提供了一种样本迁移学习方法,包括: 获得源领域的第一原始样本集和目标领域的第二原始样本集,所述第一原始样本 集和所述第二原始样本集分别包括多个标注有实际任务结果的样本; 获得所述源领域的第一预测模型和所述目标领域的第二预测模型,所述第一预测 模型为基于所述第一原始样本集训练得到的所述源领域的预测模型,所述第二预测模型为 基于所述第二原始样本集训练得到所述目标领域的预测模型; 针对第一原始样本集和第二原始样本集中的每个样本,执行迁移操作:确定所述 第一预测模型对所述样本的第一预测结果以及所述第二预测模型对所述样本的第二预测 结果,结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,从所述源领 域和目标领域中确定所述样本适合归属的目的领域,将所述样本划归到所述目的领域的中 间态样本集,得到所述源领域的中间态样本集和所述目标领域的中间态样本集; 针对第一原始样本集和第二原始样本中的每个样本,如果根据所述样本的实际任 务结果、所述第一预测结果和第二预测结果确定出所述第一预测模型和所述第二预测模型 对所述样本的预测结果均不正确,则将循环控制变量加一; 如果循环控制变量未达到收敛状态,则基于所述源领域的中间态样本集训练得到 5 CN 111582502 A 说 明 书 2/16 页 所述源领域的第一预测模型,并利用目标领域的中间态样本集训练目标领域的第二预测模 型,清空所述源领域和目标领域的中间态样本集中的样本,并针对第一原始样本集和第二 原始样本集中的每个样本,基于最近一次训练得到的第一预测模型和第二预测模型返回执 行所述迁移操作,直至所述循环控制变量达到收敛状态。 优选的,所述结合所述样本对应的实际任务结果、所述第一预测结果和第二预测 结果,从所述源领域和目标领域中确定所述样本适合归属的目的领域,包括: 结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,确定所 述样本属于源领域的第一概率和所述所述样本属于目标领域的第二概率; 依据所述第一概率和所述第二概率,从所述源领域和所述目标领域中确定所述样 本适合归属的目的领域。 优选的,所述依据所述第一概率和所述第二概率,从所述源领域和所述目标领域 中确定所述样本适合归属的目的领域,包括: 基于所述第一概率和所述第二概率,将设定数值范围划分为第一数值范围和第二 数值范围,其中,所述第一数值范围和所述第二数值范围不重叠,其中,设定数值范围中属 于第一数值范围的数据的比例为第一概率,且属于第二数值范围的数据的比例为第二概 率; 生成一随机数,所述随机数属于该设定数值范围; 如所述随机数属于所述第一数值范围,确认所述样本适合归属到源领域; 如所述随机数属于所述第二数值范围,则确认所述样本适合归属到目标领域。 优选的,所述样本对应的实际任务结果为所述样本对应的实际分类结果; 所述第一预测模型和所述第二预测模型均为分类模型; 所述结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,确 定所述样本属于源领域的第一概率和所述所述样本属于目标领域的第二概率,包括: 如果结合所述样本对应的实际分类结果确定出所述第一预测结果和第二预测结 果均正确或者均不正确,则确定所述样本属于源领域的第一概率为百分之五十,且所述样 本属于目标领域的第二概率为百分之五十; 如果结合所述样本对应的实际分类结果确定出所述第一预测结果正确,而第二预 测结果不正确,则确定所述样本属于源领域的第一概率为1,且所述样本属于目标领域的第 二概率为0; 如果结合所述样本对应的实际分类结果确定出所述第一预测结果不正确,而第二 预测结果正确,则确定所述样本属于源领域的第一概率为0,且所述样本属于目标领域的第 二概率为1。 优选的,所述第一预测模型和所述第二预测模型均为回归模型; 所述结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,确 定所述样本属于源领域的第一概率和所述样本属于目标领域的第二概率,包括: 结合所述样本对应的实际任务结果和所述第一预测结果,确定所述第一预测模型 的第一预测误差; 结合所述样本对应的实际任务结果和所述第二预测结果,确定所述第二预测模型 的第二预测误差; 6 CN 111582502 A 说 明 书 3/16 页 依据所述第一预测误差和所述第二预测误差,确定所述样本属于源领域的第一概 率和所述样本属于目标领域的第二概率。 优选的,所述将所述样本划归到所述目的领域的中间态样本集,包括: 如所述样本属于所述源领域的第一原始样本集,则将所述样本划归到所述目的领 域的中间态样本集; 如所述样本属于目标领域的第二原始样本集,且所述目的领域为目标领域,则将 所述样本划归到所述目标领域的中间态样本集。 优选的,所述将所述样本划归到所述目的领域的中间态样本集,包括: 如所述样本属于所述目标领域的第二原始样本集,则将所述样本划归到所述目的 领域的中间态样本集; 如所述样本属于所述源领域的第一原始样本集,且所述目的领域为源领域,则将 所述样本划归到所述源领域的中间态样本集。 又一方面,本申请还提供了一种样本迁移学习装置,包括: 样本获得单元,用于获得源领域的第一原始样本集和目标领域的第二原始样本 集,所述第一原始样本集和所述第二原始样本集分别包括多个标注有实际任务结果的样 本; 模型获得单元,获得所述源领域的第一预测模型和目标领域的第二预测模型,所 述第一预测模型为基于所述第一原始样本集训练得到的所述源领域的预测模型,所述第二 预测模型为基于所述第二原始样本集训练得到所述目标领域的预测模型; 迁移操作单元,用于针对第一原始样本集和第二原始样本集中的每个样本,确定 所述第一预测模型对所述样本的第一预测结果以及所述第二预测模型对所述样本的第二 预测结果,结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,从所述 源领域和目标领域中确定所述样本适合归属的目的领域,将所述样本划归到所述目的领域 的中间态样本集,得到所述源领域的中间态样本集和所述目标领域的中间态样本集; 变量调整单元,用于针对第一原始样本集和第二原始样本中的每个样本,如果根 据所述样本的实际任务结果、所述第一预测结果和第二预测结果确定出所述第一预测模型 和所述第二预测模型对所述样本的预测结果均不正确,则将循环控制变量加一; 循环控制单元,用于如果循环控制变量未达到收敛状态,则基于所述源领域的中 间态样本集训练得到所述源领域的第一预测模型,并利用目标领域的中间态样本集训练目 标领域的第二预测模型,清空所述源领域和目标领域的中间态样本集中的样本,并针对第 一原始样本集和第二原始样本集中的每个样本,基于最近一次训练得到的第一预测模型和 第二预测模型返回执行所述迁移操作单元的操作,直至所述循环控制变量达到收敛状态。 优选的,所述迁移操作单元在执行所述结合所述样本对应的实际任务结果、所述 第一预测结果和第二预测结果,从所述源领域和目标领域中确定所述样本适合归属的目的 领域时,具体为: 结合所述样本对应的实际任务结果、所述第一预测结果和第二预测结果,确定所 述样本属于源领域的第一概率和所述所述样本属于目标领域的第二概率; 依据所述第一概率和所述第二概率,从所述源领域和所述目标领域中确定所述样 本适合归属的目的领域。 7 CN 111582502 A 说 明 书 4/16 页 优选的,所述样本获得单元中获得的所述样本对应的实际任务结果为所述样本对 应的实际分类结果; 所述模型获得单元和所述循环控制单元得到的所述第一预测模型和所述第二预 测模型均为分类模型; 所述迁移操作单元在结合所述样本对应的实际任务结果、所述第一预测结果和第 二预测结果,确定所述样本属于源领域的第一概率和所述所述样本属于目标领域的第二概 率时,具体为: 如果结合所述样本对应的实际分类结果确定出所述第一预测结果和第二预测结 果均正确或者均不正确,则确定所述样本属于源领域的第一概率为百分之五十,且所述样 本属于目标领域的第二概率为百分之五十; 如果结合所述样本对应的实际分类结果确定出所述第一预测结果正确,而第二预 测结果不正确,则确定所述样本属于源领域的第一概率为1,且所述样本属于目标领域的第 二概率为0; 如果结合所述样本对应的实际分类结果确定出所述第一预测结果不正确,而第二 预测结果正确,则确定所述样本属于源领域的第一概率为0,且所述样本属于目标领域的第 二概率为1。 经由上述的技术方案可知,本申请在样本迁移过程中,结合了源领域的预测模型 和目标领域的预测模型对样本的预测结果,从而充分考虑了源领域的样本对于目标领域的 预测模型的预测精准度的影响;同时,在样本迁移迭代过程中,还会基于迁移得到的源领域 和目标领域的中间态样本集不断对源领域和目标领域的预测模型进行优化,使得每次迭代 的预测模型的性能都不劣于上次迭代中预测模型的性能,从而使得最终迁移得到的目标领 域的样本集更有利于提高目标领域预测任务的性能。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附 图。 图1示出了本申请一种样本迁移学习方法一个实施例的流程示意图; 图2示出了本申请一种样本迁移学习方法又一个实施例的流程示意图; 图3示出了本申请一种样本迁移学习方法在一种应用场景中的流程示意图; 图4示出了本申请一种样本迁移学习装置一个实施例的组成结构示意图。