logo好方法网

一种分类模型构建方法及装置


技术摘要:
本申请实施例公开了一种分类模型构建方法及装置,涉及计算机技术领域,本申请实施例提供的分类模型构建方法,基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记;并基于多个训练  全部
背景技术:
目前,一般利用分类模型自动对待分类对象进行分类处理。现有技术中,一般利用 大量真实的样本数据对分类模型进行训练。在分类模型的训练过程中,经常会出现不同类 的样本数据数量不均衡的情况,例如,某一类样本数据的数据量非常大,其他类的样本数据 的数据量很少。样本数据数量不均衡导致训练得到的分类模型的分类准确度不够。 现有技术中一般采用对数据量大的样本数据进行负采样,对数据量小的样本数据 进行正采样的方式,来提高分类模型的分类准确度。该方式虽然在一定程度上提高了训练 得到的分类模型的分类准确度,但是训练得到的分类模型的分类稳定无法保证。
技术实现要素:
有鉴于此,本申请实施例的目的在于提供一种分类模型构建方法及装置,能够在 不同类的样本数据存在数量不均衡的情况下,得到分类准确度和分类稳定性均较高的分类 模型。 第一方面,本申请实施例提供一种分类模型构建方法,包括: 获取多个训练样本以及多个训练样本中每个训练样本的分类标记; 基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记, 将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记; 基于所述多个训练样本和多个训练样本中每个训练样本的分类标记,对所述初始 分类模型进行训练,得到目标分类模型。 一种可能的实施方式中,所述基于初始分类模型对每个训练样本的分类结果信息 和每个训练样本的分类标记,将部分具有目标分类标记的训练样本的分类标记修订为目标 分类标记,包括: 基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记, 确定所述初始分类模型的分类准确度; 在确定的所述分类准确度大于预定数值的情况下,将部分具有目标分类标记的训 练样本的分类标记修订为目标分类标记。 一种可能的实施方式中,所述分类结果信息包括对应的训练样本属于所述目标分 类标记对应的类别的概率值; 所述在确定的所述分类准确度大于预定数值的情况下,将部分具有目标分类标记 的训练样本的分类标记修订为目标分类标记,包括: 在确定的所述分类准确度大于预定数值的情况下,基于每个训练样本属于所述目 标分类标记对应的类别的概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛 选需要修改分类标记的训练样本; 6 CN 111612023 A 说 明 书 2/15 页 将筛选得到的训练样本的分类标记修订为所述目标分类标记。 一种可能的实施方式中,所述基于每个训练样本属于所述目标分类标记对应的类 别的概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记 的训练样本,包括: 对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值, 进行均匀分布处理,得到每个训练样本属于所述目标分类标记对应的类别的目标概率值; 所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值,和预制 分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本。 一种可能的实施方式中,所述基于每个训练样本属于所述目标分类标记对应的类 别的目标概率值,和预制分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类 标记的训练样本,包括: 基于所述预制分类比例,确定筛选标准值; 将属于所述目标分类标记对应的类别的目标概率值,大于所述筛选标准值的训练 样本,作为筛选得到需要修改分类标记的训练样本。 一种可能的实施方式中,所述将筛选得到的训练样本的分类标记修订为所述目标 分类标记,包括: 针对筛选得到的训练样本,基于该训练样本属于所述目标分类标记对应的类别的 目标概率值,和所述初始分类模型的分类准确度,确定修订概率; 按照确定的所述修订概率,将训练样本的分类标记修订为所述目标分类标记。 一种可能的实施方式中,所述基于该训练样本属于所述目标分类标记对应的类别 的目标概率值,和所述初始分类模型的分类准确度,确定修订概率,包括: 计算该训练样本属于所述目标分类标记对应的类别的目标概率值,与所述初始分 类模型的分类准确度的乘积,得到所述修订概率。 一种可能的实施方式中,所述目标分类标记为在多个训练样本中的占比小于预定 占比的类别对应的分类标记。 一种可能的实施方式中,所述基于初始分类模型对每个训练样本的分类结果信息 和每个训练样本的分类标记,将部分具有目标分类标记的训练样本的分类标记修订为目标 分类标记,还包括: 在确定的所述分类准确度不大于所述预定数值的情况下,对所述初始分类模型中 的参数进行修订,利用参数修订后的初始分类模型对每个训练样本进行的分类,得到每个 训练样本的分类结果信息,并返回所述基于初始分类模型对每个训练样本的分类结果信息 和每个训练样本的分类标记,确定所述初始分类模型的分类准确度的步骤。 一种可能的实施方式中,所述基于所述多个训练样本和多个训练样本中每个训练 样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型,包括: 利用所述初始分类模型对所述多个训练样本中的每个训练样本进行分类,得到每 个训练样本的分类结果信息; 基于每个训练样本的分类结果信息,和每个训练样本的分类标记,对所述初始分 类模型中的参数进行修订; 在参数修订后的初始分类模型对应的分类准确度大于预定准确度的情况下,将参 7 CN 111612023 A 说 明 书 3/15 页 数修订后的初始分类模型作为所述目标分类模型。 一种可能的实施方式中,所述基于所述多个训练样本和多个训练样本中每个训练 样本的分类标记,对所述初始分类模型进行训练,得到目标分类模型,还包括: 在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下,返 回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将 部分具有预定分类标记的训练样本的分类标记修订为目标分类标记的步骤。 第二方面,本申请实施例提供一种分类模型构建装置,包括: 获取模块,用于获取多个训练样本以及多个训练样本中每个训练样本的分类标 记; 标记模块,用于基于初始分类模型对每个训练样本的分类结果信息和每个训练样 本的分类标记,将部分具有预定分类标记的训练样本的分类标记修订为目标分类标记; 训练模块,用于基于所述多个训练样本和多个训练样本中每个训练样本的分类标 记,对所述初始分类模型进行训练,得到目标分类模型。 一种可能的实施方式中,所述标记模块,具体用于: 基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记, 确定所述初始分类模型的分类准确度; 在确定的所述分类准确度大于预定数值的情况下,将部分具有目标分类标记的训 练样本的分类标记修订为目标分类标记。 一种可能的实施方式中,所述分类结果信息包括对应的训练样本属于所述目标分 类标记对应的类别的概率值; 所述标记模块,包括: 筛选模块,用于在确定的所述分类准确度大于预定数值的情况下,基于每个训练 样本属于所述目标分类标记对应的类别的概率值,和预制分类比例,从具有预定分类标记 的训练样本中,筛选需要修改分类标记的训练样本; 修订模块,还用于将筛选得到的训练样本的分类标记修订为所述目标分类标记。 一种可能的实施方式中,所述筛选模块,还用于: 对多个训练样本中的每个训练样本属于所述目标分类标记对应的类别的概率值, 进行均匀分布处理,得到每个训练样本属于所述目标分类标记对应的类别的目标概率值; 所述基于每个训练样本属于所述目标分类标记对应的类别的目标概率值,和预制 分类比例,从具有预定分类标记的训练样本中,筛选需要修改分类标记的训练样本。 一种可能的实施方式中,所述筛选模块,还用于: 基于所述预制分类比例,确定筛选标准值; 将属于所述目标分类标记对应的类别的目标概率值,大于所述筛选标准值的训练 样本,作为筛选得到需要修改分类标记的训练样本。 一种可能的实施方式中,所述修订模块,还用于: 针对筛选得到的训练样本,基于该训练样本属于所述目标分类标记对应的类别的 目标概率值,和所述初始分类模型的分类准确度,确定修订概率; 按照确定的所述修订概率,将训练样本的分类标记修订为所述目标分类标记。 一种可能的实施方式中,所述修订模块,还用于: 8 CN 111612023 A 说 明 书 4/15 页 计算该训练样本属于所述目标分类标记对应的类别的目标概率值,与所述初始分 类模型的分类准确度的乘积,得到所述修订概率。 一种可能的实施方式中,所述目标分类标记为在多个训练样本中的占比小于预定 占比的类别对应的分类标记。 一种可能的实施方式中,所述标记模块,还用于: 在确定的所述分类准确度不大于所述预定数值的情况下,对所述初始分类模型中 的参数进行修订,利用参数修订后的初始分类模型对每个训练样本进行的分类,得到每个 训练样本的分类结果信息,并返回所述基于初始分类模型对每个训练样本的分类结果信息 和每个训练样本的分类标记,确定所述初始分类模型的分类准确度的步骤。 一种可能的实施方式中,所述训练模块,具体用于: 利用所述初始分类模型对所述多个训练样本中的每个训练样本进行分类,得到每 个训练样本的分类结果信息; 基于每个训练样本的分类结果信息,和每个训练样本的分类标记,对所述初始分 类模型中的参数进行修订; 在参数修订后的初始分类模型对应的分类准确度大于预定准确度的情况下,将参 数修订后的初始分类模型作为所述目标分类模型。 一种可能的实施方式中,所述训练模块,还用于: 在参数修订后的初始分类模型对应的分类准确度不大于预定准确度的情况下,返 回所述基于初始分类模型对每个训练样本的分类结果信息和每个训练样本的分类标记,将 部分具有预定分类标记的训练样本的分类标记修订为目标分类标记的步骤。 第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储介质和总线,所 述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与 所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行本申 请实施例第一方面,以及第一方面中任一种可能的实施方式中的步骤。 第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介 质上存储有计算机程序,该计算机程序被处理器运行时执行本申请实施例第一方面,以及 第一方面中任一种可能的实施方式中的步骤。 本申请实施例提供的一种分类模型构建方法及装置,基于初始分类模型对每个训 练样本的分类结果信息和每个训练样本的分类标记,将部分具有预定分类标记的训练样本 的分类标记修订为目标分类标记;并基于多个训练样本和多个训练样本中每个训练样本的 分类标记,对初始分类模型进行训练,得到目标分类模型。上述技术方案在模型训练的过程 中,会将数量较多的类型的训练样本标记为数据量较少的训练样本的分类标记,利用分类 标记修订后的训练样本训练得到的分类模型的准确度和稳定性均得到了有效提升,即利用 训练得到的分类模型能够提升数量较少的类型的数据的检出率以及数据分类的稳定性。 为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附 9 CN 111612023 A 说 明 书 5/15 页 图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1示出了本申请实施例所提供的一种分类模型构建方法的流程图; 图2示出了本申请实施例所提供的另一种分类模型构建方法的流程图; 图3示出了本申请实施例所提供的一种分类模型构建装置的结构示意图; 图4示出了本申请实施例所提供的一种电子设备的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏