logo好方法网

用于标注数据的方法、装置、设备和介质


技术摘要:
本公开的实施例公开了用于标注数据的方法和装置。该方法的一具体实施方式包括:获取待标注数据;将待标注数据作为输入数据,输入至预先训练的分类模型,得到与待标注数据相对应的输出数据,其中,分类模型用于表征输入数据和输出数据之间的对应关系,输出数据包括的数  全部
背景技术:
包括:获取 待标注数据;将待标注数据作为输入数据,输入 至预先训练的分类模型,得到与待标注数据相对 应的输出数据,其中,分类模型用于表征输入数 据和输出数据之间的对应关系,输出数据包括的 数值序列中的各个数值表征输入数据属于预设 类别集合中的各个类别的相对概率;根据与待标 注数据相对应的输出数据包括的数值序列中的 目标数值,生成待标注数据的标注数据,其中,目 标数值为大于或等于预设阈值的数值。该实施方 式丰富了数据标注的方式,可以对未标注的数据 进行自动标注,从而增加了用于训练模型的训练 样本的数量。 CN 111582360 A CN 111582360 A 权 利 要 求 书 1/2 页 1.一种用于标注数据的方法,包括: 获取待标注数据; 将所述待标注数据作为输入数据,输入至预先训练的分类模型,得到与所述待标注数 据相对应的输出数据,其中,所述分类模型用于表征输入数据和输出数据之间的对应关系, 输出数据包括数值序列,数值序列中的各个数值表征输入数据属于预设类别集合中的各个 类别的相对概率; 根据所述与所述待标注数据相对应的输出数据包括的数值序列中的目标数值,生成所 述待标注数据的标注数据,其中,目标数值为大于或等于预设阈值的数值。 2.根据权利要求1所述的方法,其中,所述根据所述与所述待标注数据相对应的输出数 据包括的数值序列中的目标数值,生成所述待标注数据的标注数据,包括: 将所述与所述待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为 第一预设数值,将更新后的数值序列作为所述待标注数据的标注数据,其中,所述第一预设 数值为小于所述预设阈值的数值。 3.根据权利要求1所述的方法,其中,所述根据所述与所述待标注数据相对应的输出数 据包括的数值序列中的目标数值,生成所述待标注数据的标注数据,包括: 将所述与所述待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为 第二预设数值,将所述与所述待标注数据相对应的输出数据包括的数值序列中的目标数值 更新为第三预设数值,将更新后的数值序列作为所述待标注数据的标注数据,其中,所述第 二预设数值为小于所述预设阈值的数值,所述第三预设数值为大于或等于所述预设阈值的 数值。 4.根据权利要求1所述的方法,其中,所述根据所述与所述待标注数据相对应的输出数 据包括的数值序列中的目标数值,生成所述待标注数据的标注数据,包括: 将所述与所述待标注数据相对应的输出数据包括的数值序列中的非目标数值更新为 第四预设数值,将所述与所述待标注数据相对应的输出数据包括的数值序列中的目标数值 更新为目标数值的预设倍数,将更新后的数值序列作为所述待标注数据的标注数据,其中, 所述第四预设数值为小于所述预设阈值的数值。 5.根据权利要求1所述的方法,其中,所述分类模型包含多个二分类子模型;所述分类 模型包含的二分类子模型用于确定输入数据属于所述预设类别集合中的各个类别的相对 概率。 6.根据权利要求1-5之一所述的方法,其中,所述方法还包括: 将所述与所述待标注数据相对应的输出数据作为实际输出数据,将所生成的所述待标 注数据的标注数据作为期望输出数据,计算预设损失函数的函数值; 采用梯度下降法,根据所述函数值对所述分类模型进行调参。 7.根据权利要求6所述的方法,其中,所述方法还包括: 响应于不满足预先确定的训练结束条件,执行如下步骤: 将新的待标注数据作为输入数据,输入至最近一次调参后得到的分类模型,得到与所 述新的待标注数据相对应的新的输出数据; 根据所述新的输出数据包括的数值序列中的目标数值,生成所述新的待标注数据的标 注数据; 2 CN 111582360 A 权 利 要 求 书 2/2 页 将所述新的输出数据作为实际输出数据,将所述新的待标注数据的标注数据作为期望 输出数据,计算所述预设损失函数的新的函数值; 采用梯度下降法,根据所述新的函数值对最近一次调参后得到的分类模型进行再次调 参。 8.根据权利要求7所述的方法,其中,所述方法还包括: 响应于满足所述训练结束条件,将最近一次调参后得到的分类模型确定为训练完成的 分类模型。 9.根据权利要求8所述的方法,其中,输入数据表征语句,所述预设类别集合中的类别 表征语句的情感标签;以及 所述方法还包括: 获取目标语句; 将所述目标语句输入至所述训练完成的分类模型,得到与所述目标语句相对应的输出 数据; 确定与所述目标语句相对应的输出数据包括的数值序列中的最大的数值; 将所述预设类别集合中与所述最大的数值相对应的类别,确定为所述目标语句的情感 标签。 10.根据权利要求9所述的方法,其中,所述方法还包括以下至少一项: 根据所述目标语句的情感标签,生成所述目标语句的回复语句; 播放与所述目标语句的情感标签相对应的音频; 呈现与所述目标语句的情感标签相对应的图像; 控制目标设备执行与所述目标语句的情感标签相对应的操作。 11.一种用于标注数据的装置,包括: 第一获取单元,被配置成获取待标注数据; 第一输入单元,被配置成将所述待标注数据作为输入数据,输入至预先训练的分类模 型,得到与所述待标注数据相对应的输出数据,其中,所述分类模型用于表征输入数据和输 出数据之间的对应关系,输出数据包括数值序列,数值序列中的各个数值表征输入数据属 于预设类别集合中的各个类别的相对概率; 第一生成单元,被配置成根据所述与所述待标注数据相对应的输出数据包括的数值序 列中的目标数值,生成所述待标注数据的标注数据,其中,目标数值为大于或等于预设阈值 的数值。 12.一种电子设备,包括: 一个或多个处理器; 存储装置,其上存储有一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实 现如权利要求1-10中任一所述的方法。 13.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实 现如权利要求1-10任一所述的方法。 3 CN 111582360 A 说 明 书 1/15 页 用于标注数据的方法、装置、设备和介质 技术领域 本公开的实施例涉及计算机技术领域,具体涉及用于标注数据的方法和装置。
技术实现要素:
数据标注,是对用以训练模型的人工智能学习数据进行加工的一种操作。通常,数 据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标 注画框、3D画框、文本转录、图像打点、目标物体轮廓线等。 实践中,以分类模型为例,为提高分类模型的准确率(Accuracy)、精确率 (Precision)、召回率(Recall)、F值(F-Measure)、AUC(Area  Under  roc  Curve)、ROC (Receiver  Operating  Characteristic)等评价指标,在训练模型前,往往需要准备大量的 标注数据。并且,为确保标注数据的可靠性,现有技术中,多采用人工标注的方式进行数据 标注。
下载此资料需消耗2积分,
分享到:
收藏