logo好方法网

一种错误样本识别方法、装置及终端


技术摘要:
本发明提供一种错误样本识别方法、装置及终端,该错误样本识别方法包括:获取待识别数据集;利用所述待识别数据集训练深度学习网络,获得所述待识别数据集中的每个样本的损失值序列;根据所述每个样本的损失值序列,识别得到所述待识别数据集中的错误标注样本。本发明  全部
背景技术:
人工智能(Artificial  Intelligence,AI)在全球范围内的关注度日渐升高,发展 速度迅猛,基于人工智能的计算机辅助诊断,尤其是基于深度学习的医学图像自动分析,成 为了最近几年的研究热点,并且已经逐步开始在行业中得到应用。基于深度学习的医学图 像自动分析,其基础就是一定数量的由医生精确标注的医学图像数据,这些数据需要作为 训练数据来构建深度学习模型,并作为验证和测试数据来检验模型的精度。 然而,医生在标注医学图像数据时,不可避免地会出现标注错误的情况,例如在分 类问题中,表现相近的、应该同属于一个类别的医学图像,医生却对其赋予了不同的类别标 注。标注错误的医学图像,如果被划分到训练集,将导致模型学习到错误信息,影响模型的 准确性;如果被划分到验证集或测试集,则将无法真实评估模型的精度。一般情况下,为了 保证训练集或测试集中医学图像标注的准确性,需要组织医生团队对全部标注的医学图像 进行复核,但此人工复核的方式通常需耗费大量的时间和精力,复核的准确性受到人主观 意识的影响,造成识别错误标注样本的效率和准确率低。
技术实现要素:
本发明实施例提供一种错误样本识别方法、装置及终端,以解决目前人工识别错 误标注样本的效率和准确率低的问题。 为了解决上述技术问题,本发明是这样实现的: 第一方面,本发明实施例提供了一种错误样本识别方法,包括: 获取待识别数据集; 利用所述待识别数据集训练深度学习网络,获得所述待识别数据集中的每个样本 的损失值序列; 根据所述每个样本的损失值序列,识别得到所述待识别数据集中的错误标注样 本。 第二方面,本发明实施例提供了种错误样本识别装置,包括: 获取模块,用于获取待识别数据集; 获得模块,用于利用所述待识别数据集训练深度学习网络,获得所述待识别数据 集中的每个样本的损失值序列; 识别模块,用于根据所述每个样本的损失值序列,识别得到所述待识别数据集中 的错误标注样本。 第三方面,本发明实施例提供了一种终端,包括存储器、处理器及存储在所述存储 器上并可在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器执行时 实现上述错误样本识别方法的步骤。 4 CN 111612021 A 说 明 书 2/7 页 第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程 序,其中,所述计算机程序被处理器执行时实现上述错误样本识别方法的步骤。 本发明实施例中,通过获取待识别数据集,利用所述待识别数据集训练深度学习 网络,获得所述待识别数据集中的每个样本的损失值序列,根据所述每个样本的损失值序 列,识别得到所述待识别数据集中的错误标注样本,可以利用样本自身的特征信息,即正确 标注样本和错误标注样本在模型训练过程中损失值序列上的不同表现,实现对错误标注样 本的自动识别,从而提高识别错误标注样本的效率和准确率。 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。 图1为本发明实施例的错误样本识别方法的流程图; 图2为本发明具体实例的正确标注样本的损失值序列的示意图; 图3为本发明具体实例的错误标注样本的损失值序列的示意图; 图4为本发明实施例的错误样本识别装置的结构示意图; 图5为本发明实施例的终端的结构示意图。
分享到:
收藏