logo好方法网

一种数据质量评估方法及系统


技术摘要:
本发明公开了一种数据质量评估方法及系统,方法包括:对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据集;对满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得到每个数据的特征向量;对满足最低内在质量要求的数据集  全部
背景技术:
现如今,随着移动网络,传感器网络和群智感知技术的飞速发展,多种多样的数据 正在大量产生。同时,大量基于数据的信息服务亦显著兴起,数据质量在其中起着至关重要 的作用。1)高质量数据可提供足够和准确的信息来完成特定任务,例如训练高质量的机器 学习模型;帮助智慧城市系统制定明智的决策。2)大量服务将数据本身作为产品按需提供 给用户,例如,群智感知服务。对于这些服务,数据的质量决定了用户的满意度。3)高数据质 量有助于优化系统资源利用率。有限的资源(例如带宽,存储和计算资源)应优先分配给高 质量数据,以保证系统性能和服务的质量。以群智感知应用为例,大量参与者上传手机中的 图像,有效的数据质量评估,尤其是大型图像集的有效质量评估,可以显著促进上传图像的 质量,以此来通过避免传输低质量图像造成的带宽损耗。 数据质量评估已引起研究人员的关注,然而,当面临特定任务和大规模数据量时, 现有的评估方法存在以下缺陷。首先,现有的工作大多关注数据的内在质量,而忽略了重要 的上下文质量。利用相同的数据,一项任务可以很好地执行,而另一项任务可能执行得很 差。例如,用于训练人脸识别的高质量图像数据集可能是物体检测任务的劣质数据集。其 次,现有工作评估数据质量时大多针对单个数据单元(如一张图片,一个文本),缺乏对数据 集合整体质量的评估方法。若简单通过单个数据单元的质量统计得到数据集整体质量,如 统计所有数据单元质量的最小值或平均值,则忽略了数据单元之间的关系对数据集质量造 成的影响。最后,尽管已经提出了各种维度的数据质量,但是如何融合这些维度以获得一个 综合全面的质量结果仍然是一个挑战。 因此,如何更加全面、准确的对数据的质量进行评估,是一项亟待解决的问题。
技术实现要素:
有鉴于此,本发明提供了一种数据质量评估方法,在数据质量评估时,能够综合考 虑与任务无关的内在质量,与任务相关的上下文质量,以及对大规模数据质量评估的需求, 有效提升了数据质量评估的全面性,准确性和效率。 本发明提供了一种数据质量评估方法,包括: 对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数 据集; 对所述满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提 取,得到每个数据的特征向量; 对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特征向量 进行上下文质量评估,得到质量评估结果; 对所述质量评估结果进行质量排序。 4 CN 111612783 A 说 明 书 2/10 页 优选地,所述对数据集进行评估与任务无关的数据内部特征,得到满足最低内在 质量要求的数据集,包括: 通过模式匹配方法对数据集的正确性、可靠性和无错误的程度进行评估,得到准 确性量化值; 对数据集的数据采集和存储精度进行评估,得到精确性量化值; 对数据集的无偏程度进行评估,得到客观性量化值; 对数据集的数据源被信任程度进行评估,得到可信赖性量化值; 基于所述准确性量化值、精确性量化值、客观性量化值、可信赖性量化值、准确性 最低质量要求值、精确性最低质量要求值、客观性最低质量要求值和可信赖性最低质量要 求值,得到满足最低内在质量要求的数据集。 优选地,所述对所述满足最低内在质量要求的数据集和样本数据集中的每个数据 进行特征提取,得到每个数据的特征向量,包括: 对所述满足最低内在质量要求的数据集和样本数据集中的每个图片数据,利用 VGG-16模型,提取第八层特征作为图片数据的特征向量。 优选地,所述对所述满足最低内在质量要求的数据集和样本数据集中的每个数据 进行特征提取,得到每个数据的特征向量,包括: 对所述满足最低内在质量要求的数据集和样本数据集中的每个文本数据,利用 BERT模型,提取倒数第二层特征作为文本数据的特征向量。 优选地,对所述满足最低内在质量要求的数据集和样本数据集中的每个数据的特 征向量进行上下文质量评估,得到质量评估结果,包括: 采用基于局部敏感哈希的方法,计算所述满足最低内在质量要求的数据集和样本 数据集中相似点对的数量与距离的比值,得到任务相关性评估结果; 采用基于局部敏感哈希的方法,计算所述满足最低内在质量要求的数据集和样本 数据集的平均距离,得到内容多样性评估结果; 计算所述满足最低内在质量要求的数据集和样本数据集中非空数据的数量与数 据总量的比值,得到完整性评估结果; 评估所述满足最低内在质量要求的数据集和样本数据集中的数据量是否满足给 定任务的要求,得到数据量的合适程度评估结果; 评估所述满足最低内在质量要求的数据集和样本数据集的使用周期是否满足给 定任务的要求,得到时效性评估结果。 一种数据质量评估系统,包括: 内在质量评估模块,用于对数据集进行评估与任务无关的数据内部特征,得到满 足最低内在质量要求的数据集; 特征提取模块,用于对所述满足最低内在质量要求的数据集和样本数据集中的每 个数据进行特征提取,得到每个数据的特征向量; 上下文质量评估模块,用于对所述满足最低内在质量要求的数据集和样本数据集 中的每个数据的特征向量进行上下文质量评估,得到质量评估结果; 质量排序模块,用于对所述质量评估结果进行质量排序。 优选地,所述内在质量评估模块包括: 5 CN 111612783 A 说 明 书 3/10 页 准确性评估单元,用于通过模式匹配方法对数据集的正确性、可靠性和无错误的 程度进行评估,得到准确性量化值; 精确性评估单元,用于对数据集的数据采集和存储精度进行评估,得到精确性量 化值; 客观性评估单元,用于对数据集的无偏程度进行评估,得到客观性量化值; 可依赖性评估单元,用于对数据集的数据源被信任程度进行评估,得到可信赖性 量化值; 确定单元,用于基于所述准确性量化值、精确性量化值、客观性量化值、可信赖性 量化值、准确性最低质量要求值、精确性最低质量要求值、客观性最低质量要求值和可信赖 性最低质量要求值,得到满足最低内在质量要求的数据集。 优选地,所述特征提取模块具体用于: 对所述满足最低内在质量要求的数据集和样本数据集中的每个图片数据,利用 VGG-16模型,提取第八层特征作为图片数据的特征向量。 优选地,所述特征提取模块具体用于: 对所述满足最低内在质量要求的数据集和样本数据集中的每个文本数据,利用 BERT模型,提取倒数第二层特征作为文本数据的特征向量。 优选地,所述上下文质量评估模块包括: 任务相关性评估单元,用于采用基于局部敏感哈希的方法,计算所述满足最低内 在质量要求的数据集和样本数据集中相似点对的数量与距离的比值,得到任务相关性评估 结果; 内容多样性评估单元,用于采用基于局部敏感哈希的方法,计算所述满足最低内 在质量要求的数据集和样本数据集的平均距离,得到内容多样性评估结果; 完整性评估单元,用于计算所述满足最低内在质量要求的数据集和样本数据集中 非空数据的数量与数据总量的比值,得到完整性评估结果; 数据量的合适程度评估单元,用于评估所述满足最低内在质量要求的数据集和样 本数据集中的数据量是否满足给定任务的要求,得到数据量的合适程度评估结果; 时效性评估单元,用于评估所述满足最低内在质量要求的数据集和样本数据集的 使用周期是否满足给定任务的要求,得到时效性评估结果。 综上所述,本发明公开了一种数据质量评估方法,当需要对数据质量进行评估时, 首先对数据集进行评估与任务无关的数据内部特征,得到满足最低内在质量要求的数据 集;然后对满足最低内在质量要求的数据集和样本数据集中的每个数据进行特征提取,得 到每个数据的特征向量;对满足最低内在质量要求的数据集和样本数据集中的每个数据的 特征向量进行上下文质量评估,得到质量评估结果,对质量评估结果进行质量排序。本发明 在数据质量评估时,能够综合考虑与任务无关的内在质量,与任务相关的上下文质量,以及 对大规模数据质量评估的需求,有效提升了数据质量评估的全面性,准确性和效率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 6 CN 111612783 A 说 明 书 4/10 页 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本发明公开的一种数据质量评估方法实施例1的方法流程图; 图2为本发明公开的一种数据质量评估方法实施例2的方法流程图; 图3为本发明公开的一种数据质量评估系统实施例1的结构示意图; 图4为本发明公开的一种数据质量评估系统实施例2的结构示意图。
分享到:
收藏