logo好方法网

一种数据清洗方法和装置


技术摘要:
本发明提供一种数据清洗方法及装置,包括:判断关联平台之间的数据库是否采用单一的数据形式;若是,根据预设规则清洗所述关联平台的数据库的域数据,获取标准数据,将标准数据迁移到统一数据库;否则,根据数据的唯一标识绑定所述关联平台之间的数据,并根据预设规则  全部
背景技术:
数据清洗是为了解决数据质量问题的技术。数据清洗路径包括5个,分别是:去除/ 补全有缺失的数据、去除修改格式和内容错误的数据、去除/修改逻辑错误、去除不需要的 数据以及关联性验证。 平台之间是经常需要交换数据的,而在没有出现顶层规范及标准前,各个业务系 统难以相互协同。针对此问题,目前行业内提出了多种将不同平台的数据统一化,实现资源 共享的解决方案。但是,现有的解决方案都是先将各个平台的数据库中的数据先根据标准 数据进行清洗,再在将清洗后得到的标准数据迁移到统一数据库,实现资源的共享。而发明 人在实际中发现,有些平台之间的数据是关联的,而目前都是对每个平台的数据分别单独 清洗,难以提高数据清洗效率,进而难以提高资源共享的效率。
技术实现要素:
本发明的目的在于,提供一种数据清洗方法和装置,能够提高数据清洗的效率和 数据资源共享的效率。 为了解决上述技术问题,本发明实施例提供一种数据清洗方法,包括: 判断关联平台之间的数据库是否采用单一的数据形式; 若是,根据预设规则清洗所述关联平台的数据库的域数据,获取标准数据,将标准 数据迁移到统一数据库; 否则,根据数据的唯一标识绑定所述关联平台之间的数据,并根据预设规则和绑 定关系清洗所述关联平台的数据库的域数据,并将清洗后的绑定的数据迁移到统一数据 库。 作为优选方案,所述根据预设规则清洗所述关联平台的数据库的域数据,包括: 读取所述域数据中每条记录的字段值,将不符合预设条件的字段值置换成预设值 或空值。 作为优选方案,所述根据预设规则清洗所述关联平台的数据库的域数据,还包括: 逐条读取所述域数据中的记录,根据所述记录中字段之间的关联关系为缺少字段 值的字段匹配出所述字段值,并将所述字段值填充至相应字段。 作为优选方案,所述根据预设规则清洗所述关联平台的数据库的域数据,还包括: 根据所述域数据中每条记录中各字段的权重值,计算相应记录的总权重值,并删 除总权重值小于等于阈值的记录。 作为优选方案,所述根据预设规则清洗所述关联平台的数据库的域数据,获取标 准数据,包括: 根据预设规则清洗所述关联平台的数据库的域数据; 4 CN 111581182 A 说 明 书 2/4 页 根据清洗效果,调整所述预设规则,直至获取标准数据。 第二方面,本发明实施例提供一种数据清洗装置,包括: 判断单元,用于判断关联平台之间的数据库是否采用单一的数据形式; 清洗单元,用于在确认关联平台之间的数据库采用单一的数据形式后,根据预设 规则清洗所述关联平台的数据库的域数据,获取标准数据,将标准数据迁移到统一数据库; 否则,根据数据的唯一标识绑定所述关联平台之间的数据,并根据预设规则和绑定关系清 洗所述关联平台的数据库的域数据,并将清洗后的绑定的数据迁移到统一数据库。 作为优选方案,所述清洗单元还包括置换子单元,用于读取所述域数据中每条记 录的字段值,将不符合预设条件的字段值置换成预设值或空值。 作为优选方案,所述清洗单元还包括填充子单元,用于逐条读取所述域数据中的 记录,根据所述记录中字段之间的关联关系为缺少字段值的字段匹配出所述字段值,并将 所述字段值填充至相应字段。 作为优选方案,所述清洗单元还包括删除子单元,用于根据所述域数据中每条记 录中各字段的权重值,计算相应记录的总权重值,并删除总权重值小于等于阈值的记录。 作为优选方案,所述根据预设规则清洗所述关联平台的数据库的域数据,获取标 准数据,包括: 根据预设规则清洗所述关联平台的数据库的域数据; 根据清洗效果,调整所述预设规则,直至获取标准数据。 在本发明实施例中,针对多平台单一的数据形式,则以标准数据为目标,清洗所述 平台的数据库中的数据,在获得标准数据后,将标准数据迁移到统一数据库。针对多平台具 有多种的数据形式,则根据数据的唯一标识绑定不同平台间的数据,通过数据的唯一标识 绑定不同平台间的数据能够提高数据的关联系,从而能够提高数据关联性验证效率,进而 能够提高数据清洗效率。 附图说明 为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作 简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1为本发明实施例提供的数据清洗方法的流程示意图。
下载此资料需消耗2积分,
分享到:
收藏