logo好方法网

一种大数据清洗方法及装置


技术摘要:
本发明公开了一种大数据清洗方法,包括:通过高性能消息服务器获取待清洗数据;对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板;根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据;根据所述清洗模板对所述过滤数据进行提取处理,得到  全部
背景技术:
在数据处理领域中,系统每次接入新业务,都需要程序员重新开发日志清洗逻辑, 该开发程序的周期较长,并且每次重新开发业务逻辑,无法统一保证软件质量;而普通编码 清洗日志方式,性能较差,无法实时清洗海量数。 因此,目前市面上亟需一种大数据清洗策略,以提高海量数据清洗的效率和质量。
技术实现要素:
本发明提供了一种大数据清洗方法,实现对大数据的清洗功能,提高海量数据清 洗的效率和质量。 为了解决上述技术问题,本发明实施例提供了一种大数据清洗方法,包括: 通过高性能消息服务器获取待清洗数据; 对所述待清洗数据进行模板匹配,获取所述待清洗数据所对应的清洗模板; 根据所述清洗模板对所述待清洗数据进行过滤处理,得到过滤数据; 根据所述清洗模板对所述过滤数据进行提取处理,得到提取数据; 根据所述清洗模板对所述提取数据进行数据转换处理,得到转换数据,输出结果。 作为优选方案,所述大数据清洗方法还包括:根据所述清洗数据,在数据库中查询 得到所述清洗数据所对应的信息数据。 作为优选方案,所述清洗模板包括过滤子模板、提取子模板和转换子模板; 根据所述过滤子模板对所述待清洗数据进行过滤处理,得到过滤数据; 根据所述提取子模板对所述过滤数据进行提取处理,得到提取数据; 根据所述转换子模板对所述提取数据进行数据转换处理,得到转换数据。 作为优选方案,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技 术进行数据清洗。 本发明实施例还提供了一种大数据清洗装置,包括: 数据获取模块,用于通过高性能消息服务器获取待清洗数据; 模板匹配模块,用于对所述待清洗数据进行模板匹配,获取所述待清洗数据所对 应的清洗模板; 数据过滤模块,用于根据所述清洗模板对所述待清洗数据进行过滤处理,得到过 滤数据; 数据提取模块,用于根据所述清洗模板对所述过滤数据进行提取处理,得到提取 数据; 数据转换模块,用于根据所述清洗模板对所述提取数据进行数据转换处理,得到 转换数据,输出结果。 4 CN 111611232 A 说 明 书 2/5 页 作为优选方案,所述大数据清洗装置还包括:数据查询模块,用于根据所述清洗数 据,在数据库中查询得到所述清洗数据所对应的信息数据。 作为优选方案,所述清洗模板包括过滤子模板、提取子模板和转换子模板; 所述数据过滤模块用于根据所述过滤子模板对所述待清洗数据进行过滤处理,得 到过滤数据; 所述数据提取模块用于根据所述提取子模板对所述过滤数据进行提取处理,得到 提取数据; 所述数据转换模块用于根据所述转换子模板对所述提取数据进行数据转换处理, 得到转换数据。 作为优选方案,所述过滤处理、提取处理和数据转换处理的过程均使用多线程技 术进行数据清洗。 本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括 存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的 设备执行如上述任一项所述的大数据清洗方法。 本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储 器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实 现如上述任一项所述的大数据清洗方法。 相比于现有技术,本发明实施例具有如下有益效果: 本发明通过清洗模板对数据进行过滤、提取和转换处理,实现对大数据的清洗功 能,提高海量数据清洗的效率和质量。 附图说明 图1:为本发明实施例中的大数据清洗方法的步骤流程图; 图2:为本发明实施例中的大数据清洗装置的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏