logo好方法网

一种动态数据融合方法及系统


技术摘要:
本发明涉及一种动态数据融合方法及系统;本发明利用各个数据持有者所拥有的公共字段来对实体进行编码;根据不同数据持有者之间实体编码的交集完成实体对齐,进一步进行数据融合;在数据融合的基础上,对同一实体的不同ID编码进行排序;选出一个编码作为同一实体的唯一I  全部
背景技术:
大数据分析中,越来越多的场景是联合分析,即两个以上的数据分析参与者们,各 自拥有自己的数据,但是各自的数据并不能建立比较全面的分析;必须将多方数据融合起 来,才能建立起准确的分析。 数据的高效融合成了大数据技术中需要解决的难题。给实体赋ID是解决数据融合 的技术途径之一。但是由于不同数据持有者之间由于数据格式字段等不同,往往采取了不 同的实体ID产生机制,且出于数据的安全性等方面的考虑,ID的产生方法在不断变化中。 自然状态下重名的实体很多,尤其是自然人,在没有身份证信息的情况下,和实体 对齐的前置条件下如果ID不同,则不能判断同名实体为同一实体,因此也不能进行数据融 合,为数据的融合和联合分析造成重大的障碍。导致不同数据持有者之间的数据融合和联 合分析的困难。 目前申请人已有提出解决不同数据持有者之间的数据融方案,比如通过共同字段 编码,可以实现不同数据持有者之间的唯一ID一致性(专利:2020103092316);但是也存在 一些问题,比如,不同数据持有者之间的共同拥有同一实体的数据可能不一致;或者在进行 数据更新时,实体相关的信息发生变化等,相对固化的编码及融合方式可能带来数据持有 者产生出不同实体ID的风险,进而不能很好的进行数据融合。
技术实现要素:
本发明的目的提供一种动态数据融合方法及系统,在不同数据持有者之间实现实 体ID的唯一性,并且在数据更新,或者有新增数据时,能够及时更新实体的实体ID,实现实 体ID的动态构建,并有效保证数据融合和更新。 一种动态数据融合方法,所述方法包含以下实现步骤: 获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段; 对第一数据和第二数据分别进行处理,将第一数据和第二数据中属于同一实体的 数据编入一个数据组; 对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码; 对第一数据和第二数据获得的编码求交集,进行第一数据和第二数据的实体对 齐; 将具有交集的第一数据和第二数据的数据组合并,得到融合后的数据组; 对数据组内的编码进行排序,选出一个编码作为对应数据组的组编码; 将所述组编码赋予到组内的各条数据中,作为对应实体的ID;完成数据融合并实 现了同一实体的唯一ID编码; 当进行数据更新和或新数据加入时,重新执行前述步骤,实现数据融合和实体ID 3 CN 111598136 A 说 明 书 2/12 页 的动态更新。 作为一种优选,所述步骤将具有交集的第一数据和第二数据的数据组合并,得到 融合后的数据组中还包含,将数据组内具有相同编码的数据进行融合的步骤。 所述融合步骤为获取相同编码的实体对应的数据,将具有相同编码的实体数据合 并成一条数据记录。 作为一种优选,所述步骤获取第一数据和第二数据的公共字段,所述公共字段包 含第一字段和第二字段中,第一字段为实体名。 作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段 的信息来编码;编码算法为hash算法。 作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段 的信息来编码;编码算法为md5。 作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段 的信息来重新编码中,使用包含第一标识、第一字段、第二标识和第二字段的信息来进行编 码。所述第一标识符和或第二标识符是文字,数据和或符号。 作为一种优选,所述步骤获取第一数据和第二数据的公共字段,所述公共字段包 含第一字段和第二字段中,所述公共字段还包含第三字段。所述第三字段的信息是文字,数 据和或符号。 作为一种优选,所述步骤对获得的编码进行排序,选出一个编码作为对应数据组 的组编码中,以第三字段包含的信息为依据来进行排序。 作为一种优选,所述步骤对获得的编码进行排序,选出一个编码作为该数据组的 组编码中,使用第一字段和或第二字段中包含的信息来对编码进行排序。 进一步的,本发明提供一种动态数据融合系统,所述系统使用所述动态数据融合 方法来实现数据融合。进一步的,所述系统包含数据获取模块、存储模块和处理模块,所述 数据获取模块、存储模块和处理模块依次相连,所述数据获取模块用于获取待处理数据,所 述数据获取模块将获取到的数据输入到存储模块中进行存储;所述存储模块还用于存储所 述处理模块的输入输出数据,所述处理模块通过所述动态数据融合方法来实现数据的融 合。 有益效果: 本发明提供一种动态数据融合方法及系统,本发明利用各个数据持有者所拥有的 公共字段来对实体进行编码;根据不同数据持有者之间实体编码的交集完成实体对齐,进 一步进行数据融合;在数据融合的基础上,对同一实体的不同ID编码进行排序;选出一个编 码作为同一实体的唯一ID。保障数据融合后的实体ID的唯一性。并且在当数据的信息发生 变化时,重新执行前述的步骤,实现数据融合和实体ID的动态更新。 本发明方法系统,在计算过程中不涉及实体相关隐私和敏感信息。不需要在数据 融合前对不同数据持有者之间的实体信息进行额外的对齐操作,数据融合过程中实体自动 对齐,计算量小,可操作性强。并且在数据融合后来进行编码排序选出唯一ID,实现更好的 容错,选出的唯一ID符合全局数据的规律,更科学。 同时当数据信息发生变化或者有新增信息时,重新进行融合和排序,可以保证新 的实体ID反应数据更新的情况,从而保证了数据融合和实体ID的动态性。 4 CN 111598136 A 说 明 书 3/12 页 附图说明 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1为动态数据融合方法的流程示意图。
下载此资料需消耗2积分,
分享到:
收藏