一种动态数据融合方法及系统-好方法网

技术摘要：
本发明涉及一种动态数据融合方法及系统；本发明利用各个数据持有者所拥有的公共字段来对实体进行编码；根据不同数据持有者之间实体编码的交集完成实体对齐，进一步进行数据融合；在数据融合的基础上，对同一实体的不同ID编码进行排序；选出一个编码作为同一实体的唯一I 全部
背景技术：
大数据分析中，越来越多的场景是联合分析，即两个以上的数据分析参与者们，各自拥有自己的数据，但是各自的数据并不能建立比较全面的分析；必须将多方数据融合起来，才能建立起准确的分析。数据的高效融合成了大数据技术中需要解决的难题。给实体赋ID是解决数据融合的技术途径之一。但是由于不同数据持有者之间由于数据格式字段等不同，往往采取了不同的实体ID产生机制，且出于数据的安全性等方面的考虑，ID的产生方法在不断变化中。自然状态下重名的实体很多，尤其是自然人，在没有身份证信息的情况下，和实体对齐的前置条件下如果ID不同，则不能判断同名实体为同一实体，因此也不能进行数据融合，为数据的融合和联合分析造成重大的障碍。导致不同数据持有者之间的数据融合和联合分析的困难。目前申请人已有提出解决不同数据持有者之间的数据融方案，比如通过共同字段编码，可以实现不同数据持有者之间的唯一ID一致性(专利：2020103092316)；但是也存在一些问题，比如，不同数据持有者之间的共同拥有同一实体的数据可能不一致；或者在进行数据更新时，实体相关的信息发生变化等，相对固化的编码及融合方式可能带来数据持有者产生出不同实体ID的风险，进而不能很好的进行数据融合。
技术实现要素：
本发明的目的提供一种动态数据融合方法及系统，在不同数据持有者之间实现实体ID的唯一性，并且在数据更新，或者有新增数据时，能够及时更新实体的实体ID，实现实体ID的动态构建，并有效保证数据融合和更新。一种动态数据融合方法，所述方法包含以下实现步骤：获取第一数据和第二数据的公共字段，所述公共字段包含第一字段和第二字段；对第一数据和第二数据分别进行处理，将第一数据和第二数据中属于同一实体的数据编入一个数据组；对数据组中的各条数据，使用包含第一字段和第二字段的信息来编码；对第一数据和第二数据获得的编码求交集，进行第一数据和第二数据的实体对齐；将具有交集的第一数据和第二数据的数据组合并，得到融合后的数据组；对数据组内的编码进行排序，选出一个编码作为对应数据组的组编码；将所述组编码赋予到组内的各条数据中，作为对应实体的ID；完成数据融合并实现了同一实体的唯一ID编码；当进行数据更新和或新数据加入时，重新执行前述步骤，实现数据融合和实体ID 3 CN 111598136 A 说　明　书 2/12 页的动态更新。作为一种优选，所述步骤将具有交集的第一数据和第二数据的数据组合并，得到融合后的数据组中还包含，将数据组内具有相同编码的数据进行融合的步骤。所述融合步骤为获取相同编码的实体对应的数据，将具有相同编码的实体数据合并成一条数据记录。作为一种优选，所述步骤获取第一数据和第二数据的公共字段，所述公共字段包含第一字段和第二字段中，第一字段为实体名。作为一种优选，所述步骤对数据组中的各条数据，使用包含第一字段和第二字段的信息来编码；编码算法为hash算法。作为一种优选，所述步骤对数据组中的各条数据，使用包含第一字段和第二字段的信息来编码；编码算法为md5。作为一种优选，所述步骤对数据组中的各条数据，使用包含第一字段和第二字段的信息来重新编码中，使用包含第一标识、第一字段、第二标识和第二字段的信息来进行编码。所述第一标识符和或第二标识符是文字，数据和或符号。作为一种优选，所述步骤获取第一数据和第二数据的公共字段，所述公共字段包含第一字段和第二字段中，所述公共字段还包含第三字段。所述第三字段的信息是文字，数据和或符号。作为一种优选，所述步骤对获得的编码进行排序，选出一个编码作为对应数据组的组编码中，以第三字段包含的信息为依据来进行排序。作为一种优选，所述步骤对获得的编码进行排序，选出一个编码作为该数据组的组编码中，使用第一字段和或第二字段中包含的信息来对编码进行排序。进一步的，本发明提供一种动态数据融合系统，所述系统使用所述动态数据融合方法来实现数据融合。进一步的，所述系统包含数据获取模块、存储模块和处理模块，所述数据获取模块、存储模块和处理模块依次相连，所述数据获取模块用于获取待处理数据，所述数据获取模块将获取到的数据输入到存储模块中进行存储；所述存储模块还用于存储所述处理模块的输入输出数据，所述处理模块通过所述动态数据融合方法来实现数据的融合。有益效果：本发明提供一种动态数据融合方法及系统，本发明利用各个数据持有者所拥有的公共字段来对实体进行编码；根据不同数据持有者之间实体编码的交集完成实体对齐，进一步进行数据融合；在数据融合的基础上，对同一实体的不同ID编码进行排序；选出一个编码作为同一实体的唯一ID。保障数据融合后的实体ID的唯一性。并且在当数据的信息发生变化时，重新执行前述的步骤，实现数据融合和实体ID的动态更新。本发明方法系统，在计算过程中不涉及实体相关隐私和敏感信息。不需要在数据融合前对不同数据持有者之间的实体信息进行额外的对齐操作，数据融合过程中实体自动对齐，计算量小，可操作性强。并且在数据融合后来进行编码排序选出唯一ID，实现更好的容错，选出的唯一ID符合全局数据的规律，更科学。同时当数据信息发生变化或者有新增信息时，重新进行融合和排序，可以保证新的实体ID反应数据更新的情况，从而保证了数据融合和实体ID的动态性。 4 CN 111598136 A 说　明　书 3/12 页附图说明为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。图1为动态数据融合方法的流程示意图。

下载此资料需消耗2积分，

相关推荐