logo好方法网

安全多方数据融合与联邦共享方法、装置、设备及介质


技术摘要:
本发明公开了一种安全多方数据融合与联邦共享方法,涉及计算机技术领域,包括以下步骤:根据获取的数据集成需求得到对应的多个数据源;从第一数据集成视图中的多个候选字段中确定目标字段,根据第一数据映射表得到目标字段与各数据表字段之间的映射关系结合多个数据源  全部
背景技术:
随着大数据技术的发展,常常需要根据数据应用目的,将来自不同数据源的数据 进行建模分析,而不同数据源往往分别统计数据,数据采集标准不统一,导致数据在构建之 初就存在差异,难以形成数据合力,并且不同数据应用目的,所需数据的来源也不尽相同。 比如,新型冠状病毒感染的肺炎的爆发,为公共卫生管理和疫情防控带来了很大的挑战,尤 其正逢中国传统春节期间,人员流动性大,导致疫情传播的风险非常高,运用大数据技术可 以精准掌握疫区人员信息,定向指导各类人群的风险识别和居家隔离措施,甚至用于疫情 研判和趋势分析,当构建疫情预测模型是疫情应用目的时,可能需要来自于不同地区的不 同医院的疫情数据,当追踪传播路径是疫情应用目的时,可能需要多家医院的疫情数据、航 空铁路的交通数据甚至社交平台的社交关系数据等。 传统的数据集成方法主要是将多个数据源的数据统一存放在一个服务器上以实 现物理上的数据汇集,效率低下,并且难以满足多变的数据应用目的,而且当所有用户在不 同领域的个人信息(比如医疗信息、公共交通信息、家庭关系信息)汇集存放在一个服务器 上后,一旦信息遭到窃取泄露轻则损害个人隐私以及个人企业利益,严重的甚至会极大损 害国家利益及国家安全。因此,亟需将不同数据源的数据根据数据应用目的实现逻辑上的 安全融合,而不是物理上的数据集成。
技术实现要素:
为了克服现有技术的不足,本发明的目的之一在于提供一种安全多方数据融合与 联邦共享方法,其根据预先生成的第一数据集成视图和第一数据映射表从数据集成需求对 应的多个数据源的数据库中加载第一目标数据,并对应存储在多个数据源的内存上得到第 一数据仓库,实现多方数据在逻辑上的融合,安全可靠,可以适应多样性的数据集成需求。 本发明的目的之一采用以下技术方案实现: 获取数据集成需求; 根据所述数据集成需求得到对应的多个数据源,其中,每个数据源具有数据库,所述数 据库包括描述原始数据的元数据以及对应表示所述元数据含义的数据表字段; 基于预先存储的第一数据集成视图和第一数据映射表从所述多个数据源的数据库中 加载第一目标数据,包括:从所述第一数据集成视图中的多个候选字段中确定目标字段,根 据所述第一数据映射表得到所述目标字段与所述多个数据源的数据库中的各数据表字段 之间的映射关系,根据所述多个数据源的数据库中各数据表字段与元数据间的对应关系以 及所述映射关系,得到与所述目标字段对应的元数据并将与所述目标字段对应的元数据描 述的原始数据作为第一目标数据; 4 CN 111737364 A 说 明 书 2/9 页 将所述第一目标数据存储至所述多个数据源所在的内存上生成第一数据仓库。 进一步地,所述第一数据集成视图和所述第一数据映射表通过下述方式生成,包 括: 对表示相同含义的各数据表字段进行标准化处理得到与各数据表字段具有相同含义 的候选字段; 由表示不同含义的多个候选字段构成所述第一数据集成视图; 将所述多个数据源的数据库中表示相同含义的各数据表字段与各所述数据表字段表 示相同含义的候选字段建立映射关系,生成所述第一数据映射表。 进一步地,从所述第一数据集成视图中的多个候选字段中确定目标字段,包括:在 所述多个数据源的数据库中查询是否有与各所述候选字段具有映射关系的数据表字段表 示的元数据,若是,将所述候选字段作为目标字段。 进一步地,将从每个数据源的数据库中加载的原始数据记为子目标数据,所述第 一目标数据包括从各数据源的数据库中对应加载的子目标数据;将所述第一目标数据存储 至所述多个数据源所在的内存上生成第一数据仓库,包括: 将所述子目标数据存储至对应数据源所在的内存上; 由所述多个数据源的内存上对应存储的多个子目标数据构成所述第一数据仓库。 进一步地,还包括: 获取新数据集成需求; 根据所述新数据集成需求得到对应的新数据源; 基于所述新数据源得到第二数据仓库; 将所述第二数据仓库与所述第一数据仓库进行关联得到新数据仓库。 进一步地,基于所述新数据源得到第二数据仓库,包括: 基于所述新数据源生成第二数据集成视图和第二数据映射表; 基于所述第二数据集成视图和所述第二数据映射表从所述新数据源的数据库中加载 第二目标数据; 将所述第二目标数据存储至所述新数据源所在的内存上生成第二数据仓库; 所述第二数据映射表与所述第一数据映射表包含相同候选字段;将所述第二数据仓库 与所述第一数据仓库进行关联,包括:将所述相同候选字段作为相同目标字段;将所述相同 目标字段对应的第二目标数据和第一目标数据进行关联。 进一步地,还包括: 获取新数据集成需求; 根据所述新数据集成需求和所述多个数据源得到新候选字段,包括:根据所述新数据 集需求查询所述多个数据源得到对应的元数据;对所述元数据进行字段分析得到所述新候 选字段,包括:由表示所述元数据相同含义的各数据表字段生成所述新候选字段; 将所述新候选字段添加到所述第一数据集成视图中,更新所述第一数据集成视图和所 述第一数据映射表; 基于更新后的第一数据集成视图和第一数据映射表从所述多个数据源的数据库中加 载第三目标数据; 将所述第三目标数据存储至所述多个数据源所在的内存上,并由所述第三目标数据和 5 CN 111737364 A 说 明 书 3/9 页 所述第一目标数据构成新数据仓库。 本发明的目的之二在于提供一种安全多方数据融合与联邦共享装置,其根据预先 生成的第一数据集成视图和第一数据映射表,从数据集成需求对应的多个数据源的数据库 中加载第一目标数据,并对应存储在多个数据源的内存上得到第一数据仓库,实现多方数 据在逻辑上的融合,安全可靠,可以适应多样性的数据集成需求。 本发明的目的之二采用以下技术方案实现: 一种安全多方数据融合与联邦共享装置,其包括: 集成需求获取模块,用于获取数据集成需求;根据所述数据集成需求得到对应的多个 数据源,其中,每个数据源具有数据库,所述数据库包括描述原始数据的元数据以及对应表 示所述元数据含义的数据表字段; 数据智能加载模块,用于基于预先存储的第一数据集成视图和第一数据映射表从所述 多个数据源的数据库中加载第一目标数据,包括:从所述第一数据集成视图中的多个候选 字段中确定目标字段,根据所述第一数据映射表得到所述目标字段与所述多个数据源的数 据库中的各数据表字段之间的映射关系,根据所述多个数据源的数据库中各数据表字段与 元数据间的对应关系以及所述映射关系,得到与所述目标字段对应的元数据并将与所述目 标字段对应的元数据描述的原始数据作为第一目标数据; 数据动态存储模块,用于将所述第一目标数据存储至所述多个数据源的内存上生成第 一数据仓库。 本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储 介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行 时本发明目的之一的安全多方数据融合与联邦共享方法。 本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储 有计算机程序,所述计算机程序被处理器执行时实现本发明目的之一的安全多方数据融合 与联邦共享方法。 相比现有技术,本发明的有益效果在于: 本发明根据数据集成需求,从对应的多个数据源的数据库中加载第一目标数据,并对 应存储在多个数据源的内存上得到第一数据仓库,可以在保证各数据源不受影响的情况 下,实现多方数据在逻辑上的融合,而非单纯物理上的数据汇集,效率高,并能适应多样性 的数据集成需求,并且这种分布式的数据存储方式有利于提升数据安全,节省存储资源。 附图说明 图1为本发明实施例一的安全多方数据融合与联邦共享方法流程图; 图2为本发明实施例六的安全多方数据融合与联邦共享装置的结构框图; 图3为本发明实施例七的电子设备的结构框图。
下载此资料需消耗2积分,
分享到:
收藏