logo好方法网

大数据仓库的异构数据整合系统及方法

技术摘要:
本发明属于大数据技术领域,具体为提供大数据仓库的异构数据整合系统及方法,所述系统包括:若干个分类器和数据融合装置;所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已  全部
背景技术:
异构数据是相关的多个数据的集合。 异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访 问,几个数据库系统在加入异构数据库系统之前本身就已经存在。 拥有自己的数据阵管理系统、外构数据库的各个组成部分具有自身的自治性,实 现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。 数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据 仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定 性和时变性。 数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出,主要功能仍是 将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理 论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理 (OLAP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统 (EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟 定及快速回应外在环境变动,帮助建构商业智能(BI)。 计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一词最早 是在1990年,由BillInmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设 计和建立的数据集合。企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息 分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理 性能不同。企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进 行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。 处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销 后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段 时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客 户又削减了他们的购买额呢?事务型数据库可以为这些问题作出解答,但是它所给出的答 案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息 的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时 候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态 的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。 数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出 来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数 据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这 5 CN 111581298 A 说 明 书 2/9 页 是最有效的数据组织方式。 源数据融合技术应用于地质矿产调查中时不仅能实现数据最优选择还能对数据 进行预处理然后再进行数据融合综合分析得出结果。这是多源数据融合技术的特性也使其 具体的应用操作流程。数据选择是多源数据融合的第一步必须保证数据选择的正确性尽量 优选出合适的数据对象来进行数据融合若数据对象选择错误将直接影响到多源数据的后 期融合效果。数据选择时首先要根据用途来判定需要选择的数据类型,可供选择的数据类 型有两种分别遥感数据、非遥感数据。国内地质矿产工作中获取到航天遥感数据以及航空 遥感数据均可作为选择对象,为区域地质矿产调查提供参考。 数据合理选择之后要先对其进行预处理以免未经处理的数据在多源融合时影响 到融合效果,使融合后得到的数据无法满足地质矿产调查要求。数据预处理的方法主要包 括首先对选择出的各种数据信、遥感影像进行几何校准然后转换数据格式将所有数据全部 转换成图像格式。预处理必须保证所有数据都能实现互相沟通保证数据融合能够在同一平 台上实现。 数据融合是多源数据融合的重头戏操作时可借助图像处理手段来是对预处理过 的多种数据进行融合,达到增强卫星图像清晰度提高其利用价值的目的。当前可采用的数 据融合技术方法主要有三种即像素级融合、特征级融合以及决策级融合。如果在地质矿产 调查中应用了多源数据融合技术,在实际融合数据时必须结合具体情况合理选择以免因选 择错误而降低融合效果严重者还可能导致数据融合失效。融合结果分析。
技术实现要素:
本发明的主要目的在于提供大数据仓库的异构数据整合系统及方法,其基于特征 空间进行数据整合,在保证数据整合准确性的情况下,提升了数据整合的效率;同时,本发 明在数据整合前,对异构数据进行初步分类,使得利用分类器进行分类时,减轻了分类器的 工作量,提升了分类器的工作效率。 为达到上述目的,本发明的技术方案是这样实现的: 大数据仓库的异构数据整合系统,所述系统包括:若干个分类器和数据融合装置; 所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本 进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和 其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则; 所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目 标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;所述系统还包括:异 构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得 出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据, 完成异构数据的初步整合;将初步整合的结果发送至分类器。 进一步的,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器 对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训 练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空 间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下 公式,统计数据特征符合每一个特征空间的次数: 6 CN 111581298 A 说 明 书 3/9 页 其中,N为符合特征空间的次数,S为数据个数, λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun  tj第i个训练样本的数 据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对 应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训 练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的 映射规则。 进一步的,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数 据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值 的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式, 利用自相关算法计算不同数据源的异构数据之间的的相似系数: 其 中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范 围为:10~20。 进一步的,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征 空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的 方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据 的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据 库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵 分别与每一个定向特征空间群进行映射匹配: 其中,sim(dj,dk)为映射匹配结果, 为产品目标异构数据矩阵,wji为矩阵行值, |dj|为对应的矩阵行列式的值; 为定向特征空间群,wki为矩阵行值,|dk||为对 应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应 的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根 据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。 进一步的,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及 其对应的权重构成。 大数据仓库的异构数据整合方法,所述方法执行以下步骤:分类器分别基于多个 特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知 训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关 系,分别计算出每个所述特征空间与目标空间之间的映射规则;数据融合装置根据分类器 得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统 一映射至目标空间,完成异构数据整合;所述系统还包括:异构数据成分分析装置,分析出 来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将 7 CN 111581298 A 说 明 书 4/9 页 异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步 整合的结果发送至分类器。 进一步的,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器 对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训 练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空 间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下 公式,统计数据特征符合每一个特征空间的次数: 其中,N为符合特征空间的次数,S为数据个数, λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun  tj第i个训练样本的数 据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对 应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训 练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的 映射规则。 进一步的,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数 据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值 的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式, 利用自相关算法计算不同数据源的异构数据之间的的相似系数: 其 中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范 围为:10~20。 进一步的,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征 空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的 方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据 的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据 库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵 分别与每一个定向特征空间群进行映射匹配: 其中,sim(dj,dk)为映射匹配结果, 为产品目标异构数据矩阵,wji为矩阵行值, |dj|为对应的矩阵行列式的值; 为定向特征空间群,wki为矩阵行值,|dk||为对 应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应 的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根 据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。 进一步的,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及 其对应的权重构成。 8 CN 111581298 A 说 明 书 5/9 页 本发明的基于大数据仓库的异构数据整合系统及方法,具有如下有益效果:本发 明在进行异构数据整合时,分类器分别基于多个特征空间进行训练,经过训练的分类器,能 够在每个特征空间下对目标异构数据进行分类,通过对每个所述分类器对多个已知训练样 本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果 和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规 则,通过这种规则的映射,实现了细微差别的异构数据分类,适用于异构数据种类较多的情 况;数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目 标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;在进行异构数据分类 前,适用异构数据成分分析装置,根据异构数据的主成分,将异构数据进行初步整合分类, 降低了后续分类器的工作量,提升了分类器的运行效率。 附图说明 图1为本发明的实施例提供的基于大数据仓库的异构数据整合系统的系统结构示 意图; 图2为本发明的实施例提供的基于大数据仓库的异构数据整合方法的方法流程示 意图; 图3为本发明的实施例提供的基于大数据仓库的异构数据整合系统及方法的数据 融合准确率与现有技术的数据融合准确率的对比实验表格示意图; 图4为本发明的实施例提供的基于大数据仓库的异构数据整合系统及方法的数据 融合效率与现有技术的数据融合效率的对比实验效果示意图。
分享到:
收藏