
技术摘要:
本发明涉及一种大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法,包括以下操作:系统信息录入,记录系统基本情况;通过标准元数据采集工具采集技术元数据;从系统的业务场景为源点采集业务元数据;通过业务元数据的关联分析元数据链路;识别业务元数 全部
背景技术:
随着大数据技术的快速发展,越来越多的企业开始将数据视为资产进行管理,更 有不少企业在数据资产的基础上实现了数据运营,而要具备这些能力,企业对系统的数据 架构需要有一个全面认识,例如:在系统的各种数据中,哪些是基础数据、哪些是核心数据、 系统的数据主题有哪些、系统能够对外提供哪些数据等等,而企业的系统建设并不统一,往 往由不同供应商采用不同技术架构在不同时期建成,企业对系统本身的数据情况并不完全 掌握,因此想从全局出发进行数据架构梳理是非常不易的,当前市场上一般采用元数据技 术盘点系统数据结构,再与业务专家进行调研,梳理数据架构,但由于元数据本身太技术 化,缺少对业务的理解,而业务专家又大多不了解技术实现并且业务能力无法准确衡量,调 研效果也有好有坏,往往费时、费力梳理之后得到的结果却差强人意,数据主题也因此变成 “空中楼阁”,难以落地,因此,企业需要一个上手难度小、人员要求低、过程标准化,并且得 到的结果准确、有效,具备较高可落地性的系统数据架构梳理方法。 现有元数据相关技术如下: 一种基于元数据链路的数据追踪方法及系统(申请号:CN201910095599.4),其提 供了一种基于元数据链路的数据追踪方法,包括:收集数据传输日志;根据数据传输日志生 成字段级元数据链路;根据上传的查询条件,追踪到与查询条件匹配的字段级元数据链路; 对字段级元数据链路进行可视化处理以生成图形界面。本发明还公开了一种基于元数据链 路的数据追踪系统,包括收集模块,用于收集数据传输日志;生成模块,用于生成字段级元 数据链路;追踪模块,用于根据上传的查询条件追踪与查询条件相匹配的字段级元数据链 路;可视化模块,用于对字段级元数据链路进行可视化处理以生成图形界面。采用本发明, 通过字段级元数据链路,能够快速追踪到具体的数据。 通过上述一种基于元数据链路的数据追踪方法及系统技术,包括:通过收集数据 传输日志,进一步生成字段级元数据链路,并可视化显示,通过元数据链路,追踪到具体的 数据。通过获取模块能够获取到整个数据链路中每个流转节点的数据值,通过比较模块比 较整个数据链路中每个流转节点的数据值,定位出有问题的流转节点及其数据值。通过范 围判断模块,在定位出问题流转节点后,通过数据链路追踪,能够判断出哪些流转节点会受 影响,哪些数据链路会受影响,从而发现问题,补救问题。通过质量反馈模块,对数据质量情 况反馈,能够获悉数据传输过程中数据质量的变化,从而实现对整条数据链路的数据质量 进行监控。该技术从元数据视角出发,通过技术手段追踪数据链路,但却缺少对业务的理 解,更多作用在于事后快速定位问题,并不擅长梳理系统的数据架构,无法分析出系统中涉 及的数据主题和系统能提供的数据能力。 4 CN 111611458 A 说 明 书 2/14 页
技术实现要素:
本发明的目的是克服了上述现有技术的缺点,提供了一种满足有效性高、分析能 力强、适用范围较为广泛的大数据治理中基于元数据和数据分析技术实现系统数据架构梳 理的方法。 为了实现上述目的,本发明的大数据治理中基于元数据和数据分析技术实现系统 数据架构梳理的方法如下: 该大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法,其主 要特点是,所述的方法包括以下步骤: (1)系统信息录入,记录系统基本情况; (2)通过标准元数据采集工具采集技术元数据; (3)通过模拟系统业务场景采集系统中的数据流向,从系统的业务场景为源点采 集业务元数据; (4)通过业务元数据的关联分析元数据链路; (5)识别业务元数据与技术元数据的业务含义; (6)通过对不同维度元数据进行聚类、汇总、统计排序的分析策略,分析数据能力、 数据全景和数据热度。 较佳地,所述的步骤(1)的系统基本情况包括系统名称、系统编码、系统供应商、系 统版本号、上线时间、数据库信息、业务特性、菜单信息和功能信息。 较佳地,所述的步骤(2)的采集技术元数据包含客户端和服务端两部分,客户端与 应用系统数据库适配并采集数据,服务端对数据进行整合及可视化展现,描述数据库之间、 表之间以及字段之间的关联关系。 较佳地,所述的步骤(3)中业务元数据的采集范围包括业务特性、菜单、功能、API、 界面、表单、请求、SQL、表和字段。 较佳地,所述的步骤(4)具体包括以下步骤: (4.1)对重复或相似的业务元数据进行合并; (4.2)形成业务元数据的血缘分析、影响分析、全链分析。 较佳地,所述的步骤(4.2)具体为: 通过数据之间的关联性,对业务元数据进行链路分析,以掌握数据的影响程度,形 成业务元数据的血缘分析、影响分析、全链分析。 较佳地,所述的步骤(5)具体包括以下步骤: (5.1)将采集到的业务元数据与技术元数据充分结合,快速识别数据的业务含义; (5.2)业务元数据与技术元数据通过表进行关联,并根据业务元数据中获取到的 功能、界面、表单、请求、SQL和表之间的关联关系识别字段的业务含义,并回写至技术元数 据中的字段内。 较佳地,所述的步骤(6)中的分析数据能力的步骤具体包括以下处理过程: 通过对业务元数据中的功能和表单,以及技术元数据中的表和字段进行聚类分 析。 较佳地,所述的步骤(6)中的分析数据能力的步骤具体包括以下处理过程: 通过对元数据链路的汇总计算,展示系统中所有表之间的关联关系,形成系统数 5 CN 111611458 A 说 明 书 3/14 页 据全景图。 较佳地,所述的步骤(6)中的分析数据热度的步骤具体包括以下处理过程: 通过对系统中表的被关联的次数进行统计排序,找出被关联次数较多的表,将其 作为系统的核心数据。 采用了本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳 理的方法,通过自上而下的采集业务元数据,自下而上的采集技术元数据,最终达到“技术” 与“业务”融合的效果,使得梳理系统数据结构的工作从一个需要业务专家支持的高门槛、 高成本、高难度工作转变为一个仅需技术人员参与的标准化梳理工作,并且由于对系统功 能的全覆盖采集,数据的真实性、有效性得以保障,以此为参考梳理出的数据主题有更高的 准确性且可落地性强,通过本发明,为企业在大数据治理领域,提供有力支撑,具有很好的 推广应用价值。 附图说明 图1为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的流程示意图。 图2为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的业务元数据链路示意图。 图3为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的完整元数据模型示意图。 图4为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的数据架构梳理平台功能架构图。 图5为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的核心表之间的关系示意图。 图6为本发明的大数据治理中基于元数据和数据分析技术实现系统数据架构梳理 的方法的业务元数据合并过程示意图。