数据治理体系
从两个维度看数据治理体系的内容:
1)数据治理难点和痛点:数据脉络不清晰、数据聚合能力不足、数据管控能力薄弱、数据治理体系不完善、开放表单不完善。
2)数据治理的五大核心:管理、聚合、管理、治理、使用。
数据治理体系主要包括数据标准、元数据、数据建模、数据集成、数据生命周期、数据质量、数据开放、数据安全、数据应用等。
元数据
2.1. 元数据解决的问题
哪些数据可用 - 数据是什么 - 数据来自哪里 - 如何流动 - 谁可以访问它
其本质也是一种数据,元数据管理是数据资产管理的基础。
2.2. 元数据分类
业务元数据:描述数据系统中与业务域相关的概念、关系和规则的数据包括业务术语、信息分类、指标、统计口径等。 (从业务角度描述)。
技术元数据:描述与数据系统技术领域相关的概念、关系和规则的数据;它包括数据平台中对象和数据结构的定义,源数据到目标数据的映射,以及数据转换和处理过程的描述。
管理元数据:描述数据系统中与管理域相关的概念、关系和规则的数据主要包括人员角色、岗位职责、管理流程等信息。
2.3. 元数据模型成熟度
1. 第 1 阶段:元数据需要手动管理,即在数据治理流程之外需要额外的步骤。
2、第二阶段:在数据探索阶段自动生成元数据。
3、第三阶段:自动构建数据流的元数据。
2.四、元数据建设目标及管理方法
2.5. 元数据管理
元数据管理方法:
元数据管理功能:
数据标准
常见的数据标准包括基础数据标准和指标数据标准。
主要组成部分:业务定义+管理信息+技术属性。
数据标准包括以下内容:主题和类别+标签属性+标准**。
3.2.2.数据标准类型(示例)。
标准因行业而异,这里只是一些例子。
如:性别、身份证、金额、手机号码、行业、分类等级等
3.3、数据标准管理体系涉及思想
数据标准适用于业务和业务。
按照现有标准进行施工
基本数据标准:面向业务的视角。
指标数据标准:从管理角度看。
数据标准的制定是以业务为导向的管理是主导,外部要求是基础,企业现状是基础的兼容性过程。
3.4、数据标准架构体系
通过统一标准和架构规范,统一指标、术语、模型、信息项,解决数据口径解读不清晰、业务和数据理解不一致等问题,实现架构层面数据的统一
然而,并非所有的基础数据都需要建立标准,标准中包含的数据项需要满足共享、重要性和可行性的获取原则。
3.五、管理数据标准建设原则
定义:分析数据标准的业务影响与适用的业务场景一致。
口径:保留分析数据标准的服务值范围、计算方法、编码规则等业务规则。
名字:分析数据的标准中英文名称采用统一的命名规则,代表相同业务含义的信息项名称应始终保留。
参考:在对各项分析数据的标准项目进行标准化时,所参考的外部标准(包括国际标准、国家标准、行业标准),内部业务制度和业务规范应保持一致。
:每个分析数据标准都应具有权威性;其他系统应直接从权威系统结果中使用此信息,以确保一致性。
下面以企业数据标准体系框架为例,分为基础数据标准和管理数据标准。
3.6. 数据标准生命周期管理
数据建模
4.1. 概念
企业范围的数据建模方法从全局出发,涉及规范数据模型,构建统一的数据模型管控体系,丰富和完善数据实体的相关属性信息,梳理数据实体之间的逻辑关系,最终形成不同主题领域的数据模型。
4.2. 数据模型分类
4.3. 数据模型生命周期
4.4. 案例
数据集成
5.1. 概念
数据集成主要是指基于企业分散的信息系统对业务数据进行重新集中和统一管理的过程,这是一个循序渐进的过程,主要是产生新的和不同的数据,并且有连续的步骤和数据集成的程序实施。 数据集成是将不同格式和特征的数据进行逻辑或物理有机的集中,从而为企业数据共享提供基础支撑。
5.2. 数据集成的整体架构
数据生命周期
6.1.分阶段划分
它分为两大阶段:数据治理规划阶段+数据生命周期管理阶段。
数据治理规划阶段
业务规划定义阶段:业务规划和业务标准设计。
应用设计与实现阶段:数据模型设计、应用标准设计、应用设计实现、数据录入。
数据生命周期管理阶段
数据创建:使用数据模型保证数据完整性,实施数据标准保证数据准确性,增加数据质量检查创建准确,确保数据在合理的系统中生成
数据使用:使用元数据监控数据使用情况,使用数据标准确保数据准确性,使用数据质量检查和处理准确性,确保数据在合理的系统中使用,控制数据派生
数据归档:使用评估方法确保按数据类型归档和归档数据的时间
数据销毁:使用评估方法保证数据销毁的时机,按数据类型销毁数据。
要求:
满足历史数据查询相关策略和管理系统的要求。
满足业务运营和管理分析的需求。
满足审计管理要求。
减少数据冗余,提高数据一致性。
存储、硬件、运维等基础设施投资
提高应用程序性能和响应能力。
6.二、管理要求及手段
6.三、管理规范及管理办法
数据质量
7.一、数据质量管理目标
根据数据使用者的需求,开发满足数据质量要求的管理方法。
定义数据质量控制的标准和规范,并写入整个数据生命周期的一部分。
定义和事实化、监控和报告数据质量级别的过程。
根据数据使用者的要求,通过改变流程和系统,以及参与可以显著提高数据质量的活动,识别并倡导提高数据质量的机会。
7.2. 生命周期
规划阶段:数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的替代方案。
执行计划:数据质量团队负责解决问题的根本原因,并制定持续监控数据(技术问题、流程问题)的计划。
检查阶段:此阶段包括根据需要主动监控数据质量。
处理阶段:处理和解决新出现的数据质量问题的活动。
7.3. 数据质量维度
7.4. 提高数据质量的常用工具
数据开发
周围数据价值通道(数据资产->数据服务->业务应用)设计数据开发的全流程管理,促进数据价值的释放。
8.1. 数据资产
数据资产的应用和落地,可以打通基础数据链,实现连接和协同,提升数据价值。
数据资产生命周期:注册、更改、监视和停用。
8.2. 数据服务
数据服务技术架构:
数据安全
数据安全体系包括:数据安全技术体系+安全管理体系+安全运营体系。
etl
10.1. 意义
10.2. ETL模式
触发模式:
增量字段模式:
全同步模式:
日志对比模式:
不同型号的比较:
10.3.离线和实时
实时数据:
离线数据:
使用场景: