读透《华为数据之道》_飞道的博客

读透《华为数据之道》

2021-01-29 13:44 791人阅读评论(0)

这是傅一平的第361篇原创

【提醒：公众号推送规则变了，如果您想及时收到推送，麻烦右下角点个在看，或者把本号置顶】

正文开始

很多年前阿里出了《大数据之路》一书，在数据技术层面给出了有价值的指导，算是一本经典的书籍。最近华为出版了《华为数据之道》一书，给出了非数字原生企业在数据管理方面的实战经验，特别适合于面临数字化转型的企业管理者、数据从业者。

这两本书的特点都是体系化程度比较好，如果说《大数据之路》是鱼，那《华为数据之道》就是水，没有良好的数据治理体系保驾护航，数据技术要产生实际价值也很难。

一、整体框架

《华为数据之道》共有10个章节的内容，其中最核心的内容包括四大部分：数据湖、数据主题连接、数据消费及数据治理，见下图的整体框架。

个人认为，数据治理对应着第二章的综合治理体系、第三章的数据分类、第四章的信息架构、第八章的数据质量及第九章的数据安全，数据湖和数据主题联结对应着第五章，合起来叫做数据底座，数据消费对应着第六章。

从框架角度来讲，传统的大数据平台体系框架（如下图所示）与华为的数据体系框架跟没有大的区别，只是每个模块的称呼有所不同，模块的划分稍有区别。

1、数据交换层+数据处理层对应着华为的数据湖。

2、数据开放层中的基础模型、融合模型及洞察主题对应着华为的主题联结。

3、数据开放服务对应着华为的数据服务。

4、数据处理层的分析引擎+应用层对应着华为的数据消费，把数据分析这种引擎下沉归类到平台端还是上浮归类到消费端就仁者见仁智者见智了。

5、数据资产管理+资源管理对应着华为的数据治理，但华为的数据治理模块不仅仅指治理平台工具，还包括组织、机制和流程等等。

二、数据治理

《华为数据之道》提到，只有构筑一套企业级的数据综合治理体系，才能确保关键数据资产有清晰的业务管理责任，IT建设有稳定的原则和依据，作业人员有规范的流程和指导。当面临争议时，有裁决机构和升级处理机制，治理过程所需的人才、组织、预算有充足的保障，最终建立有效的数据治理环境，数据的质量和安全得到保障，数据的价值才能真正发挥出来。

这段话很精辟，衡量一个企业数据治理水平的高低，最关键的一是有没有公司级的数据治理政策，二是这个政策有没有组织的保障，三是这个保障流程运行的质量如何，我不知道华为是否真的全做到了，但政策和组织保障这部分内容写得比较详细。

1、数据治理政策的顶层设计

数据治理政策是华为数据治理的顶层设计，该政策在华为公司EMT(经营管理团队)汇报通过后，由总裁签发，该政策明确了数据工作在华为公司治理体系的地位，体现了公司管理层对数据工作重要性的统一认知。

华为数据管理总纲明确了数据治理最基本的原则，包括信息架构、数据产生、数据应用及数据质量的职责和分工。在这个基础上，华为针对信息架构、数据质量及数据源还给出了具体的管理政策。

比如信息架构管理原则第二条规定：所有变革项目须遵从数据管控要求，对于不遵从管控要求的变革项目，数据管控组织拥有一票否决权。

比如数据产生管理原则第三条规定：关键数据须定义单一数据源，一点录入，多点调用，数据质量问题应在源头解决。

比如信息架构管理政策第一条：各数据Owner负责其所辖数据的信息架构建设和维护，承接及落实公司的数据规划要求。

有时候我们连公司级的数据政策针对的管理对象都描述不清楚，比如信息架构到底是什么，华为不仅明确了，还把原则政策化了，这一点难能可贵。

2、业务负责制的责任体系

华为公司的每一个数据，必须由对应的业务部门承担管理责任，且必须有唯一的数据Owner。业务负责制的数据管理责任体系，是华为数据治理体系多年实践经验的结晶，是确保体系发挥作用的基石。

这个真的非常好，但知易行难。

数据谁生成，谁负责，本来天经地义，但现在IT背锅不在少数，大多数企业的数据由于没有明确Owner，因此一旦出现数据质量问题就会相互扯皮，这是数据质量问题始终无法解决的一个根源，有时候业务数据出现问题还要IT倒过来求着业务去规范录入，完全是本末倒置。

华为按分层分级原则任命数据Owner，在公司层面设置公司数据Owner，在各业务领域设置领域数据Owner，这样既能确保公司数据工作统筹规划，也能同时兼顾各业务领域灵活多变的特征。

为落实公司制定的数据管理目标，在各业务领域要建立实体化的数据管理专业组织，实线向GPO(各业务领域的全球流程Owner，通常是业务领域的最高主管)汇报，承接并落实GPO的数据管理责任，虚线向公司管理部汇报，遵从公司统一的数据管理政策、流程和规则要求，见下图所示。

笔者今年在文章《如何解决企业各个部门间的“数据孤岛”问题？》中也提到了业务部门组织保障的重要性，见下图，两者有异曲同工之妙。

最后，围绕组织、机制和流程，要制定全生命周期的治理规范和方案，华为给了一张全景图，大家可以参考。

3、信息架构是数据治理的关键对象

企业在运作过程中，首先需要管理好人和物等“资源”，然后管理好各类资源之间的联系，即各类业务交易“事件”，再对各类事件的执行效果进行“整体描述和评估”，最终实现组织目标和价值。但如果运作过程中各类数据在企业各业务单元间无法高效、准确、一致的传递，就会影响企业运作的效率，比如主数据不一致就会问题频发。

而要解决这个问题，就要对企业的信息架构进行治理，即构建一套对业务运作数据进行有效管理的信息架构方法论，用于指导企业内部个部门的信息架构建设工作，让管理者、专家和员工之间有共同语言。

上面这段话说明了信息架构治理的业务价值。

（1）信息架构的组成

信息架构主要包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件，如下图所示：

数据资产目录决定了数据治理的边界和对象，通过数据资产的分门别类不仅能让数据模型归位，帮助企业更好的对业务变革进行规划设计、避免重复建设，也能让数据资产找得到、看得清，为数据资产有效使用奠定基础。

数据标准定义公司层面需要共同遵守的属性层数据含义和业务规则，是公司层面对某个数据的共同理解，这些理解一旦确定下来，就应作为企业层面的标准在企业内被共同遵守。

例如合同是公司最重要的数据之一，有必要对合同编号制订统一的数据标准，包括编号的位数，一旦合同编号数据标准制定下来，那么整个公司所有业务部门都必须共同遵守，除了数据Owner以外，任何部门都不允许自定义合同编号，否则一旦不同业务环节各自定义，那么数据就无法在上下游业务之间快速流转，往往需要额外的人工转换和翻译，这极大增加人工成本，延长业务执行周期。

数据模型是从数据视角对现实世界特征的模拟和抽象，根据业务需求抽取信息的主要特征，反应业务信息（对象）之间的关联关系。数据模型不仅能比较真实地模拟业务（场景），同时也是对重要业务模型和规则的固化。

数据分布定义了数据产生的源头及在各流程和IT系统间的流动情况，数据分布的核心是数据源，指业务上首次正式发布某项数据的应用系统，并经过数据管理专业组织认证，作为企业范围内唯一数据源头被周边系统调用，为了更好地识别、管理数据在流程和IT系统间的流动，可以通过信息链、数据流来进行描述，体现某一数据在流程或应用系统中是如何被创建、读取、更新、删除的。

（2）信息架构治理原则

华为首先确定了“数据同源一致”的治理目标，围绕目标的实现，制定了五条架构原则。

原则一：数据按对象管理，明确数据Owner

数据要发挥作用，必然会在多个IT系统和流程中流转，并且越是重要的数据资产，所流经的业务环节就越多，比如产品、人员、客户的数据几乎在所有流程中都会涉及，因此不应以IT系统、业务流程边界来管理数据，而应该从数据本身出发，按对象进行数据全生命周期管理。

原则二：从企业视角定义信息架构

任何一个数据Owner都不只代表自己所辖业务范围的数据管理诉求，而是代表公司对数据进行管理，比如任何业务部门对合同编号的诉求，都可以提交数据Owner解决。

原则三：遵从公司的数据分类管理框架

原则四：业务对象结构化、数字化

原则五：数据服务化，同源共享

（3）信息架构建设核心要素

按业务对象进行架构设计：业务对象是指业务领域中重要的人、事、物对象。业务对象承载了业务运作和管理涉及的重要信息，是信息架构中最重要的管理要素，在进行信息架构设计时，架构师、业务代表、数据Owner通常会对业务对象的判定存在理解偏差，数据治理部门需要制定一套确定性规则，通过确定性规则促进形成稳定的架构，主要包括四个原则，分别是不可或缺、唯一身份标识、相对独立及可实例化。

按业务对象进行架构落地：信息架构向IT侧落地的主要交付件是数据模型，华为公司过去长期存在信息架构与IT开发实施“两张皮”的现象，数据人员和IT开发实施人员缺乏协同，数据架构遵从无法进行实质、有效管理，信息架构资产和产品实现的物理表割裂、不匹配、同时各种数据模型资产缺失。

为了解决这个问题，华为推行了一体化模型设计，不仅在工具上实现了一体化设计和开发，而且确保了元数据验证、发布和注册的一致性，使得产品数据模型管理和资产可视，比如构建数据标准池、实体属性只能从标准池选择、产品元数据和数据库自动比对验证、产品元数据发布认证和信息资产打通、基于交易侧产品元数据自助如何等等，具体见下图：

笔者在《业务系统的数据资产管理为什么这么难？》一文中对于“两张皮”问题有过详细的论述，大家有时间可以看下。

4、不同数据类别宜采用不同的治理手段

华为对数据进行分类的目的，是为了针对不同特性的数据采取不同的治理方法，以期实现最大的投入产出比。

华为根据数据特性及治理方法的不同对数据进行了分类定义：内部数据和外部数据、结构化数据和非结构化数据、元数据。其中，结构化数据又进一步划分为基础数据（也叫参考数据，维度数据）、主数据、事务数据、报告数据、观测数据和规则数据，数据分类框架如图所示：

这里以基础数据为例介绍华为的治理方法。

基础数据用于对其他数据进行分类，也叫参考数据。当基础数据的取值发生变化的时候，通常需要对流程和IT系统进行分析和修改，以满足业务需求。因此，基础数据的管理重点在于变更管理和统一标准管控。

华为建立了一个完整的基础数据管理框架，通过明确各方的管理责任，发布相关的流程和规范以及建立基础数据管理平台等来确保基础数据的有效管理，如下图所示：

《华为数据之道》数据治理相关章节给了我很大启发，强烈建议大家阅读。

三、数据湖

1、华为数据湖的3个特点

华为数据湖是逻辑上对内外部的结构化、非结构化的原始数据的逻辑汇聚，有三个特点：

（1）逻辑统一

华为数据湖不是单一的物理存储，而是根据数据类型、业务区域等由多个不同的物理存储构成，并通过统一的元数据语义层进行定义、拉通和管理。

（2）类型多样

数据湖存放所有不同类型的数据，包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构的文本数据、公司内部园区各种传感器检测到的设备运行数据，以及外部的媒体数据等。

（3）原始记录

华为数据湖是对原始数据的汇聚，不对数据做任何的转换、清晰、加工等处理，保留数据最原始特征，为数据的加工和消费提供丰富的可能。

2、数据入湖的6个标准

数据入湖是数据消费的基础，需要严格满足入湖的6项标准，包括明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。通过这6项标准保证入湖的数据都有明确的业务负责人，各项数据都可理解，同时都能在相应的信息安全保障下进行消费。

3、数据入湖方式

数据入湖有5种技术手段，包括批量集成、数据复制同步、消息集成、流集成、数据虚拟化，5种数据入湖方式比对参考如下：

下图示例了结构化数据入湖的流程：

不过笔者认为，华为定义的数据湖和传统的数据仓库没有本质区别，虽然数据存储的多样化和原始化是数据湖的一个特征，但还不足以构成一个数据湖，笔者在《数据湖与数据仓库的根本区别，在于前者是“市场经济”，而后者是“计划经济”》对数据湖谈过自己的理解，大家有兴趣可以看一下。

四、数据主题联结

华为在数据湖的基础上通过建立数据联结层，基于不同的分析场景，通过5类联结方式将跨域的数据联结起来，将数据由“原材料”加工成“半成品”和“成品”，支撑不同场景的数据消费需求，数据联结其实就是数据仓库建模，当然华为对于联结的定义更为广泛，包括多维模型、图模型、标签、指标和算法模型，如下图所示。

多维模型是面向业务的多视角、多维度的分析，通过明确的业务关系，建立基于事实表、维度表以及相互间联接关系，实现多维数据查询和分析。例如对订货数据从时间、区域、产品等维度进行多视角、不同粒度的查询和分析。

图模型面向数据间的关联影响分析，通过建立数据对象以及数据实例之间的关系，帮助业务快速定位关联影响。例如查看某国家原产地的项目的数据具体关联到哪个客户以及合同、订单、产品的详细信息时，可以通过图模型快速分析关联影响，支撑业务决策。

标签是对特定业务范围的圈定。在业务场景的上下文背景中，运用抽象、归纳、推理等算法计算并生成目标对象特征的表示符号，是用户主观观察、认识和描述对象的一个角度。例如对用户进行画像，识别不同的用户群，为产品设计和营销提供策略支持。

指标是对业务结果、效率和质量的度量。依据明确的业务规则，通过数据计算得到衡量目标总体特征的统计数值，能客观表征企业某一业务活动中业务状况。例如促销员覆盖率指标就是衡量一线销售门店促销员的覆盖程度。

算法模型是面向智能分析的场景，通过数据建模对现实世界进行抽象、模拟和仿真，提供支撑业务判断和决策的高级分析方法。例如预测未来18个月的销售量。

五、数据消费

在数据供应侧和消费侧的双重推动下，华为公司进行了基于数据服务提供“自助消费”的实践，打造了从数据供应到消费的完整链条。

1、数据服务：实现数据自助、高效、复用

过去数据获取大部分依赖于传统集成方式，即将数据从一个系统复制到另一个系统。随着企业规模的扩大，需要在几十个甚至上百个IT系统中进行数据集成，这样一来，随着系统集成的复杂度提升，会带来一系列数据质量问题，比如数据经过多次不同系统间搬家后，源头数据和下游各系统之间的数据差异巨大，在这样的背景下，华为进行了大规模的数据服务建设，通过数据服务替代原有数据集成方式，取得了数据获取效率和数据安全之间的平衡，下图示例了数据服务和传统集成方法的对比：

数据服务给企业带来五个价值：（1）保障“数出一孔”，提升数据一致性（2）数据消费者不用关注技术细节（3）提升数据敏捷响应能力（4）满足用户灵活多样的消费诉求（5）兼顾数据安全，具体见下图：

华为公司为确保整个数据供应链条的高效协同，制订了“三个1”作为拉通各个供应环节的整体目标，确保每个环节能够形成合力并对准最终用户，如下图所示：

1天：对已发布数据服务的场景，从需求提出到消费者通过服务获取数据，在一天内完成。

1周：对于已进底座但无数据服务的场景，从需求提出到数据服务设计落地、消费者通过服务获取数据，在一周内完成。

1月：对于已结构化但未进底座的场景，从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据，在1个月内完成。

数据供应“三个1”并不是单纯的度量指标，而是一整套瞄准最终数据消费体验的能力体系以及确保数据供应能力的管理机制，还包括组织职责的明确、流程规范的制定与落实、IT平台的建设和管理，如下图所示：

2、构建以用户体验为核心的数据地图

在解决数据的“可供应性”之后，企业应该帮助业务更便捷、更准确地找到它们所需要的数据，这就需要打造一个能够满足用户体验的“数据地图”。

数据地图（DMAP）是华为面向数据的最终消费用户针对数据“找得到” “读得懂”的需求而设计的，基于元数据应用，以数据搜索为核心，通过可视化方式，综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系，让用户高效率找到数据，读懂数据，支撑数据消费。

数据地图作为数据治理成果的集散地，需要提供多种数据，满足多类用户、多样场景的数据消费需求，所以华为公司结合实际业务制定了如下图的数据地图框架。

3、人人都是分析师

数据服务解决了“可供应性”，数据地图解决了“可搜索/可获取性”，当消费方获取数据后，提供“可分析”能力，帮助数据消费者结合自身需要获取想要的分析结果。过去各业务部门的分析诉求往往通过“保姆式”开发模式来满足，从获取数据、建模到设计报告，均需要IT人员的支撑，在这种背景下，提出了“服务+自助”模式，即IT只提供统一的数据服务和分析能力组件服务，各业务部门可以根据业务需要进行灵活的数据分析消费，数据分析的方案和结果由业务自己完成。

华为公司将自助分析作为一种公共能力，在企业层面进行了统一构建，一方面面向不同的消费用户提供差异化的能力和工具支撑；另一方面引入了“租户”概念，不同类型的用户可以在一定范围内分析数据，共享数据结果。

（1）针对三类角色提供的差异化服务

面向业务分析师，提供自助分析能力，业务人员通过“拖、拉、拽”即可快速产生分析报告。

面向数据科学家，提供高效的数据接入能力和常用的数据分析组件，快速搭建数据探索和分析环境。

面向IT开发人员，提供云端数据开发、计算、分析、应用套件，支撑海量数据的分析与可视化，实现组件重用。