第2篇:从“数据集中治理”到“数据原位治理”:DISC架构的治理哲学
治理规则集中定义治理执行分布自治——治理能力胶囊如何替代人工管控一、小陈的日常小陈是某制造企业的数据治理经理。每天早上九点她打开电脑第一件事是更新Excel版的数据字典——昨天业务部门又新增了几个表单字段她需要逐一录入、标注含义、通知下游。上午十点她收到一封邮件销售数据源的质量检查脚本报错了需要排查是数据问题还是脚本问题。下午两点她参加数据治理委员会月度会议汇报本月的质量问题处理情况。下午四点她开始为新接入的促销数据源手工配置数据质量规则。[1]这就是小陈的日常。她的工作本质是“人肉治理”——靠人的记忆维护数据字典靠人的检查发现质量问题靠人的审批开通数据访问权限靠人的跟进推动问题整改。小陈并不孤单。在DAMA体系下无数像她这样的数据治理经理构成了数据治理的“人肉引擎”。这套引擎在过去运转良好——当数据集中在中央数据仓库时一个治理经理可以覆盖全公司的数据资产。但今天随着企业数据量每年增长百分之五十[2]数据源从几个增长到几十个数据分散在不同的业务系统中小陈的治理效率已经跟不上了。更让她焦虑的是公司最近启动了DISC架构转型[3]。数据不再汇聚到中央仓库而是分散在多个本地数据面中。“如果数据都不在我能看得到的地方了我怎么治理”小陈的问题正是DAMA治理模式在数据主权时代面临的核心挑战。二、DAMA治理模式的核心逻辑与失效点要理解这个挑战需要先看清DAMA治理模式的核心逻辑。传统DAMA数据治理的核心是“中央治理委员会”模式。治理委员会由各部门代表组成制定统一的数据标准、质量规则、安全策略。数据管理员在中央平台上手工执行这些规则——在数据仓库中配置质量检查脚本在权限管理系统中设置访问控制在数据字典中更新字段定义。这套模式的运转依赖三个核心特征。第一组织集中。 决策权集中在治理委员会——所有数据标准、质量规则、安全策略都由委员会统一制定各部门遵照执行。这种集中模式在“数据集中管理”的时代是高效的——标准统一权责清晰不会出现各部门各行其是的情况。第二执行集中。 规则在中央平台上统一实施。因为所有数据都在中央数据仓库中数据管理员可以在一个地方配置质量检查、设置访问控制、更新数据字典。执行的物理环境与管理的组织架构是匹配的。第三依赖人工。 质量检查靠人的SQL脚本和Excel比对权限审批靠邮件和工单流转问题处理靠人的判断和操作。治理规则被写在文档里——数据标准文档、质量规则手册、安全策略指南——但规则的执行最终依赖人的记忆、人的检查、人的审批。当数据不再集中存储时这三个核心特征逐一失效。失效点一执行前提消失。 数据不在中央平台上了中央平台执行治理规则的物理前提就不复存在。你无法在一个已经不存在的数据仓库中配置质量检查脚本。数据分散在多个本地数据面中每个数据面都有自己的数据库、自己的表结构、自己的更新节奏。中央治理委员会虽然可以继续制定规则但规则无法落地——执行环境已经分散了。失效点二感知能力丧失。 数据分散在多个本地数据面中治理委员会无法实时感知每个数据面的状态变化。哪一个数据面新增了数据源哪一个数据面出现了质量问题哪一个数据面有异常访问在集中模式下这些信息都在一个平台上一目了然。在分散模式下它们散落在各处无法被统一感知。失效点三人工效率瓶颈。 即使治理委员会能够感知到每个数据面的状态人工执行的速度也远远跟不上数据增长和业务变化的速度。小陈一个人管理十几个数据源已经吃力当数据源增长到几十个、上百个时靠人治理的边际成本将无限上升。三个失效点指向同一个结论DAMA的治理模式是与“数据集中存储”这个物理前提绑定在一起的。当这个前提消失时治理模式必须被重构。不是“要不要改”的问题而是“怎么改”的问题。三、DISC-DAMA的治理新范式——“治理能力胶囊”DISC-DAMA的回答是将治理规则从“被写在文档里、靠人来执行的条款”转变为“被封装为可自动执行的能力胶囊”。治理能力胶囊是DISC架构中“能力三元论”在治理领域的具体应用[4]。在DISC-DAMA框架下治理规则不再是一份需要人工对照的Excel文档也不是一个需要管理员手工配置的检查脚本而是一个可以自动执行的标准能力胶囊。它在云端控制面被定义和版本管理然后分发到各本地数据面在数据原地自动运行。治理能力胶囊分为三类。第一类数据标准胶囊。 它的工作是自动校验新增数据是否符合已定义的标准字段格式、值域约束和命名规范。当业务部门新增一个数据源时数据虚拟化引擎自动发现新表和字段数据标准胶囊随即启动校验——字段命名是否遵循公司标准数据类型是否正确值域是否在允许范围内如果发现不符合标准的字段胶囊自动生成整改通知精确指出哪个字段、什么问题、建议如何修正然后分派给数据所有人。整个过程不需要治理经理手工梳理字段、对照标准、编写通知。第二类数据质量胶囊。 它在数据面本地定时执行完整性检查、一致性校验和及时性监控。完整性检查回答“是否有必填字段为空”一致性校验回答“同一客户在不同系统中的名称是否一致”及时性监控回答“数据是否按时更新”。发现质量问题后胶囊自动告警、生成质量报告、分派工单给对应的数据所有人。治理经理不需要手工编写SQL脚本、逐表检查、邮件跟进——胶囊替她完成了这些重复性工作。第三类数据安全与合规胶囊。 它自动执行数据脱敏规则、访问控制策略、数据保留和销毁指令。当外部审计师请求导出数据时安全胶囊自动遮盖个人薪酬和身份证号。当数据达到保留期限时合规胶囊自动执行归档或销毁。治理经理不需要手工配置脱敏规则、手工追踪数据保留期限——胶囊让合规从“人记得去执行”变成了“代码不忘记去执行”。治理能力胶囊的生命周期也遵循DISC架构的“控制面集中定义、数据面分布执行”原则。在云端控制面治理委员会定义治理规则——比如“费用科目必须存在于费用科目字典中”、“客户名称不能为空”、“核心数据绝不出域”——然后将这些规则封装为标准治理能力胶囊赋予版本号分发到各数据面。在本地数据面治理能力胶囊在数据虚拟化引擎旁自动运行实时或定时执行治理规则。发现问题时自动告警和分派工单。治理结果汇总上报云端控制面治理委员会在仪表盘上查看全公司的治理状态。这是一次根本性的治理范式转变。治理委员会的角色从“审批每一件事”转变为“定义什么是对的”让治理能力胶囊去执行“检查对不对”。治理从“事后发现”变成“实时监控”——不是等季度审计时才发现问题而是在问题发生的第一时间自动发现和告警。治理从“人的管控”升级为“代码的自治”——规矩还是那些规矩但执行规矩的力量从人的意志变成了代码的强制。四、同一个需求两种治理模式让我们用一个具体场景来感受这种转变的幅度。需求是这样的业务部门新增了一个数据源“促销活动费用表”需要纳入治理体系。这张表包含促销活动编号、费用类型、金额、发生日期、录入人等字段存储在某数据面的SQL Server数据库中。[1]在DAMA模式下小陈的工作流程是这样的收到需求后她需要手工梳理所有字段——打开数据库查看表结构逐一记录字段名、数据类型、约束条件。这大约需要两天。然后她对照数据标准检查——字段命名是否符合规范值域是否在允许范围内有没有遗漏必填字段这需要一天。接着她在Excel数据字典中新增条目在数据仓库中配置质量检查规则——编写SQL脚本、设置调度频率、配置告警条件。这需要两天。最后测试规则是否生效通知下游分析团队新数据源已可用。总耗时约一周每一步都依赖小陈的个人经验和判断。如果她中途被其他紧急任务打断周期会更长。在DISC-DAMA模式下流程截然不同。数据虚拟化引擎自动发现新数据源——它持续扫描各数据面的元数据变化当发现SQL Server中新增了“促销活动费用表”时自动采集表结构、字段列表、数据量等元数据。主动元数据采集完成后系统自动与标准业务对象模型比对——识别出“金额”字段映射到标准字段“费用金额”“发生日期”映射到“费用发生日期”。治理能力胶囊随即自动执行检查——数据标准胶囊校验字段命名规范发现“录入人”字段不符合标准命名规范“数据录入人”数据质量胶囊检查完整性发现三条记录的费用类型为空数据安全胶囊评估敏感等级未发现敏感字段标记为“一般数据”。检查完成后系统自动生成整改建议精确指出三个不符合标准的字段和三条不完整的记录推送给小陈审核。小陈的工作从“手工执行”变成了“审核确认”——她查看自动生成的报告确认整改建议合理点击批准。系统自动更新数据字典自动通知下游。总耗时约两小时。同样的需求一种模式需要一周一种模式需要两小时。效率的差异不仅在于时间更在于工作性质的改变——小陈不再是一个手工操作者而是一个质量审核者和策略配置者。五、治理范式转变的深远影响这场治理范式的转变其影响远超效率提升。从“人治”到“法治”。 在DAMA的世界里数据治理的质量取决于治理经理的个人经验和责任心。小陈经验丰富治理质量就高小陈离职了治理质量就可能断崖式下降。在DISC-DAMA的世界里治理规则被固化在可执行代码中。治理能力胶囊不会遗忘、不会疲劳、不会因为换岗而丢失经验。治理质量从“依赖人”变成了“依赖代码”。从“管控”到“服务”。 在DAMA的世界里治理常常被业务部门视为“障碍”——“你们治理部门又来查我们了”、“又要填一堆表格才能用数据”。在DISC-DAMA的世界里治理能力胶囊不是给业务部门设置障碍而是自动帮他们发现问题、给出整改建议。业务部门新增一个数据源不需要自己去查数据标准手册胶囊自动告诉他们哪里不符合规范、怎么修正。治理从“你在找我麻烦”变成了“你在帮我做好”。从“集中”到“联邦”。 在DAMA的世界里治理委员会需要看到所有数据才能治理——所有数据都必须汇聚到中央平台。在DISC-DAMA的世界里治理委员会不再需要看到所有数据。治理能力胶囊在数据原地执行治理任务只将治理结果汇总上报。数据不需要离开自己的物理边界就可以被有效治理。从“被动响应”到“主动监控”。 在DAMA的世界里治理通常是“事后”的——季度审计时发现一堆质量问题然后集中整改。在DISC-DAMA的世界里治理是“实时”的——问题在发生的第一时间就被自动发现、自动告警、自动分派。治理从“救火”变成了“防火”。对于小陈这样的数据治理经理来说这场转变意味着她的工作性质将发生根本变化。她不再是一个“手工操作者”——维护Excel数据字典、编写质量检查脚本、跟进问题工单。她将变成一个“治理策略配置师”——定义治理规则、选择治理能力胶囊、审核自动生成的治理报告、处理胶囊无法自动解决的复杂问题。她的工作从“体力劳动”升级为“脑力劳动”。六、规矩还是那些规矩在DAMA的世界里数据治理是靠“人”来守规矩。规矩写在文档里执行靠人的记忆和自觉。在DISC-DAMA的世界里数据治理是靠“代码”来守规矩。规矩被封装为治理能力胶囊在数据原地自动执行执行结果自动上报异常自动告警。规矩还是那些规矩——数据标准、质量规则、安全策略。但执行规矩的力量从人的意志变成了代码的强制。从“人治”到“法治”的跃迁正是DISC-DAMA治理哲学的核心。下一篇预告《DISC-DAMA融合体系全景图11个知识领域的重构路径》——我们将以DAMA的11个知识领域为纵轴以DISC的“一个内核、三项原则、五大核心组件”为横轴绘制一张完整的重构图谱。每一个知识领域在DISC-DAMA体系中发生了什么变化新旧体系的本质差异在哪里这张全景图将为后续46篇文章提供总览导航。引用内容注释与来源说明[1] 场景与用例开篇“小陈的日常”及第四节“促销活动费用表”治理流程对比均为基于数据治理工作普遍现状的虚构典型化描写用以展示DAMA人工治理模式与DISC-DAMA自动化治理模式的差异。场景中的人物、企业及具体数据均为创作。[2] 企业数据量年增长百分之五十该数据为行业通用估算用于说明企业数据量高速增长的普遍趋势并非特定精确统计。多家市场研究机构如IDC、Gartner在相关报告中均有对企业数据量年增长率在40%-60%区间的描述。[3] DISC架构转型Data In-situ Sovereign Capability Architecture数据原位主权能力架构为本专栏原创并正在展开阐述的架构概念其核心原则、组件与理念详见本系列专栏文章。[4] “能力三元论”DISC架构理论中将流动的“能力”划分为智能能力AI模型、逻辑能力业务规则和治理能力合规策略三类。此处“治理能力胶囊”属于治理能力在数据治理领域的封装与应用。该理论详见DISC架构系列前序文章。