数据治理(Data Governance)的边界非常的宽泛,通常会把数据的定义、存储方式、使用规范、数据安全策略、数据质量等等都包括在其中。治理是一个很官僚化的术语,流程、评审、审计、规范这些令人昏昏欲睡的东西,构成了数据治理的常规手段和工具。因此,数据技术团队往往对“数据治理”有些抗拒,而数据治理团队往往觉得工作低效不好玩,吃力不讨好。因此,对于数据治理团队而言,我们除了要治理数据体系,提升其运转效率;还要把工作变得高效而精彩。
为什么要做数据治理?
随着业务的快速发展,数据开发任务也会井喷式的增长,再加上大数据的服务链路是非常复杂多变的,涉及到收集、存储、访问、计算、数据加工、数据挖掘、对外服务等等场景。随着数据规模、数据结构、使用场景随时的变化,特别在互联网公司,开发效率优先的工作模式下,数据体系的快速腐化是不可避免的。数据体系的快速腐化最终又会影响开发效率,甚至影响整个公司的决策效率。
图一是网易严选数据技术体系,我们可以看到,数据从业务系统(业务日志/数据库)产生,经过数据的同步和集成,再经过数据开发的加工和整理,最后再被数据产品/算法/BI等服务和应用使用,整个链路非常长并且会依赖许多消息服务/计算/存储/任务调度/资源调度等服务和组件。
所以在网易严选,我们任务数据治理是贯穿整个数据生命周期的,而数据在整个生命周期所依赖的数据服务也是在数据治理的范畴之内,数据治理的目的是为了保障数据稳定高质地进行生产,并推进整体的资源优化,主要包括两个部分:
Comments