大家好,欢迎来到”时久读书”,我是时久。今天开始我们开始学习一本有关“大数据建设”的书,书名叫《大数据实践之路》。
“大数据”这个概念其实大部分人都不陌生,现在的每天使用互联网的人估计每个人都能说几句自己对于大数据的理解,但真正了解大数据价值,掌握如何建设大数据能力的人估计就寥寥无几了。希望通过本书的学习,可以使有兴趣的书友,了解如何建设“数据中台”,如何建设自己的“数据应用”,沉淀自己的“数据资产”。
今天这第一篇分享,先来看一下“数据应用”到底能对我们有什么价值。
数据应用的价值
对于做数据和应用数据的人来说,谈到数据应用价值,就类似于人类的终极问题:你从哪里来,要到哪里去。这是所有数据从业者都要面临并且需要回答的问题。大家都灰像思考人生一样来思考数据的价值,以及数据真正能够给业务带来哪些应用价值。
说到大数据应用,大部分都会想到“数据中台“。起初“数据中台”是作为一套架构理论和指导思想被提出的,但是经过多年的摸索和实践,数据中台在业内已经逐渐演变成一个完整的系统性工程,在组织架构、数据架构、技术选型、流程规范等方面都具有明确的设计思路与执行细节。
我们目前在企业建设数据中台的主要目的是解决企业在发展的过程中,由于数据激增与业务的扩大而出现的统计口径不一致、重复开发、指标开发需求响应慢、数据质量低、数据成本高等问题。
企业希望通过开发一系列数据工具(元数据中心、数据指标中心、数仓模型中心、数据资产中心、数据服务中心),规范数据供应链的各个环节,以一种标准的、安全的、统一的、共享的、服务化的方式支撑前端的数据应用。
图1-1数据中台系统结构“数据中台”产品化,是指通过自助数据分析平台来提高数据的获取效率,让企业的业务方自己完成数据的获取,而不用再耗费研发资源,这样可以进一步释放研发部门的人力,从而可以将更多的资源放在数据建设上。
“数据中台”不断完善底层数据质量建设和基础建设,完成数据的模型设计,在数据生产环节,既可以快速地满足业务方的数据需求,又能满足数据分析师使用数据的诉求。
数据质量
定性的角度来看,数据质量的衡量方式涉及如下几个方向,包括数据的完整性、数据的准确性、数据的一致性、数据的规范性及数据的时效性等。
数据的完整性要求业务涉及的数据是完整的,能够对业务造成很大影响的数据都要保持一定的完整性。数据的完整性体现了数据的质量,只有基于更多完整的数据,才能发现更多的信息,实现多场景探索和更大价值的挖掘。
数据的准确性要求数据是准确无误的,且在精度上能满足业务的需求;数据的准确性反映数据值和真实值之间的差距,即误差,误差越大,准确性越低。
数据的一致性要求同一个指标的口径要一致,不能有二义性;数据的一致性是数据部门经常面临的一个问题,从不同出口出来的数据不一致,导致用户不知道以哪一份数据为准,从而怀疑数据的质量,并对数据部门产生不信任感。
数据的规范性要求数据是被有效组织的,并且能够被高效地获取;数据的规范性要求数据被按照统一的格式存储、被有效组织,并且能被高效地获取。例如,数据仓库,通过规范表的命名、表的注释等,可以让数据被更有组织地管理,后续也能被高效地获取和使用。
数据的时效性要求业务数据都是最新的,而不是无效的过期数据。数据的时效性要求数据能够被及时产出。
数据质量很重要,千万不要小看数据质量的问题,它是一切数据建设和数据产品化的基础。
很多企业开始采用“业务先发展,数据后治理”的思路,导致后期做数据治理的成本极高,甚至到了数据质量影响业务发展,最后根本不能沉淀出可用的“数据资产”,导致企业不得不把前期建设的数据平台推倒重来,这样是对时间成本和人力成本造成极大的浪费。
估计大家会猜这些缺少数据治理的可能都是中小公司,其实不然。我接触过的不少看起来大的公司,甚至是头部的高科技公司,内部的数据治理一样非常落后。没有好的数据治理,所有数据产品与数据中台都仅是空中楼阁。
今天就分享到这里,明天继续本书的学习。如果您觉得时久的读书笔记还不错,可以加入