大数据的14个基础概念,你知道几个?大白话教你搞明白

某君请领导吃饭,领导婉拒,他本想回“好的”。却回成了“X的”,结果,他失业时才三十多岁!

这种笑话很“低级”,但在我们生活中,因“一字之差”而引起的误会、误解、笑话、甚至风波却时有发生。有的“一字之差”是粗心、疏忽导致,有的“一字之差”是对名词不理解或没理解透的滥用导致。

数据领域中,也有一些概念、名词术语,常常让人感到头痛:“水果蛋糕”和“水果味蛋糕”傻傻分不清!

下面谈一谈我的一些理解。

一、数据治理、数据管理、数据管控

数据治理、数据管理、数据管控这三个名词在一定程度上的确是有所重叠的,容易混为一谈,所以就造成了在实际使用中,经常将这三个词语“混着用”、“随机用”的现象。

如果要用一个模型来描述数据治理、数据管理、数据管控这三个名词,那应该是一个“金字塔”模型。

大数据的14个基础概念,你知道几个?大白话教你搞明白

 

最顶层的应该是数据治理,因此,数据治理应该是企业顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,指明数据管理过程中哪些决策要被制定,以及由“谁”来负责,更强调组织模式、职责分工和标准规范。

数据管理是实现数据治理提出的决策并给予反馈,强调管理流程和制度,涵盖不同的管理领域,诸如:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理、数据认责管理、数据服务管理等。

数据管控更多的是执行层面,是具体的如何落地执行所涉及的各种措施,例如:数据建模、数据抽取、数据处理、数据加工、数据分析等。

二、元数据、数据元、数据源、源数据

元数据、数据元、数据源、源数据,这几意思毫不相干却都带着一个“yuan”词语,让很多初学者抓狂。

大数据的14个基础概念,你知道几个?大白话教你搞明白

 

先说数据元,例如,联系人方式中的联系人姓名就是就可以理解为一个数据元素,姓名为数据元的对象,“张三”为数据元的值。

元数据,用哲学的思维理解元数据的话,元数据其实解决的是:我是谁,我在哪里,我从哪里来,我要到哪里去的问题。

  • 数据是物料,而元数据是仓库里的物料卡片;
  • 数据是文件夹,而元数据是夹子上的标签;
  • 数据是书,元数据是图书馆中的图书卡。

10年前我们讲数据源,更多的是说一种数据连接的技术,比如:JDBC、ODBC,或者是指数据库的类型,比如:结构化数据库、非结构化数据库。

大数据的14个基础概念,你知道几个?大白话教你搞明白

 

而大数据时代,数据呈多样化发展,数据来源的多样化是时代的一个特征。

三、数据模型、数据结构、数据字典

数据是描述事物的符号记录,模型是现实世界的抽象,数据模型是数据特征的抽象和描述。

就如楼盘模型描述楼盘,户型模型描述房子一样,数据模型是用来描述数据的一组简单易懂便于计算机实现的符号的集合。

再说数据结构,如果还拿房子举例的话,我认为说户型模型或者户型结构都是没有问题的。

目前的实际使用中对数据字典有两种不同的说法或用法。

一种说法是:在软件工程中,数据字典是作为分析阶段的工具,供人查询对不了解的条目的解释,例如:描述某个数据表中都包含了哪些数据项,某个数据项的业务含义是什么等。

另外一个说法是:对基础数据参照的管理,我们还拿房子举例,一个房子的数据字典,包括,房屋的朝向;房屋的户型;房屋的性质等。

大数据的14个基础概念,你知道几个?大白话教你搞明白

 

四、数据仓库、数据湖、数据工厂、数据中台

数据仓库是需要事先定义好数据结构,然后是报表取数。而大数据的发展,数据形式越发多样化,传统数仓这种定义数据结构、取数、出表的模式,已经很难满足业务上的需求了。

因此,数据湖以原始格式存储各种类型数据,以及按需进行数据结构化处理、数据清理、提供数据服务,以更加灵活的方式支持多种应用场景的能力越来越受到人们的欢迎。

关于数据仓库和数据湖,看《有了数据湖,距离数据仓库消失还有几年? 》

再来说说这个数据工厂。前边提到的数据仓库和数据湖,重点侧重于数据的存储,本质上是“原材料”的存储系统,而要让数据发挥价值,就必须将这个“原材料”需要加工成用户需要的“产品”。

数据工厂就是根据用户的需求,将原始数据进行加工、处理、清洗、转换、汇总等各种加工工序,生产出能够被用户直接使用的数据产品。数据工厂包含了多种数据处理的工具,以满足不同处理工序的作业需要,例如:数据源连接、数据同步、数据清洗、数据转换、数据工作流、数据目录、数据服务等等。

最后,再说说数据中台,尽管之前的文章已经说过很多次了。其实,如果从功能构件上来讲,我认为:数据中台就是数据湖+数据工厂的一个综合。但不同的是数据中台更注重数据应用,离业务更近,强调一个快速敏捷

大数据的14个基础概念,你知道几个?大白话教你搞明白

 

数据中台不仅关注原始数据的存储及处理加工,更侧重将数据处理过程中,常用的逻辑、算法、标签、模型进行沉淀,而形成一系列的“数据半成品”,然后根据前台业务的需要,快速生产出用户需要的“数据产品”。数据中台能力强弱,要看这个“数据半成品”积累的多少了。

在数据生产的整个链条中,对于如何筑湖、如何选址建厂、按什么工序加工、以及如何配送,这是技术部门的事情,而“数据半成品”的沉淀和积累,却不是技术能决定的了。因此,数据中台的建设更强调需求驱动、业务主导。

以上就是大数据的各种概念。

已标记关键词 清除标记