DataLake

2023-09-09

DataLake

要讲明白DataLake,也就是数据湖,首先我们要先理解数据的存在形式。

我们现在经常讲“要让数据从业务中来,到业务中去”,所有从业务中来的数据,如果按照Pareto Principle来划分,那80%会是非结构化的数据,剩下的20%可能才是我们经常用的结构化数据。

非结构化数据和结构化数据怎么区分? 福强老师觉得用原材料和预先制造好的零件来比喻比较合适,我们用数据仓库来堆放、处理和使用预制零件,也就是结构化数据,数据湖则用来堆放、处理和使用原材料型数据,也就是非结构化数据。 再粗俗一点儿,数据湖可以认为就是个大堆放场,要用什么,要从中提取什么有价值的数据的时候,才来找他。 而提取和提炼,就用到了各种分布式计算框架,比如传统的Hadoop,Spark以及新一代的Flink这些。

数据湖最早的产品是DataBrick公司(也是创造Spark框架公司)推出的DeltaLake,后面的故事大家就都知道了,各大云厂商也陆续推出了数据湖产品。

至于为什么要“湖仓一体”,那是因为只有把非结构化数据和结构化数据融为一体,数据才是真正完整的。