來源:北大青鳥總部 2021年01月18日 09:11
自互聯網進入大數據時代后,涌現了非常多的數據解決方案。最早火起來的是數據庫,后來又是數據倉庫、數據湖,再再后來是數據中臺,現在數據湖又火起來了。站在數據時代的當前風口,各大云廠商如亞馬遜Amazon、阿里、微軟都在紛紛基于數據湖輸出解決方案;
各大互聯網企業也在基于開源數據湖、計算引擎等搭建自己的企業級數據湖。那么數據湖到底是什么?和數據倉庫數據中臺又有什么區別?現有的數據湖解決方案又有哪些呢?我們一起來看看~
數據湖是一個可以存儲各種各樣原始數據的大型數據倉庫。它可以存儲任意類型的數據,包含非結構化數據(如傳感器數據)、結構化數據(如關系型數據庫Mysql產生的行列數據)、半結構化數據(如XML數據、JSON數據)、二進制數據(如音頻視頻);它可以做數據生命周期管理,除了存儲原始數據外,還可以存儲數據處理(比如流處理、批處理)之后的數據;它可以支持多樣的分析場景,比如數據倉庫分析、實時分析、商業智能分析、機器學習。
數據湖、數據倉庫、數據中臺又有什么區別呢?從名字上就可以看出一二。所謂數據湖,就是存放數據的湖,湖水是流動的,能接受其它江河湖海流過來的水,又再流出去,也就是說在數據湖中可以存儲一切的數據,不做任何處理;所謂數據倉庫,就是存放數據的倉庫,那必然是有要求和目的,也就是說在數據倉庫中對數據格式有要求,符合標準的數據才能入庫,而且建立數據倉庫是有目的的,比如面向成本、面向銷售額進行分析;所謂數據中臺,一看就是阿里提出的概念相符合的,中臺作為前臺和后臺的一部分,是賦能業務的,為業務提供數據能力。
那么一個具體的數據湖系統是什么樣呢?抽象