來源:北大青鳥總部 2020年12月01日 13:29
隨著互聯網的快速發展,越來越多的人涌進互聯網,通過瀏覽器、智能終端、各種設備,產生了海量的數據,同時也產生了很多數據的概念,如數據庫、數據倉庫、數據湖、數據集市、數據中臺等,這些概念相互交錯,互相關聯。對于它們分別是什么,又怎么使用,彼此之間的關系又怎么樣?今天一篇文章就能給你整明白。
數據庫,本質上是一個二維關系存儲系統,存儲結構化數據,比如某學校的學生信息表、某年級的學生成績表等。它因為使用簡單,結構化程度高,極大的促進了互聯網的發展。它包含操作性數據庫和分析型數據庫兩類。
所謂操作型數據庫,主要是針對一個“事務”型操作而言,用于支持日常業務,比如購買商品、點外賣、打滴滴等。
所謂分析型數據庫,主要是對歷史數據進行分析,比如分析某商品的銷售量、某店的訂單量、某師傅的車訂單量等。
由于操作型數據庫寫多查少、數據動態變化、存儲時間要求不高等特點,它注定與分析型數據庫不會是同一個數據庫,分析型數據庫寫少查多、數據基本穩定、存儲時間長。隨著我們對分析數據的要求變高,我們希望看到更多維度的分析,傳統的分析型數據庫的支持就變得很難了,比如我們想看淘寶某店家的披薩在什么情況下最好銷售,這時候需要披薩信息表、訂單銷售表、消費者信息表、中國天氣表等多個表聯同起來,才能分析出在什么天氣、什么地理位置、什么口味、什么價格的時候最好售賣,因此數據倉庫應運而生。
數據倉庫,本質上是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,是比數據庫范圍更大的庫。所謂面向主題,它指的是數據倉庫內的信息按照某個主題進行聚合,比如地區、成本、商品、收入、利潤等等;所謂集成的,它指的是可以把不同數據庫中的數據都匯聚在一起;所謂相對穩定的,它指的是數據倉庫的數據不會像操作型數據庫那樣經常變化;所謂反映歷史變化,它指的是數據倉庫內的信息不只是反映企業當前情況,還可以記錄分析從過去某一個時間點到現在的變化。
在數據倉庫的發展及探索過程中,還出現了數據集市、商業智能BI的概念。所謂數據集市,它是一個小型的數據倉庫,只關注某一個主題,比如只關注成本,那么它就會只收錄成本相關的數據,數據來源可以是自己的源數據庫,也可以從數據倉庫中獲取某一主題的數據;所謂商業智能,則是運營分析數據的進階,通過數據倉庫獲取到了分析型數據后,BI人員會結合業務現況、市場現況、分析數據對當下的業務做一個判斷,提供老板決策。
數據湖,它是一個比數據倉庫更大、對于數據也沒有任何限制的大型倉庫,里面的數據像湖水一樣可以自然流動,數據可以供存儲、處理、分析。在數據湖中,存儲的數據沒有經過任何的處理,是直接從源系統導入的數據,它包含結構化數據、非結構化數據、半結構化數據,范圍非常廣,也是數據倉庫的數據來源。此外,它還用于機器學習、預測分析、信息追蹤等場景,提供海量的數據供科學家們進行模型訓練、在某個領域做推薦引擎。數據倉庫和數據湖的區別可見下表所示。
數據中臺,本質上是服務于業務的數據分析系統,它從一出生開始就是為業務而生。數據倉庫提供的是統計分析、單領域維度、被動分析、非實時分析,必然不能滿足企業的多維度分析、主動分析、預測分析、實時分析、多元化分析等場景,因此數據中臺應運而生。整個數據中臺產品就是一個閉環的解決方案,不再是業務過程中的一環,它包含數據埋點、數據接入標準化、數據倉庫抽象化、數據治理、數據服務五大模塊,打通了人、物、場多個維度,更好的為前臺去服務。此外在數據中臺的建設中,企業組織文化也非常重要,它需要聯動各個業務線去接入這套系統,標準化治理與管理,但在數據倉庫的建設過程是不需要關注這一層次的。因此數據中臺是數據倉庫的又一次質的飛躍。
數據庫、數據湖、數據倉庫、數據集市、數據中臺都是我們在不同階段結合不同需求對數據的處理解決方案,并不是說哪一個方案就過時了,每一個方案到現在都有它存在使用的場景,我們結合自己的訴求進行對應的建設即可~