數(shù)字化轉(zhuǎn)型浪潮卷起各種新老概念滿天飛,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺輪番在朋友圈刷屏,有人說“數(shù)據(jù)中臺算個啥,數(shù)據(jù)湖才是趨勢”,有人說“再見了數(shù)據(jù)湖、數(shù)據(jù)倉庫,數(shù)據(jù)中臺已成氣候”……
企業(yè)還沒推開數(shù)字化大門,先被各種概念絆了一腳。那么它們3者究竟有啥區(qū)別?別急,先跟大家分享兩個有趣的比喻。
1、圖書館VS地攤
如果把數(shù)據(jù)倉庫比喻成“圖書館”,那么數(shù)據(jù)湖就是“地攤”。去圖書館借書(數(shù)據(jù)),書籍質(zhì)量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個類目、在哪個架子上,你才能精準(zhǔn)拿到自己想要的書;而地攤上沒有人會給你把關(guān),什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經(jīng)驗可復(fù)用的,偶爾多拿少拿咱們可能也不知道。
2、升級版銀行
假定數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺都是銀行,可以提供現(xiàn)金、黃金等多種服務(wù)。過去大家進(jìn)銀行前都得先問門衛(wèi),里面每個門牌上的數(shù)字對應(yīng)哪個服務(wù)呢?是現(xiàn)金還是黃金呢?然后推開對應(yīng)的門把東西取出來。而有了“數(shù)據(jù)中臺”這個銀行,大家一進(jìn)來就能看到標(biāo)著“現(xiàn)金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。
以上兩個例子不一定全面,但基本能解釋三者的優(yōu)劣勢。數(shù)據(jù)倉庫具備規(guī)范性,但取數(shù)用數(shù)流程長;數(shù)據(jù)湖取數(shù)用數(shù)更實時、存儲量大,但數(shù)據(jù)質(zhì)量難以保障;數(shù)據(jù)中臺能精準(zhǔn)快速地響應(yīng)業(yè)務(wù)需求,離業(yè)務(wù)側(cè)最近。
為了更清晰地區(qū)別三者,接下來咱們再來看看它們各自的定義以及應(yīng)用區(qū)別:
數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺概念淺析
1、數(shù)據(jù)湖是什么?
數(shù)據(jù)湖,最早由Pentaho的創(chuàng)始人兼CTO James Dixon提出,維基百科對它的定義是一類存儲數(shù)據(jù)自然/原始格式的系統(tǒng)或存儲,通常是對象塊或者文件,包括原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù)。
簡單來說,數(shù)據(jù)湖一個大型的基于對象的存儲庫,以數(shù)據(jù)的原始格式保存數(shù)據(jù)。它的顯著特點在于,像湖泊一樣沒有固定形態(tài)和邊界,能“容納”各種數(shù)據(jù),加入數(shù)據(jù)就擴(kuò)大,移除數(shù)據(jù)會縮小,靈活性和包容性很高。
2、數(shù)據(jù)倉庫是什么?
數(shù)據(jù)倉庫誕生于1990年,絕對算得上是“老前輩”了,它是一個相對具體的功能概念。目前對數(shù)據(jù)倉庫的主流定義是位于多個數(shù)據(jù)庫上的大容量存儲庫,它的作用在于存儲大量的結(jié)構(gòu)化數(shù)據(jù),并能進(jìn)行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。
需要注意的是,數(shù)據(jù)倉庫對數(shù)據(jù)格式是有要求的,只有符合標(biāo)準(zhǔn)的數(shù)據(jù)才能入庫哦。
3、數(shù)據(jù)中臺又是什么?
廣義上理解,數(shù)據(jù)中臺包含了頂層數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理體系以及數(shù)據(jù)管理及運營、數(shù)據(jù)文化培養(yǎng)和組織架構(gòu)支撐,是一套持續(xù)管理和運營的體系。
狹義上看,數(shù)據(jù)中臺是通過數(shù)據(jù)技術(shù),對海量、多源、多樣的數(shù)據(jù)進(jìn)行采集、處理、存儲、計算,統(tǒng)一標(biāo)準(zhǔn)和口徑,并以標(biāo)準(zhǔn)形式存儲,形成大數(shù)據(jù)資產(chǎn)層,以滿足前臺數(shù)據(jù)分析和應(yīng)用的需求。
單從定義來看,可以發(fā)現(xiàn)數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺三者并不是非此即彼的關(guān)系,在
數(shù)據(jù)來源、建設(shè)目標(biāo)、數(shù)據(jù)應(yīng)用幾個方面它們存在一定差異。
數(shù)據(jù)來源、建設(shè)目標(biāo)、數(shù)據(jù)應(yīng)用的差異
1、數(shù)據(jù)來源
數(shù)據(jù)湖包含原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù),包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和二進(jìn)制數(shù)據(jù)。
數(shù)據(jù)倉庫則以業(yè)務(wù)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)為主,也就是由二維表結(jié)構(gòu)來邏輯表達(dá)和實現(xiàn)的數(shù)據(jù)。
數(shù)據(jù)中臺是一套體系,既不是工具又不是存儲,它可以包含數(shù)據(jù)湖和數(shù)據(jù)倉庫。
這里做個簡單說明,具備行和列結(jié)構(gòu)的就是結(jié)構(gòu)化數(shù)據(jù),比如表格;CSV、日志、XML、JSON屬于半結(jié)構(gòu)化數(shù)據(jù);而咱們工作中最常用到的Email、文檔、PDF等,屬于非結(jié)構(gòu)化數(shù)據(jù);每天瀏覽的圖像、視頻,聽的音頻都屬于二進(jìn)制數(shù)據(jù)。

2、建設(shè)目標(biāo)
數(shù)據(jù)湖能實現(xiàn)數(shù)據(jù)的集中式管理,為企業(yè)提供全局的、統(tǒng)一的企業(yè)級數(shù)據(jù)概覽視圖,讓人人了解、分析數(shù)據(jù),提供自助式探索數(shù)據(jù)的可能。
數(shù)據(jù)倉庫則以輸出某個業(yè)務(wù)主題的BI報表和決策為主,目的性單一。
數(shù)據(jù)中臺主張打通全域數(shù)據(jù)孤島,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致的問題,釋放業(yè)務(wù)方數(shù)據(jù)應(yīng)用價值。
3、數(shù)據(jù)應(yīng)用
數(shù)據(jù)湖能結(jié)合不同的工具做數(shù)據(jù)處理和分析,不止于輸出報表,也同樣適合數(shù)據(jù)探索和發(fā)現(xiàn),能夠為企業(yè)挖掘新的運營需求。
數(shù)據(jù)倉庫主要針對管理決策等分析類場景,在其他方面則存在局限性,比如數(shù)據(jù)建模、數(shù)據(jù)追蹤與探查、深度挖掘等。
數(shù)據(jù)中臺通過將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),在數(shù)據(jù)應(yīng)用上不僅限于分析型場景,也適用于交易類場景,比如營銷推薦、風(fēng)險評估等。

總體來說,數(shù)據(jù)中臺是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價值的過程的中間層,可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)湖之上。
至于企業(yè)處于什么階段建數(shù)據(jù)倉庫、什么階段建數(shù)據(jù)湖、什么階段建數(shù)據(jù)中臺,還得看企業(yè)現(xiàn)階段的具體情況,比如數(shù)據(jù)量、數(shù)據(jù)分析維度及要求、數(shù)據(jù)應(yīng)用場景、預(yù)算等等,總之只有把工具和需求匹配起來,才能真正解決企業(yè)業(yè)務(wù)訴求。






