萬字詳解數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺和湖倉一體
本文目錄:
一、前言
二、概念解析
1.?dāng)?shù)據(jù)倉庫
2.?dāng)?shù)據(jù)湖
3.?dāng)?shù)據(jù)中臺
三、具體區(qū)別
1.?dāng)?shù)據(jù)倉庫 VS 數(shù)據(jù)湖
2.?dāng)?shù)據(jù)倉庫 VS 數(shù)據(jù)中臺
3.總結(jié)
四、湖倉一體
1.目前數(shù)據(jù)存儲方案
2.Data Lakehouse(湖倉一體)
一、前言
數(shù)字化轉(zhuǎn)型浪潮卷起各種新老概念滿天飛,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺輪番在朋友圈刷屏,有人說“數(shù)據(jù)中臺算個啥,數(shù)據(jù)湖才是趨勢”,有人說“再見了數(shù)據(jù)湖、數(shù)據(jù)倉庫,數(shù)據(jù)中臺已成氣候”……
企業(yè)還沒推開數(shù)字化大門,先被各種概念絆了一腳。那么它們 3 者究竟有啥區(qū)別?別急,先跟大家分享兩個有趣的比喻。
1、圖書館VS地攤
如果把數(shù)據(jù)倉庫比喻成“圖書館”,那么數(shù)據(jù)湖就是“地攤”。去圖書館借書(數(shù)據(jù)),書籍質(zhì)量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個類目、在哪個架子上,你才能精準(zhǔn)拿到自己想要的書;而地攤上沒有人會給你把關(guān),什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經(jīng)驗可復(fù)用的,偶爾多拿少拿咱們可能也不知道。
2、升級版銀行
假定數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺都是銀行,可以提供現(xiàn)金、黃金等多種服務(wù)。過去大家進(jìn)銀行前都得先問門衛(wèi),里面每個門牌上的數(shù)字對應(yīng)哪個服務(wù)呢?是現(xiàn)金還是黃金呢?然后推開對應(yīng)的門把東西取出來。而有了“數(shù)據(jù)中臺”這個銀行,大家一進(jìn)來就能看到標(biāo)著“現(xiàn)金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。
以上兩個例子不一定全面,但基本能解釋三者的優(yōu)劣勢。數(shù)據(jù)倉庫具備規(guī)范性,但取數(shù)用數(shù)流程長;數(shù)據(jù)湖取數(shù)用數(shù)更實時、存儲量大,但數(shù)據(jù)質(zhì)量難以保障;數(shù)據(jù)中臺能精準(zhǔn)快速地響應(yīng)業(yè)務(wù)需求,離業(yè)務(wù)側(cè)最近。
為了更清晰地區(qū)別三者,接下來咱們再來看看它們各自的定義以及應(yīng)用區(qū)別。
二、概念解析
1. 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫誕生于 1990 年,絕對算得上是“老前輩”了,它是一個相對具體的功能概念。目前對數(shù)據(jù)倉庫的主流定義是位于多個數(shù)據(jù)庫上的大容量存儲庫,它的作用在于存儲大量的結(jié)構(gòu)化數(shù)據(jù),并能進(jìn)行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。
具體定義:
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),分析出有價值的資訊。
所謂主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
所謂集成:是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。
所謂隨時間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時點到當(dāng)前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
數(shù)據(jù)倉庫的作用:
數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/p>
是面向企業(yè)中、高級管理進(jìn)行業(yè)務(wù)分析和績效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;
是主要用于歷史性、綜合性和深層次數(shù)據(jù)分析;
數(shù)據(jù)來源是ERP(例:SAP)系統(tǒng)或其他業(yè)務(wù)系統(tǒng);
能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析;
不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù);
實時數(shù)倉
實時數(shù)倉和離線數(shù)倉非常的像,誕生的背景主要是近幾年企業(yè)對于數(shù)據(jù)服務(wù)的實時性需求日益增多。里面的數(shù)據(jù)模型也會像中臺一樣分好幾層:ODS 、CDM、ADS。但整體對于實時性要求極高,因此一般存儲會考慮采用Kafka這種log base的MQ,而計算引擎會采用Flink這種流計算引擎。
2. 數(shù)據(jù)湖
數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲、處理、分析的基礎(chǔ)設(shè)施,它就像一個大型倉庫存儲企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強(qiáng)大的信息處理能力和處理幾乎無限的并發(fā)任務(wù)或工作的能力。
數(shù)據(jù)湖從企業(yè)的多個數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級應(yīng)用。結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。
進(jìn)入互聯(lián)網(wǎng)時代,有兩個最重要的變化。
一個是數(shù)據(jù)規(guī)模前所未有,一個成功的互聯(lián)網(wǎng)產(chǎn)品日活可以過億,就像你熟知的頭條、抖音、快手、網(wǎng)易云音樂,每天產(chǎn)生幾千億的用戶行為。傳統(tǒng)數(shù)據(jù)倉庫難于擴(kuò)展,根本無法承載如此規(guī)模的海量數(shù)據(jù)。
另一個是數(shù)據(jù)類型變得異構(gòu)化,互聯(lián)網(wǎng)時代的數(shù)據(jù)除了來自業(yè)務(wù)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),還有來自 App、Web 的前端埋點數(shù)據(jù),或者業(yè)務(wù)服務(wù)器的后端埋點日志,這些數(shù)據(jù)一般都是半結(jié)構(gòu)化,甚至無結(jié)構(gòu)的。傳統(tǒng)數(shù)據(jù)倉庫對數(shù)據(jù)模型有嚴(yán)格的要求,在數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫前,數(shù)據(jù)模型就必須事先定義好,數(shù)據(jù)必須按照模型設(shè)計存儲。
所以,數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的限制,導(dǎo)致傳統(tǒng)數(shù)據(jù)倉庫無法支撐互聯(lián)網(wǎng)時代的商業(yè)智能。
05年的時候,Hadoop誕生了。Hadoop 相比傳統(tǒng)數(shù)據(jù)倉庫主要有兩個優(yōu)勢:
完全分布式,易于擴(kuò)展,可以使用價格低廉的機(jī)器堆出一個計算、存儲能力很強(qiáng)的集群,滿足海量數(shù)據(jù)的處理要求;
弱化數(shù)據(jù)格式,數(shù)據(jù)被集成到 Hadoop 之后,可以不保留任何數(shù)據(jù)格式,數(shù)據(jù)模型與數(shù)據(jù)存儲分離,數(shù)據(jù)(包含了原始數(shù)據(jù))在被使用的時候,可以按照不同的模型讀取,滿足異構(gòu)數(shù)據(jù)靈活分析的需求。而數(shù)倉更加關(guān)注可以作為事實依據(jù)的數(shù)據(jù)。
隨著Hadoop與對象存儲的成熟,數(shù)據(jù)湖的概念在10年被提出:數(shù)據(jù)湖(Data Lake)是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)(這意味著數(shù)據(jù)湖的底層不應(yīng)該與任何存儲耦合)。
對應(yīng)的來說,如果數(shù)據(jù)湖沒有被治理好(缺乏元數(shù)據(jù)、定義數(shù)據(jù)源、制定數(shù)據(jù)訪問策略和安全策略,并移動數(shù)據(jù)、編制數(shù)據(jù)目錄),則會變成數(shù)據(jù)沼澤。
而從產(chǎn)品形態(tài)上來說,數(shù)倉往往是獨(dú)立標(biāo)準(zhǔn)化的產(chǎn)品。而數(shù)據(jù)湖更像是一種架構(gòu)指導(dǎo)——需要配合一系列的周邊工具,來實現(xiàn)業(yè)務(wù)需要的數(shù)據(jù)湖。
3. 數(shù)據(jù)中臺
大規(guī)模數(shù)據(jù)的應(yīng)用,也逐漸暴露出現(xiàn)一些問題。
業(yè)務(wù)發(fā)展前期,為了快速實現(xiàn)業(yè)務(wù)的需求,煙囪式的開發(fā)導(dǎo)致企業(yè)不同業(yè)務(wù)線,甚至相同業(yè)務(wù)線的不同應(yīng)用之間,數(shù)據(jù)都是割裂的。兩個數(shù)據(jù)應(yīng)用的相同指標(biāo),展示的結(jié)果不一致,導(dǎo)致運(yùn)營對數(shù)據(jù)的信任度下降。如果你是運(yùn)營,當(dāng)你想看一下商品的銷售額,發(fā)現(xiàn)兩個報表上,都叫銷售額的指標(biāo)出現(xiàn)了兩個值,你的感受如何? 你第一反應(yīng)肯定是數(shù)據(jù)算錯了,你不敢繼續(xù)使用這個數(shù)據(jù)了。
數(shù)據(jù)割裂的另外一個問題,就是大量的重復(fù)計算、開發(fā),導(dǎo)致的研發(fā)效率的浪費(fèi),計算、存儲資源的浪費(fèi),大數(shù)據(jù)的應(yīng)用成本越來越高。
如果你是運(yùn)營,當(dāng)你想要一個數(shù)據(jù)的時候,開發(fā)告訴你至少需要一周,你肯定想是不是太慢了,能不能再快一點兒?
如果你是數(shù)據(jù)開發(fā),當(dāng)面對大量的需求的時候,你肯定是在抱怨,需求太多,人太少,活干不完。
如果你是一個企業(yè)的老板,當(dāng)你看到每個月的賬單成指數(shù)級增長的時候,你肯定覺得這也太貴了,能不能再省一點,要不吃不消了。
這些問題的根源在于,數(shù)據(jù)無法共享。2016 年,阿里巴巴率先提出了“數(shù)據(jù)中臺”的口號。數(shù)據(jù)中臺的核心,是避免數(shù)據(jù)的重復(fù)計算,通過數(shù)據(jù)服務(wù)化,提高數(shù)據(jù)的共享能力,賦能數(shù)據(jù)應(yīng)用。之前,數(shù)據(jù)是要啥沒啥,中間數(shù)據(jù)難于共享,無法積累,F(xiàn)在建設(shè)數(shù)據(jù)中臺之后,要啥有啥,數(shù)據(jù)應(yīng)用的研發(fā)速度不再受限于數(shù)據(jù)開發(fā)的速度,一夜之間,我們就可以根據(jù)場景,孵化出很多數(shù)據(jù)應(yīng)用,這些應(yīng)用讓數(shù)據(jù)產(chǎn)生價值。
數(shù)據(jù)中臺樣板
在建設(shè)中臺的過程中,一般強(qiáng)調(diào)這樣幾個重點:
效率、質(zhì)量和成本是決定數(shù)據(jù)能否支撐好業(yè)務(wù)的關(guān)鍵,構(gòu)建數(shù)據(jù)中臺的目標(biāo)就是要實現(xiàn)高效率、高質(zhì)量、低成本。
數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺的核心,本質(zhì)上是要實現(xiàn)公共計算邏輯的下沉和復(fù)用。
如果你的企業(yè)擁有 3 個以上的數(shù)據(jù)應(yīng)用場景,數(shù)據(jù)產(chǎn)品還在不斷研發(fā)和更新,你必須要認(rèn)真考慮建設(shè)數(shù)據(jù)中臺。
那么接下來就看一下阿里巴巴對于數(shù)據(jù)中臺的實踐。
正如上述提到的數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺的核心,本質(zhì)上是要實現(xiàn)公共計算邏輯的下沉和復(fù)用。阿里數(shù)據(jù)中臺提到了各種one思想,如:
OneData:公共數(shù)據(jù)只保存一份OneService:通過一個服務(wù)接口進(jìn)行暴露

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單