萬(wàn)字詳解數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)和湖倉(cāng)一體
三、具體區(qū)別
1. 數(shù)據(jù)倉(cāng)庫(kù) VS 數(shù)據(jù)湖
相較而言,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲(chǔ)任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會(huì)接受數(shù)據(jù)治理,但專家們一致認(rèn)為良好的數(shù)據(jù)管理對(duì)預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。
2. 數(shù)據(jù)倉(cāng)庫(kù) VS 數(shù)據(jù)中臺(tái)
數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)的數(shù)據(jù)平臺(tái),其出發(fā)點(diǎn)為一個(gè)支撐性的技術(shù)系統(tǒng),即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么,因此特別強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺(tái)的第一出發(fā)點(diǎn)不是數(shù)據(jù)而是業(yè)務(wù),一開(kāi)始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務(wù)問(wèn)題需要什么樣的數(shù)據(jù)服務(wù)。
在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺(tái)中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。
3. 總結(jié)
根據(jù)以上數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的概念論述和對(duì)比,我們進(jìn)行如下總結(jié):
數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖沒(méi)有直接的關(guān)系;
數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖在某個(gè)維度上為業(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重;
數(shù)據(jù)中臺(tái)是企業(yè)級(jí)的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)相對(duì)具體的功能概念,是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表;
數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開(kāi)發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);
數(shù)據(jù)倉(cāng)庫(kù)是為了支持管理決策分析,而數(shù)據(jù)中臺(tái)則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場(chǎng)景,也適用于交易型場(chǎng)景;
數(shù)據(jù)中臺(tái)可以建立在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)平臺(tái)之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過(guò)程的中間層。
四、湖倉(cāng)一體
有人說(shuō)“湖倉(cāng)一體成為下一站燈塔,數(shù)倉(cāng)、數(shù)據(jù)湖架構(gòu)即將退出群聊”。
2020年,大數(shù)據(jù)DataBricks公司首次提出了湖倉(cāng)一體(Data Lakehouse)概念,希望將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)合而為一,此概念一出各路云廠商紛紛跟進(jìn)。
Data Lakehouse(湖倉(cāng)一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時(shí)吸收了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì),數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個(gè)數(shù)據(jù)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行操作,同時(shí)它也能為公司進(jìn)行數(shù)據(jù)治理帶來(lái)更多的便利性。
1. 目前數(shù)據(jù)存儲(chǔ)的方案
一直以來(lái),我們都在使用兩種數(shù)據(jù)存儲(chǔ)方式來(lái)架構(gòu)數(shù)據(jù):
數(shù)據(jù)倉(cāng)庫(kù):主要存儲(chǔ)的是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、整合以及清理,并導(dǎo)入到目標(biāo)表中。在數(shù)倉(cāng)中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。
數(shù)據(jù)湖:存儲(chǔ)任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲(chǔ)成本也更為廉價(jià)。存儲(chǔ)其中的數(shù)據(jù)不需要滿足特定的schema,數(shù)據(jù)湖也不會(huì)嘗試去將特定的schema施行其上。相反的是,數(shù)據(jù)的擁有者通常會(huì)在讀取數(shù)據(jù)的時(shí)候解析schema(schema-on-read),當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí),將轉(zhuǎn)換施加其上。
現(xiàn)在許多的公司往往同時(shí)會(huì)搭建數(shù)倉(cāng)、數(shù)據(jù)湖這兩種存儲(chǔ)架構(gòu),一個(gè)大的數(shù)倉(cāng)和多個(gè)小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲(chǔ)中就會(huì)有一定的冗余。
2. Data Lakehouse(湖倉(cāng)一體)
Data Lakehouse的出現(xiàn)試圖去融合數(shù)倉(cāng)和數(shù)據(jù)湖這兩者之間的差異,通過(guò)將數(shù)倉(cāng)構(gòu)建在數(shù)據(jù)湖上,使得存儲(chǔ)變得更為廉價(jià)和彈性,同時(shí)lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在lakehouse的構(gòu)建中,ETL起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉(cāng)層結(jié)構(gòu)化的數(shù)據(jù)。
下面詳細(xì)解釋下:
湖倉(cāng)一體(Data Lakehouse):
依據(jù)DataBricks公司對(duì)Lakehouse 的定義:一種結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)勢(shì)的新范式,解決了數(shù)據(jù)湖的局限性。Lakehouse 使用新的系統(tǒng)設(shè)計(jì):直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。
解釋拓展:
湖倉(cāng)一體,簡(jiǎn)單理解就是把面向企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與數(shù)據(jù)湖存儲(chǔ)技術(shù)相結(jié)合,為企業(yè)提供一個(gè)統(tǒng)一的、可共享的數(shù)據(jù)底座。
避免傳統(tǒng)的數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)移動(dòng),將原始數(shù)據(jù)、加工清洗數(shù)據(jù)、模型化數(shù)據(jù),共同存儲(chǔ)于一體化的“湖倉(cāng)”中,既能面向業(yè)務(wù)實(shí)現(xiàn)高并發(fā)、精準(zhǔn)化、高性能的歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的查詢服務(wù),又能承載分析報(bào)表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務(wù)。
湖倉(cāng)一體方案的出現(xiàn),幫助企業(yè)構(gòu)建起全新的、融合的數(shù)據(jù)平臺(tái)。通過(guò)對(duì)機(jī)器學(xué)習(xí)和AI算法的支持,實(shí)現(xiàn)數(shù)據(jù)湖+數(shù)據(jù)倉(cāng)庫(kù)的閉環(huán),提升業(yè)務(wù)的效率。數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的能力充分結(jié)合,形成互補(bǔ),同時(shí)對(duì)接上層多樣化的計(jì)算生態(tài)。
Lakehouse有如下關(guān)鍵特性:
事物支持:Lakehouse 在企業(yè)級(jí)應(yīng)用中,許多數(shù)據(jù)管道通常會(huì)同時(shí)讀取和寫(xiě)入數(shù)據(jù)。通常多方同時(shí)使用 SQL 讀取或?qū)懭霐?shù)據(jù),Lakehouse 保證支持ACID事務(wù)的一致性。
模式實(shí)施和治理:Lakehouse 應(yīng)該有一種支持模式實(shí)施和演變的方法,支持 DW 模式規(guī)范,例如 star /snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機(jī)制。
BI支持:Lakehouse 可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少陳舊度和等待時(shí)間,提高新近度,并且降低必須在數(shù)據(jù)湖和倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。
存儲(chǔ)與計(jì)算分離:事實(shí)上,這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的群集,因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)也具有這種屬性。
兼容性:Lakehouse 使用的存儲(chǔ)格式是開(kāi)放式和標(biāo)準(zhǔn)化的,例如 Parquet,并且它提供了多種 API,包括機(jī)器學(xué)習(xí)和 Python/R 庫(kù),因此各種工具和引擎都可以直接有效地訪問(wèn)數(shù)據(jù)。
支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型:Lakehouse 可用于存儲(chǔ),優(yōu)化,分析和訪問(wèn)許多新數(shù)據(jù)應(yīng)用程序所需的數(shù)據(jù)類型,包括圖像,視頻,音頻,半結(jié)構(gòu)化數(shù)據(jù)和文本。
支持各種工作場(chǎng)景:包括數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí)和 SQL 分析。這些可能依賴于多種工具來(lái)支持的工作場(chǎng)景,它們都依賴于相同的數(shù)據(jù)存儲(chǔ)庫(kù)。
端到端流式任務(wù):實(shí)時(shí)報(bào)告是許多企業(yè)的日常需要。對(duì)流處理的支持消除了對(duì)專門(mén)服務(wù)于實(shí)時(shí)數(shù)據(jù)應(yīng)用程序的單獨(dú)系統(tǒng)的需求。
上面這張圖是DataBricks給出的架構(gòu)演化參考圖。
我們可以看到,傳統(tǒng)的數(shù)倉(cāng)目標(biāo)非常明確,適用于將各業(yè)務(wù)數(shù)據(jù)源合并后,進(jìn)行商務(wù)BI分析和報(bào)表。隨著企業(yè)需要處理的數(shù)據(jù)類型越來(lái)越多,包括客戶行為,IoT,圖片,視頻等, 數(shù)據(jù)規(guī)模也成指數(shù)增加。
數(shù)據(jù)湖技術(shù)被引入,并用于承擔(dān)通用數(shù)據(jù)存儲(chǔ)和處理平臺(tái)的作用,數(shù)據(jù)湖由于其分布式存儲(chǔ)和計(jì)算能力的特點(diǎn),也可以更好的支持機(jī)器學(xué)習(xí)計(jì)算, 在數(shù)據(jù)湖時(shí)代,我們通?梢钥吹紻ataLake和Data Warehouse還是會(huì)同時(shí)存在的。
隨著大數(shù)據(jù)時(shí)代的到來(lái),是不是有可能讓大數(shù)據(jù)技術(shù)可以取代傳統(tǒng)數(shù)倉(cāng),形成一個(gè)統(tǒng)一的數(shù)據(jù)處理架構(gòu),湖倉(cāng)一體的概念被提出,并由DataBricks和云廠商們?cè)谶M(jìn)行快速的推演和實(shí)踐。
--END--
原文標(biāo)題 : 萬(wàn)字詳解數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)和湖倉(cāng)一體

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?