訂閱
糾錯(cuò)
加入自媒體

萬(wàn)字詳解數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)和湖倉(cāng)一體

2022-02-21 11:51
園陌
關(guān)注


三、具體區(qū)別

1. 數(shù)據(jù)倉(cāng)庫(kù) VS 數(shù)據(jù)湖

相較而言,數(shù)據(jù)湖是較新的技術(shù),擁有不斷演變的架構(gòu)。數(shù)據(jù)湖存儲(chǔ)任何形式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)和任何格式(包括文本、音頻、視頻和圖像)的原始數(shù)據(jù)。根據(jù)定義,數(shù)據(jù)湖不會(huì)接受數(shù)據(jù)治理,但專家們一致認(rèn)為良好的數(shù)據(jù)管理對(duì)預(yù)防數(shù)據(jù)湖轉(zhuǎn)變?yōu)閿?shù)據(jù)沼澤不可或缺。數(shù)據(jù)湖在數(shù)據(jù)讀取期間創(chuàng)建模式。與數(shù)據(jù)倉(cāng)庫(kù)相比,數(shù)據(jù)湖缺乏結(jié)構(gòu)性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數(shù)據(jù)湖非常適合使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)執(zhí)行各種任務(wù),比如數(shù)據(jù)挖掘和數(shù)據(jù)分析,以及提取非結(jié)構(gòu)化數(shù)據(jù)等。

2. 數(shù)據(jù)倉(cāng)庫(kù) VS 數(shù)據(jù)中臺(tái)

數(shù)據(jù)倉(cāng)庫(kù)和傳統(tǒng)的數(shù)據(jù)平臺(tái),其出發(fā)點(diǎn)為一個(gè)支撐性的技術(shù)系統(tǒng),即一定要先考慮我具有什么數(shù)據(jù),然后我才能干什么,因此特別強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和元數(shù)據(jù)管理;而數(shù)據(jù)中臺(tái)的第一出發(fā)點(diǎn)不是數(shù)據(jù)而是業(yè)務(wù),一開(kāi)始不用看你系統(tǒng)里面有什么數(shù)據(jù),而是去解決你的業(yè)務(wù)問(wèn)題需要什么樣的數(shù)據(jù)服務(wù)。

在具體的技術(shù)處理環(huán)節(jié),二者也有明顯不同,數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的ETL結(jié)構(gòu)向ELT結(jié)構(gòu)轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)集成處理架構(gòu)是ETL結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。而大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺(tái)中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。

3. 總結(jié)

根據(jù)以上數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的概念論述和對(duì)比,我們進(jìn)行如下總結(jié):

數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖沒(méi)有直接的關(guān)系;

數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖在某個(gè)維度上為業(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重;

數(shù)據(jù)中臺(tái)是企業(yè)級(jí)的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)相對(duì)具體的功能概念,是存儲(chǔ)和管理一個(gè)或多個(gè)主題數(shù)據(jù)的集合,為業(yè)務(wù)提供服務(wù)的方式主要是分析報(bào)表;

數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開(kāi)發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);

數(shù)據(jù)倉(cāng)庫(kù)是為了支持管理決策分析,而數(shù)據(jù)中臺(tái)則是將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),不僅限于分析型場(chǎng)景,也適用于交易型場(chǎng)景;

數(shù)據(jù)中臺(tái)可以建立在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)平臺(tái)之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過(guò)程的中間層。

四、湖倉(cāng)一體

有人說(shuō)“湖倉(cāng)一體成為下一站燈塔,數(shù)倉(cāng)、數(shù)據(jù)湖架構(gòu)即將退出群聊”。

2020年,大數(shù)據(jù)DataBricks公司首次提出了湖倉(cāng)一體(Data Lakehouse)概念,希望將數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)合而為一,此概念一出各路云廠商紛紛跟進(jìn)。

Data Lakehouse(湖倉(cāng)一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時(shí)吸收了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì),數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個(gè)數(shù)據(jù)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行操作,同時(shí)它也能為公司進(jìn)行數(shù)據(jù)治理帶來(lái)更多的便利性。

1. 目前數(shù)據(jù)存儲(chǔ)的方案

一直以來(lái),我們都在使用兩種數(shù)據(jù)存儲(chǔ)方式來(lái)架構(gòu)數(shù)據(jù):

數(shù)據(jù)倉(cāng)庫(kù):主要存儲(chǔ)的是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、整合以及清理,并導(dǎo)入到目標(biāo)表中。在數(shù)倉(cāng)中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的schema是強(qiáng)匹配的。

數(shù)據(jù)湖:存儲(chǔ)任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲(chǔ)成本也更為廉價(jià)。存儲(chǔ)其中的數(shù)據(jù)不需要滿足特定的schema,數(shù)據(jù)湖也不會(huì)嘗試去將特定的schema施行其上。相反的是,數(shù)據(jù)的擁有者通常會(huì)在讀取數(shù)據(jù)的時(shí)候解析schema(schema-on-read),當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí),將轉(zhuǎn)換施加其上。

現(xiàn)在許多的公司往往同時(shí)會(huì)搭建數(shù)倉(cāng)、數(shù)據(jù)湖這兩種存儲(chǔ)架構(gòu),一個(gè)大的數(shù)倉(cāng)和多個(gè)小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲(chǔ)中就會(huì)有一定的冗余。

2. Data Lakehouse(湖倉(cāng)一體)

Data Lakehouse的出現(xiàn)試圖去融合數(shù)倉(cāng)和數(shù)據(jù)湖這兩者之間的差異,通過(guò)將數(shù)倉(cāng)構(gòu)建在數(shù)據(jù)湖上,使得存儲(chǔ)變得更為廉價(jià)和彈性,同時(shí)lakehouse能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在lakehouse的構(gòu)建中,ETL起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉(cāng)層結(jié)構(gòu)化的數(shù)據(jù)。

下面詳細(xì)解釋下:

湖倉(cāng)一體(Data Lakehouse):

依據(jù)DataBricks公司對(duì)Lakehouse 的定義:一種結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)勢(shì)的新范式,解決了數(shù)據(jù)湖的局限性。Lakehouse 使用新的系統(tǒng)設(shè)計(jì):直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。

解釋拓展:

湖倉(cāng)一體,簡(jiǎn)單理解就是把面向企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與數(shù)據(jù)湖存儲(chǔ)技術(shù)相結(jié)合,為企業(yè)提供一個(gè)統(tǒng)一的、可共享的數(shù)據(jù)底座。

避免傳統(tǒng)的數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)之間的數(shù)據(jù)移動(dòng),將原始數(shù)據(jù)、加工清洗數(shù)據(jù)、模型化數(shù)據(jù),共同存儲(chǔ)于一體化的“湖倉(cāng)”中,既能面向業(yè)務(wù)實(shí)現(xiàn)高并發(fā)、精準(zhǔn)化、高性能的歷史數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的查詢服務(wù),又能承載分析報(bào)表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務(wù)。

湖倉(cāng)一體方案的出現(xiàn),幫助企業(yè)構(gòu)建起全新的、融合的數(shù)據(jù)平臺(tái)。通過(guò)對(duì)機(jī)器學(xué)習(xí)和AI算法的支持,實(shí)現(xiàn)數(shù)據(jù)湖+數(shù)據(jù)倉(cāng)庫(kù)的閉環(huán),提升業(yè)務(wù)的效率。數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的能力充分結(jié)合,形成互補(bǔ),同時(shí)對(duì)接上層多樣化的計(jì)算生態(tài)。

Lakehouse有如下關(guān)鍵特性:

事物支持:Lakehouse 在企業(yè)級(jí)應(yīng)用中,許多數(shù)據(jù)管道通常會(huì)同時(shí)讀取和寫(xiě)入數(shù)據(jù)。通常多方同時(shí)使用 SQL 讀取或?qū)懭霐?shù)據(jù),Lakehouse 保證支持ACID事務(wù)的一致性。

模式實(shí)施和治理:Lakehouse 應(yīng)該有一種支持模式實(shí)施和演變的方法,支持 DW 模式規(guī)范,例如 star /snowflake-schemas。該系統(tǒng)應(yīng)該能夠推理數(shù)據(jù)完整性,并且應(yīng)該具有健壯的治理和審核機(jī)制。

BI支持:Lakehouse 可以直接在源數(shù)據(jù)上使用BI工具。這樣可以減少陳舊度和等待時(shí)間,提高新近度,并且降低必須在數(shù)據(jù)湖和倉(cāng)庫(kù)中操作兩個(gè)數(shù)據(jù)副本的成本。

存儲(chǔ)與計(jì)算分離:事實(shí)上,這意味著存儲(chǔ)和計(jì)算使用單獨(dú)的群集,因此這些系統(tǒng)能夠擴(kuò)展到更多并發(fā)用戶和更大數(shù)據(jù)量。一些現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)也具有這種屬性。

兼容性:Lakehouse 使用的存儲(chǔ)格式是開(kāi)放式和標(biāo)準(zhǔn)化的,例如 Parquet,并且它提供了多種 API,包括機(jī)器學(xué)習(xí)和 Python/R 庫(kù),因此各種工具和引擎都可以直接有效地訪問(wèn)數(shù)據(jù)。

支持從非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的多種數(shù)據(jù)類型:Lakehouse 可用于存儲(chǔ),優(yōu)化,分析和訪問(wèn)許多新數(shù)據(jù)應(yīng)用程序所需的數(shù)據(jù)類型,包括圖像,視頻,音頻,半結(jié)構(gòu)化數(shù)據(jù)和文本。

支持各種工作場(chǎng)景:包括數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí)和 SQL 分析。這些可能依賴于多種工具來(lái)支持的工作場(chǎng)景,它們都依賴于相同的數(shù)據(jù)存儲(chǔ)庫(kù)。

端到端流式任務(wù):實(shí)時(shí)報(bào)告是許多企業(yè)的日常需要。對(duì)流處理的支持消除了對(duì)專門(mén)服務(wù)于實(shí)時(shí)數(shù)據(jù)應(yīng)用程序的單獨(dú)系統(tǒng)的需求。

上面這張圖是DataBricks給出的架構(gòu)演化參考圖。

我們可以看到,傳統(tǒng)的數(shù)倉(cāng)目標(biāo)非常明確,適用于將各業(yè)務(wù)數(shù)據(jù)源合并后,進(jìn)行商務(wù)BI分析和報(bào)表。隨著企業(yè)需要處理的數(shù)據(jù)類型越來(lái)越多,包括客戶行為,IoT,圖片,視頻等, 數(shù)據(jù)規(guī)模也成指數(shù)增加。

數(shù)據(jù)湖技術(shù)被引入,并用于承擔(dān)通用數(shù)據(jù)存儲(chǔ)和處理平臺(tái)的作用,數(shù)據(jù)湖由于其分布式存儲(chǔ)和計(jì)算能力的特點(diǎn),也可以更好的支持機(jī)器學(xué)習(xí)計(jì)算, 在數(shù)據(jù)湖時(shí)代,我們通?梢钥吹紻ataLake和Data Warehouse還是會(huì)同時(shí)存在的。

隨著大數(shù)據(jù)時(shí)代的到來(lái),是不是有可能讓大數(shù)據(jù)技術(shù)可以取代傳統(tǒng)數(shù)倉(cāng),形成一個(gè)統(tǒng)一的數(shù)據(jù)處理架構(gòu),湖倉(cāng)一體的概念被提出,并由DataBricks和云廠商們?cè)谶M(jìn)行快速的推演和實(shí)踐。

--END--

       原文標(biāo)題 : 萬(wàn)字詳解數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)和湖倉(cāng)一體

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)