訂閱
糾錯(cuò)
加入自媒體

萬字詳解數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)和湖倉一體

2022-02-21 11:51
園陌
關(guān)注

本文目錄:

一、前言

二、概念解析

1.?dāng)?shù)據(jù)倉庫

2.?dāng)?shù)據(jù)湖

3.?dāng)?shù)據(jù)中臺(tái)

三、具體區(qū)別

1.?dāng)?shù)據(jù)倉庫 VS 數(shù)據(jù)湖

2.?dāng)?shù)據(jù)倉庫 VS 數(shù)據(jù)中臺(tái)

3.總結(jié)

四、湖倉一體

1.目前數(shù)據(jù)存儲(chǔ)方案

2.Data Lakehouse(湖倉一體)

一、前言

數(shù)字化轉(zhuǎn)型浪潮卷起各種新老概念滿天飛,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)輪番在朋友圈刷屏,有人說“數(shù)據(jù)中臺(tái)算個(gè)啥,數(shù)據(jù)湖才是趨勢(shì)”,有人說“再見了數(shù)據(jù)湖、數(shù)據(jù)倉庫,數(shù)據(jù)中臺(tái)已成氣候”……

企業(yè)還沒推開數(shù)字化大門,先被各種概念絆了一腳。那么它們 3 者究竟有啥區(qū)別?別急,先跟大家分享兩個(gè)有趣的比喻。

1、圖書館VS地?cái)?/p>

如果把數(shù)據(jù)倉庫比喻成“圖書館”,那么數(shù)據(jù)湖就是“地?cái)偂。去圖書館借書(數(shù)據(jù)),書籍質(zhì)量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個(gè)類目、在哪個(gè)架子上,你才能精準(zhǔn)拿到自己想要的書;而地?cái)偵蠜]有人會(huì)給你把關(guān),什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經(jīng)驗(yàn)可復(fù)用的,偶爾多拿少拿咱們可能也不知道。

2、升級(jí)版銀行

假定數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)都是銀行,可以提供現(xiàn)金、黃金等多種服務(wù)。過去大家進(jìn)銀行前都得先問門衛(wèi),里面每個(gè)門牌上的數(shù)字對(duì)應(yīng)哪個(gè)服務(wù)呢?是現(xiàn)金還是黃金呢?然后推開對(duì)應(yīng)的門把東西取出來。而有了“數(shù)據(jù)中臺(tái)”這個(gè)銀行,大家一進(jìn)來就能看到標(biāo)著“現(xiàn)金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。

以上兩個(gè)例子不一定全面,但基本能解釋三者的優(yōu)劣勢(shì)。數(shù)據(jù)倉庫具備規(guī)范性,但取數(shù)用數(shù)流程長(zhǎng);數(shù)據(jù)湖取數(shù)用數(shù)更實(shí)時(shí)、存儲(chǔ)量大,但數(shù)據(jù)質(zhì)量難以保障;數(shù)據(jù)中臺(tái)能精準(zhǔn)快速地響應(yīng)業(yè)務(wù)需求,離業(yè)務(wù)側(cè)最近。

為了更清晰地區(qū)別三者,接下來咱們?cè)賮砜纯此鼈兏髯缘亩x以及應(yīng)用區(qū)別。

二、概念解析

1. 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫誕生于 1990 年,絕對(duì)算得上是“老前輩”了,它是一個(gè)相對(duì)具體的功能概念。目前對(duì)數(shù)據(jù)倉庫的主流定義是位于多個(gè)數(shù)據(jù)庫上的大容量存儲(chǔ)庫,它的作用在于存儲(chǔ)大量的結(jié)構(gòu)化數(shù)據(jù),并能進(jìn)行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。

具體定義:

數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化的(Time Variant)數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲(chǔ)存架構(gòu),分析出有價(jià)值的資訊。

所謂主題:是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。

所謂集成:是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡(jiǎn)單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。

所謂隨時(shí)間變化:是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時(shí)點(diǎn)到當(dāng)前各個(gè)階段的信息。通過這些信息,可以對(duì)企業(yè)的發(fā)展歷程和未來趨勢(shì)做出定量分析和預(yù)測(cè)。

數(shù)據(jù)倉庫的作用:

數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/p>

是面向企業(yè)中、高級(jí)管理進(jìn)行業(yè)務(wù)分析和績(jī)效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;

是主要用于歷史性、綜合性和深層次數(shù)據(jù)分析;

數(shù)據(jù)來源是ERP(例:SAP)系統(tǒng)或其他業(yè)務(wù)系統(tǒng);

能夠提供靈活、直觀、簡(jiǎn)潔和易于操作的多維查詢分析;

不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù);

實(shí)時(shí)數(shù)倉

實(shí)時(shí)數(shù)倉和離線數(shù)倉非常的像,誕生的背景主要是近幾年企業(yè)對(duì)于數(shù)據(jù)服務(wù)的實(shí)時(shí)性需求日益增多。里面的數(shù)據(jù)模型也會(huì)像中臺(tái)一樣分好幾層:ODS 、CDM、ADS。但整體對(duì)于實(shí)時(shí)性要求極高,因此一般存儲(chǔ)會(huì)考慮采用Kafka這種log base的MQ,而計(jì)算引擎會(huì)采用Flink這種流計(jì)算引擎。

2. 數(shù)據(jù)湖

數(shù)據(jù)湖是一種不斷演進(jìn)中、可擴(kuò)展的大數(shù)據(jù)存儲(chǔ)、處理、分析的基礎(chǔ)設(shè)施,它就像一個(gè)大型倉庫存儲(chǔ)企業(yè)多樣化原始數(shù)據(jù)以數(shù)據(jù)為導(dǎo)向,實(shí)現(xiàn)任意來源、任意速度、任意規(guī)模、任意類型數(shù)據(jù)的全量獲取、全量存儲(chǔ)、多模式處理與全生命周期管理。擁有強(qiáng)大的信息處理能力和處理幾乎無限的并發(fā)任務(wù)或工作的能力。

數(shù)據(jù)湖從企業(yè)的多個(gè)數(shù)據(jù)源獲取原始數(shù)據(jù),數(shù)據(jù)可能是任意類型的信息,從結(jié)構(gòu)化數(shù)據(jù)到完全非結(jié)構(gòu)化數(shù)據(jù),并通過與各類外部異構(gòu)數(shù)據(jù)源的交互集成,支持各類企業(yè)級(jí)應(yīng)用。結(jié)合先進(jìn)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型,也能為企業(yè)提供其他能力,如預(yù)測(cè)分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長(zhǎng)。

進(jìn)入互聯(lián)網(wǎng)時(shí)代,有兩個(gè)最重要的變化。

一個(gè)是數(shù)據(jù)規(guī)模前所未有,一個(gè)成功的互聯(lián)網(wǎng)產(chǎn)品日活可以過億,就像你熟知的頭條、抖音、快手、網(wǎng)易云音樂,每天產(chǎn)生幾千億的用戶行為。傳統(tǒng)數(shù)據(jù)倉庫難于擴(kuò)展,根本無法承載如此規(guī)模的海量數(shù)據(jù)。

另一個(gè)是數(shù)據(jù)類型變得異構(gòu)化,互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)除了來自業(yè)務(wù)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù),還有來自 App、Web 的前端埋點(diǎn)數(shù)據(jù),或者業(yè)務(wù)服務(wù)器的后端埋點(diǎn)日志,這些數(shù)據(jù)一般都是半結(jié)構(gòu)化,甚至無結(jié)構(gòu)的。傳統(tǒng)數(shù)據(jù)倉庫對(duì)數(shù)據(jù)模型有嚴(yán)格的要求,在數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫前,數(shù)據(jù)模型就必須事先定義好,數(shù)據(jù)必須按照模型設(shè)計(jì)存儲(chǔ)。

所以,數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的限制,導(dǎo)致傳統(tǒng)數(shù)據(jù)倉庫無法支撐互聯(lián)網(wǎng)時(shí)代的商業(yè)智能。

05年的時(shí)候,Hadoop誕生了。Hadoop 相比傳統(tǒng)數(shù)據(jù)倉庫主要有兩個(gè)優(yōu)勢(shì):

完全分布式,易于擴(kuò)展,可以使用價(jià)格低廉的機(jī)器堆出一個(gè)計(jì)算、存儲(chǔ)能力很強(qiáng)的集群,滿足海量數(shù)據(jù)的處理要求;

弱化數(shù)據(jù)格式,數(shù)據(jù)被集成到 Hadoop 之后,可以不保留任何數(shù)據(jù)格式,數(shù)據(jù)模型與數(shù)據(jù)存儲(chǔ)分離,數(shù)據(jù)(包含了原始數(shù)據(jù))在被使用的時(shí)候,可以按照不同的模型讀取,滿足異構(gòu)數(shù)據(jù)靈活分析的需求。而數(shù)倉更加關(guān)注可以作為事實(shí)依據(jù)的數(shù)據(jù)。

隨著Hadoop與對(duì)象存儲(chǔ)的成熟,數(shù)據(jù)湖的概念在10年被提出:數(shù)據(jù)湖(Data Lake)是一個(gè)以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫或系統(tǒng)(這意味著數(shù)據(jù)湖的底層不應(yīng)該與任何存儲(chǔ)耦合)。

對(duì)應(yīng)的來說,如果數(shù)據(jù)湖沒有被治理好(缺乏元數(shù)據(jù)、定義數(shù)據(jù)源、制定數(shù)據(jù)訪問策略和安全策略,并移動(dòng)數(shù)據(jù)、編制數(shù)據(jù)目錄),則會(huì)變成數(shù)據(jù)沼澤。

而從產(chǎn)品形態(tài)上來說,數(shù)倉往往是獨(dú)立標(biāo)準(zhǔn)化的產(chǎn)品。而數(shù)據(jù)湖更像是一種架構(gòu)指導(dǎo)——需要配合一系列的周邊工具,來實(shí)現(xiàn)業(yè)務(wù)需要的數(shù)據(jù)湖。

3. 數(shù)據(jù)中臺(tái)

大規(guī)模數(shù)據(jù)的應(yīng)用,也逐漸暴露出現(xiàn)一些問題。

業(yè)務(wù)發(fā)展前期,為了快速實(shí)現(xiàn)業(yè)務(wù)的需求,煙囪式的開發(fā)導(dǎo)致企業(yè)不同業(yè)務(wù)線,甚至相同業(yè)務(wù)線的不同應(yīng)用之間,數(shù)據(jù)都是割裂的。兩個(gè)數(shù)據(jù)應(yīng)用的相同指標(biāo),展示的結(jié)果不一致,導(dǎo)致運(yùn)營對(duì)數(shù)據(jù)的信任度下降。如果你是運(yùn)營,當(dāng)你想看一下商品的銷售額,發(fā)現(xiàn)兩個(gè)報(bào)表上,都叫銷售額的指標(biāo)出現(xiàn)了兩個(gè)值,你的感受如何? 你第一反應(yīng)肯定是數(shù)據(jù)算錯(cuò)了,你不敢繼續(xù)使用這個(gè)數(shù)據(jù)了。

數(shù)據(jù)割裂的另外一個(gè)問題,就是大量的重復(fù)計(jì)算、開發(fā),導(dǎo)致的研發(fā)效率的浪費(fèi),計(jì)算、存儲(chǔ)資源的浪費(fèi),大數(shù)據(jù)的應(yīng)用成本越來越高。

如果你是運(yùn)營,當(dāng)你想要一個(gè)數(shù)據(jù)的時(shí)候,開發(fā)告訴你至少需要一周,你肯定想是不是太慢了,能不能再快一點(diǎn)兒?

如果你是數(shù)據(jù)開發(fā),當(dāng)面對(duì)大量的需求的時(shí)候,你肯定是在抱怨,需求太多,人太少,活干不完。

如果你是一個(gè)企業(yè)的老板,當(dāng)你看到每個(gè)月的賬單成指數(shù)級(jí)增長(zhǎng)的時(shí)候,你肯定覺得這也太貴了,能不能再省一點(diǎn),要不吃不消了。

這些問題的根源在于,數(shù)據(jù)無法共享。2016 年,阿里巴巴率先提出了“數(shù)據(jù)中臺(tái)”的口號(hào)。數(shù)據(jù)中臺(tái)的核心,是避免數(shù)據(jù)的重復(fù)計(jì)算,通過數(shù)據(jù)服務(wù)化,提高數(shù)據(jù)的共享能力,賦能數(shù)據(jù)應(yīng)用。之前,數(shù)據(jù)是要啥沒啥,中間數(shù)據(jù)難于共享,無法積累。現(xiàn)在建設(shè)數(shù)據(jù)中臺(tái)之后,要啥有啥,數(shù)據(jù)應(yīng)用的研發(fā)速度不再受限于數(shù)據(jù)開發(fā)的速度,一夜之間,我們就可以根據(jù)場(chǎng)景,孵化出很多數(shù)據(jù)應(yīng)用,這些應(yīng)用讓數(shù)據(jù)產(chǎn)生價(jià)值。

數(shù)據(jù)中臺(tái)樣板

在建設(shè)中臺(tái)的過程中,一般強(qiáng)調(diào)這樣幾個(gè)重點(diǎn):

效率、質(zhì)量和成本是決定數(shù)據(jù)能否支撐好業(yè)務(wù)的關(guān)鍵,構(gòu)建數(shù)據(jù)中臺(tái)的目標(biāo)就是要實(shí)現(xiàn)高效率、高質(zhì)量、低成本。

數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺(tái)的核心,本質(zhì)上是要實(shí)現(xiàn)公共計(jì)算邏輯的下沉和復(fù)用。

如果你的企業(yè)擁有 3 個(gè)以上的數(shù)據(jù)應(yīng)用場(chǎng)景,數(shù)據(jù)產(chǎn)品還在不斷研發(fā)和更新,你必須要認(rèn)真考慮建設(shè)數(shù)據(jù)中臺(tái)。

那么接下來就看一下阿里巴巴對(duì)于數(shù)據(jù)中臺(tái)的實(shí)踐。

正如上述提到的數(shù)據(jù)只加工一次是建設(shè)數(shù)據(jù)中臺(tái)的核心,本質(zhì)上是要實(shí)現(xiàn)公共計(jì)算邏輯的下沉和復(fù)用。阿里數(shù)據(jù)中臺(tái)提到了各種one思想,如:

OneData:公共數(shù)據(jù)只保存一份OneService:通過一個(gè)服務(wù)接口進(jìn)行暴露


1  2  下一頁>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)