數(shù)據(jù)中臺下的數(shù)據(jù)質量提升之道
當前越來越多的組織認識到了數(shù)據(jù)的重要性,為了發(fā)揮數(shù)據(jù)的價值,數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺的建設如雨后春筍。但數(shù)據(jù)是一把雙刃劍,它能給企業(yè)帶來業(yè)務價值的同時也是組織最大的風險來源。糟糕的數(shù)據(jù)質量常常意味著低效的、錯誤的業(yè)務決策,將直接導致數(shù)據(jù)統(tǒng)計分析不準確、監(jiān)管業(yè)務難、高層領導難以決策等問題。如何在數(shù)據(jù)中臺搭建數(shù)據(jù)質量管理體系,形成常態(tài)化的數(shù)據(jù)質量管理流程是決定數(shù)據(jù)中臺運營應用的重要因素。
目錄:
1.數(shù)據(jù)質量問題的產(chǎn)生來源
2.數(shù)據(jù)質量問題域及分類
3.數(shù)據(jù)質量管理體系建設的五個原則
4.數(shù)據(jù)質量管理框架及關鍵技術
5.數(shù)據(jù)質量管理的最佳實踐
1、數(shù)據(jù)質量問題的產(chǎn)生來源
現(xiàn)在的數(shù)據(jù)集成融合就和古人筑堤壩一樣,古人筑堤壩是為約束河水,讓自然資源為我所用,發(fā)揮自然資源的價值;今人做數(shù)據(jù)集成融合,建數(shù)據(jù)中臺,是為了挖掘數(shù)據(jù)價值,發(fā)揮數(shù)據(jù)資源的價值,讓數(shù)據(jù)資源為企業(yè)的業(yè)務創(chuàng)新發(fā)揮價值。
在企業(yè)信息化初期,各類業(yè)務系統(tǒng)恣意生長,這個階段就像沒有修筑大堤前的黃河,河水雖然漫流,但是河道寬闊,雖然也有數(shù)據(jù)問題,但不明顯。
在企業(yè)進行數(shù)字化轉型的背景下,尤其是搭建了數(shù)據(jù)中臺的組織,需要按照統(tǒng)一的結構和標準把各類數(shù)據(jù)集成起來,就像筑堤束水之后的黃河,泄流不暢、決口不斷等問題紛紛出現(xiàn),數(shù)據(jù)不一致、不完整、不準確等各種問題撲面而來。
大數(shù)據(jù)時代數(shù)據(jù)集成融合的需求會愈加迫切,不僅要融合企業(yè)內部數(shù)據(jù),也要融合外部(互聯(lián)網(wǎng)等)數(shù)據(jù)。如果沒有對數(shù)據(jù)質量問題建立相應的管理策略和技術工具,那么數(shù)據(jù)質量問題的危害會更加嚴重。據(jù)IBM統(tǒng)計,數(shù)據(jù)分析員每天有30%的時間浪費在了辨別數(shù)據(jù)是否是“壞數(shù)據(jù)”上。
2、數(shù)據(jù)質量問題域及分類
數(shù)據(jù)質量問題從大的方面可以劃分為技術、業(yè)務和管理問題域。技術問題域包括數(shù)據(jù)校驗不夠、默認值使用不當?shù)葐栴},通常是由于系統(tǒng)建設和數(shù)據(jù)處理導致的。業(yè)務問題域細分為信息問題域和流程問題域,業(yè)務上存在多渠道數(shù)據(jù)創(chuàng)建、不合理的數(shù)據(jù)變更流程的問題。管理問題域包括數(shù)據(jù)責任人不明確、沒有獎懲制度,缺少培訓等。
下圖是企業(yè)數(shù)據(jù)創(chuàng)建、加載、匯總、分析到展現(xiàn)的5個步驟,很顯然,步驟①~⑤任何一步出錯都會導致整個結論分析失真。
業(yè)務操作部門在數(shù)據(jù)錄入過程可能輸入錯誤的數(shù)據(jù)。這決定了數(shù)據(jù)源的質量。
在數(shù)據(jù)抽取、加載工程中導致數(shù)據(jù)記錄丟失、數(shù)據(jù)重復等問題。
在數(shù)據(jù)加工、轉換過程中,由于數(shù)據(jù)加工、轉換的代碼魯棒性和穩(wěn)定性不夠,導致的數(shù)據(jù)加工結果出現(xiàn)的錯誤。
數(shù)據(jù)計算匯總過程中,導致的數(shù)據(jù)的錯誤。
分析展現(xiàn)工具將加工好的數(shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員、管理決策人員出現(xiàn)的錯誤。
在某種意義上講,分析者所做出的決策的正確性來源于企業(yè)信息源的質量、數(shù)據(jù)倉庫本身的質量、數(shù)據(jù)集市的質量以及數(shù)據(jù)倉庫各過程的質量。我們可以看到,在數(shù)據(jù)應用過程中5步中有4步是技術或管理造成的,只有1步會是錄入環(huán)節(jié)導致。而恰好是這一步是數(shù)據(jù)中臺無法管理和解決的業(yè)務系統(tǒng)的數(shù)據(jù)。因此從根本上解決數(shù)據(jù)質量問題,從源頭解決是最有效的途徑,在輔助數(shù)據(jù)中臺從技術和管理上加強測試、規(guī)范和監(jiān)控,那么數(shù)據(jù)質量問題的解決就水到渠成了。
3、數(shù)據(jù)質量管理體系建設的五個原則
總結古人治理黃河水患,主要有兩種策略,一種是“疏通”,上策遷移民眾和中策分流黃河水患,都是具體體現(xiàn);另一種是“圍堵”,加高增厚堤防,抑制河水爛漫。
治理數(shù)據(jù)質量的問題可以應用下古人的智慧和考量。采用規(guī)劃頂層設計,制定統(tǒng)一數(shù)據(jù)架構、數(shù)據(jù)標準,設計數(shù)據(jù)質量的管理機制,建立相應的組織架構和管理制度,采用分類處理的方式持續(xù)提升數(shù)據(jù)質量,這是數(shù)據(jù)質量管理“疏”的方式。而單純依賴技術手段,通過增加ETL數(shù)據(jù)清洗處理邏輯的復雜度,使用數(shù)據(jù)質量工具來發(fā)現(xiàn)ETL數(shù)據(jù)處理中的問題屬于“堵”的方式,只能解決表面的問題,不是根本的解決方法。事實上這種方式也在好多企業(yè)中使用,其根本目的在于提高ETL處理的準確度,做法無可厚非,畢竟找別人的問題之前,先要保證自身是沒有問題的。
按照多個行業(yè)實施數(shù)據(jù)質量管理項目的經(jīng)驗,數(shù)據(jù)質量管理應該是采用“疏”和“堵”相結合的方式,通過這種方式解決數(shù)據(jù)質量問題有5個原則。如下圖所示:
1)全程監(jiān)控原則:全程監(jiān)控是針對數(shù)據(jù)生命周期全過程中各環(huán)節(jié)進行數(shù)據(jù)質量監(jiān)控,從數(shù)據(jù)的定義、錄入、獲取、計算、使用的全過程進行質量監(jiān)控。數(shù)據(jù)定義階段,對數(shù)據(jù)模型、字典枚舉值進行監(jiān)控,判斷是否遵循了統(tǒng)一的標準。數(shù)據(jù)錄入階段對輸入的合法性進行校驗等,數(shù)據(jù)獲取階段對數(shù)據(jù)記錄數(shù)、數(shù)據(jù)一致性進行檢核等。明確各部門在數(shù)據(jù)全生命周期中的責任,全方位保證數(shù)據(jù)質量。
2)閉環(huán)管理原則:從問題定義、問題發(fā)現(xiàn)、問題整改、問題跟蹤、效果評估5個方面建立問題處理的閉環(huán)機制。從業(yè)務、技術兩個維度出發(fā)做問題定義,由工具自動發(fā)現(xiàn)問題,明確問題責任人,通過郵件、短信等方式進行通知,將問題及時通知到責任人,跟蹤問題整改進度,建立相應的質量問題評估KPI,保證數(shù)據(jù)質量問題管理閉環(huán)。
3)全員參與原則:數(shù)據(jù)質量提升涉及到組織多個部門,包括不僅限于數(shù)據(jù)提供方、數(shù)據(jù)消費方、數(shù)據(jù)質量管理員等。尤其在數(shù)據(jù)質量問題定義和整改階段需要多方人員的參與才能達到效果。在數(shù)據(jù)質量問題定義階段,需要數(shù)據(jù)責任人、業(yè)務專家、數(shù)據(jù)使用人員對數(shù)據(jù)問題校驗規(guī)則達成一致,共同制定數(shù)據(jù)檢核范圍、數(shù)據(jù)問題條件等。問題整改階段,要由數(shù)據(jù)責任方、數(shù)據(jù)質量管理員和技術人員,共同定位問題原因并進行整改。
4)借助工具,自動檢核:數(shù)據(jù)質量工具保證問題發(fā)現(xiàn)的效率。在數(shù)據(jù)使用過程中深入分析已發(fā)現(xiàn)的數(shù)據(jù)質量問題的成因,及時由IT部門將其轉化為技術規(guī)則落地到系統(tǒng)中,通過技術手段自動檢核數(shù)據(jù)質量問題,提升數(shù)據(jù)質量檢核效率。數(shù)據(jù)質量工具在采集到的數(shù)據(jù)模型元數(shù)據(jù)的基礎上,通過配置自動生成檢核規(guī)則的腳本,并通過設置數(shù)據(jù)質量檢核任務的運行周期,定時檢核數(shù)據(jù)質量問題,并將數(shù)據(jù)質量問題數(shù)據(jù)保存到系統(tǒng)中,便于用戶進行查看和定位問題。
5)提升意識、主動管理:數(shù)據(jù)質量管理工作需要提升全員數(shù)據(jù)質量意識,形成組織數(shù)據(jù)治理的文化氛圍。數(shù)據(jù)使用方發(fā)現(xiàn)數(shù)據(jù)質量問題后,及時主動的進行問題的上報,避免數(shù)據(jù)問題對業(yè)務造成影響。數(shù)據(jù)責任人接到問題通知后,應主動配合數(shù)據(jù)管理部門進行問題整改。數(shù)據(jù)管理部門應該從事前預防數(shù)據(jù)問題出發(fā),制定企業(yè)數(shù)據(jù)標準并加強宣貫,減少因為缺少統(tǒng)一的標準、規(guī)范導致數(shù)據(jù)質量問題。
4、數(shù)據(jù)質量管理框架及關鍵技術
在“五個原則”的指導下開展數(shù)據(jù)質量提升工作,從系統(tǒng)層面需要制定數(shù)據(jù)質量管理的功能框架。數(shù)據(jù)質量系統(tǒng)應具備數(shù)據(jù)質量規(guī)則管理、檢核腳本管理、任務管理、檢核結果管理、數(shù)據(jù)質量報告等功能,以度量規(guī)則和檢核腳本管理為主線,通過自身任務管理模塊或者第三方調度為觸發(fā)點,幫助企業(yè)建立統(tǒng)一的數(shù)據(jù)質量管理工具。
從系統(tǒng)實現(xiàn)的角度上,要解決三個關鍵技術。
1、檢核腳本的自動生成。數(shù)據(jù)質量檢核實際上是按照腳本執(zhí)行并篩選出有問題的數(shù)據(jù)。隨著數(shù)據(jù)質量度量規(guī)則的增多,通過人為手工編寫腳本的方式就無法應對快速增加的度量規(guī)則,通常一個中等規(guī)模的金融企業(yè),就具備上千條度量規(guī)則。因此通過配置的方式,利用腳本生成引擎自動生成檢核腳本,是數(shù)據(jù)質量工具必須具備的功能。
2、多線程檢核架構。檢核腳本的執(zhí)行時間是影響能夠及時查看到數(shù)據(jù)質量問題的另一個關鍵因素。在腳本執(zhí)行過程中,需要采用多線程并發(fā)來執(zhí)行保證在較短的時間內檢核出有問題的數(shù)據(jù)。
3、數(shù)據(jù)質量報告。數(shù)據(jù)質量報告是對企業(yè)數(shù)據(jù)質量情況的總結分析,需要能夠從不同維度系統(tǒng)、部門、檢核類別等維度生成固定數(shù)據(jù)質量報告。還需要支持按照選擇的數(shù)據(jù)質量規(guī)則,時間等條件,來生成個性化的數(shù)據(jù)質量報告。
5、數(shù)據(jù)質量管理的最佳實踐
為實現(xiàn)數(shù)據(jù)質量的切實落地,推進數(shù)據(jù)質量問題的有效解決,某銀行將數(shù)據(jù)質量問題考核作為重中之重,將數(shù)據(jù)質量問題解決效果與部門KPI掛鉤,減小了數(shù)據(jù)質量整改的難度,為數(shù)據(jù)質量的推進提供驅動力,能夠及時對發(fā)現(xiàn)的數(shù)據(jù)質量問題進行處理。該銀行的數(shù)據(jù)質量工作開展,分為了三個階段:
第一階段:搭建數(shù)據(jù)質量系統(tǒng)。借助數(shù)據(jù)質量管理系統(tǒng)自動對數(shù)據(jù)倉庫進行檢核, 摸清數(shù)據(jù)質量情況,解決技術原因導致數(shù)據(jù)質量問題。
第二階段:定位問題責任主體。將數(shù)據(jù)質量問題檢核提前到業(yè)務系統(tǒng)中來,將問題數(shù)據(jù)所在分行業(yè)務數(shù)據(jù)錄入人一并獲取到數(shù)據(jù)質量管理平臺,從而為數(shù)據(jù)質量問題的追本溯源奠定了技術基礎。
第三階段:成立數(shù)據(jù)質量考核評價小組。為保證已發(fā)現(xiàn)的業(yè)務原因導致的問題能得到有效地解決,設計出了分層級的考核體系,由數(shù)據(jù)質量考核評價小組對各家分行數(shù)據(jù)質量問題的解決情況進行打分,計入各家分行的KPI績效考核中。
在后續(xù)數(shù)據(jù)質量系統(tǒng)的運行,開展對銀行內部多個業(yè)務部門進行了考核,考核范圍包括多個重要的業(yè)務系統(tǒng),并檢核出了各家分行的多項數(shù)據(jù)問題,大大提升了數(shù)據(jù)質量問題的修改率,整改的數(shù)據(jù)問題數(shù)據(jù)涉及到超過數(shù)千億的貸款額度。
參考文獻:
[1]DAMA-DMBOK2數(shù)據(jù)管理知識體系指南.機械工業(yè)出版社2020.5
[2]劉慶會.大數(shù)據(jù)是否值得信賴——淺談商業(yè)銀行如何提升數(shù)據(jù)質量 [EB/OL], 2016-04-14
[3] 賈讓.治河三策千古鑒.河北水利,2016(2):36-36
關于作者:劉慶會,普元云計算和大數(shù)據(jù)產(chǎn)品部架構師,主要負責普元大數(shù)據(jù)治理產(chǎn)品研發(fā)和項目實施,十年大型企業(yè)信息數(shù)據(jù)治理架構設計與建設經(jīng)驗,為多家大型金融機構、企業(yè)設計與規(guī)劃數(shù)據(jù)管理整體框架和項目實施。數(shù)據(jù)行業(yè)有著深入的研究和洞察,并對企業(yè)信息化平臺建設,數(shù)據(jù)治理及大數(shù)據(jù)平臺建設有著豐富經(jīng)驗。

請輸入評論內容...
請輸入評論/評論長度6~500個字