侵權投訴
訂閱
糾錯
加入自媒體

BMC|AI與人工巡檢 誰更適用于數據質量評估?

2021-12-23 09:27
CDSreport
關注

導讀

與人工手動巡檢相比,決策樹算法不僅能發(fā)現(xiàn)更多的數據問題,也能更好地評價數據問題對CDSS的性能影響。

醫(yī)療數據質量(DQ)影響著臨床決策支持系統(tǒng)(CDSS)的性能,也是實現(xiàn)數據復用的重要因素。因此,通過數據質量評估發(fā)現(xiàn)問題、管理問題是釋放數據價值的關鍵,但目前國內外仍缺乏各應用場景所需數據的質量評價方法與評估標準,增加了數據質量評估工作的復雜性與挑戰(zhàn)性。

近期,一項發(fā)表在BMC Medical Informatics and Decision Making的研究顯示,利用機器學習算法不僅能高效評價數據質量,也可挖掘校驗數據質量的適用規(guī)則,以確定數據集是否適用于特定應用場景。

01—

聚焦數據問題及其對CDSS預測的影響

設計三大研究步聚

由于不同的AI應用對底層數據的需求不同,為確定特定場景的數據質量評價方法與標準,傳統(tǒng)的做法是研究既有的質量評估框架、咨詢專家等,而該研究旨在評估機器學習算法在數據質量評估中的適用性,以減少對專家意見與人工操作的依賴,探索新型數據治理方法。

該研究流程共設計了“數據準備—數據質量評估(DQA)—機器學習”三大步驟(圖1),其中在數據準備階段,研究人員首先虛構了一個基于患者病史數據進行心臟病風險預測的CDSS場景,預先定義輸入數據的質量如何影響CDSS預測性能,以評估通過機器學習算法獲得的數據規(guī)則是否正確。

圖1 研究流程設計

其后,研究人員使用開源的模擬數據生成器生成了10500個符合openEHR規(guī)范的數據組合,每個組合代表一個病例,將其不等分配至20個虛擬醫(yī)院,數據儲存于openEHR中。這些數據根據文獻知識預先設定了不同類型的質量問題,例如,“缺失血壓測量記錄”是明顯的數據問題,會使CDSS預測性能大打折扣;而“心率測量次數少于10”作為次要性問題,只讓CDSS性能略微降低。

由于機器學習算法模型訓練需用到帶標注的數據集,研究人員同時從數據儲存庫中生成不同數據問題對應的CDSS預測準確率,并對預測結果進行多次驗證,確認無誤后作為結果數據添加到數據集中。

在“數據質量評估”(CAQ)階段,研究人員使用了開源工具openCQA進行質量評估,根據每個病例、每家虛擬醫(yī)院的不同數據變量,生成半自動的測量方法(MM),例如,測量某病例所有收縮壓測量值的平均值和醫(yī)院整體平均值。并將各測量結果數據集導出,一是用于機器學習算法訓練,二是使用openCQA的GUI檢查預設的數據質量問題是否“可視”。

在GUI視圖中,研究人員找出了病例存在的數據質量問題,同時評估其對CDSS預測產生的影響。如圖2所示,第一個表格標黃的行列表示“缺失血壓值記錄的病例”,第二個表格則相應地標出了該問題導致的CDSS成功值為“0”。由此合理假設研究人員可以識別其中的關聯(lián),從而推導出該CDSS場景下的數據質控規(guī)則,與機器學習算法推導的結果進行比較。

圖2 在GUI中檢查結果

為確保研究結果的合理性,3名研究人員中只由研究人員ET全程參與研究并檢查GUI的結果,另外2人則只參與了第三階段的機器學習研究,并對預設的數據質量問題一無所知。

02—

人工手動巡檢與AI結果對比

“從應用結果倒推”

在機器學習研究階段,研究人員選擇了機器學習算法中的決策樹(DTs)算法,因為DTs易于解釋,且對數據沒有歸一化等特殊要求;然后使用DAQ階段產生的數據集進行算法模型訓練。而DTs應用包括兩個方面,一是從所有虛擬醫(yī)院的數據中確定測量結果;二是對每個病例的數據測量結果進行匯總。

應用DTs目的是通過解釋“樹”,從決策節(jié)點上推導影響CDSS性能的數據問題規(guī)則。下圖3是從決策樹中分離出來的示例,這9018個病例(占病例總數的88%)的CDSS預測準確率為60%,根據每個病例有無收縮壓測量值分為兩組,一組病例無測量值(191例),CDSS準確率為0;另一組病例有一個或多個測量值(8827例),CDSS預測準確率為62%。

圖3 決策樹示例

這個示例提示了數據質量問題及其帶來的影響,也說明了研究人員采用“從應用結果倒推”的方式進行數據質量問題巡查。

由于研究人員ET了解預設的數據質量問題及對CDSS預測的影響,能夠對DTs提取的規(guī)則與實際問題進行比較。在該研究中他執(zhí)行了3次機器學習工作流程,隨之也作出了3個DTs應用評價;而另外兩名研究人員只憑決策樹解釋推導出一個規(guī)則列表,并將規(guī)則列表與實際數據問題評價標準進行比較,得出比較結果“Control”,如圖4所示。

圖4 數據質量評估結果對比

圖4作為該研究的最終結果,其中DQ-issue代表實際存在的質量問題,GUI代表研究人員ET手動巡檢的結果,用Good、Weak等評價巡檢結果中覆蓋的實際數據問題數及對CDSS的影響;Outcome 1、Outcome 2、Outcome 3則是他對決策樹算法的3個評價;Control中的 “Yes”代表另外兩名研究人員都將該數據問題作為CDSS的影響因素,“yes/no”表示他們中只有一人獲得這種認知。

根據圖4的多方比較顯示,19個實際存在的數據問題,11/12個能在決策樹算法中“捕捉”,其中至少9個問題能被兩位“不知情”的研究人員從樹解釋中推導出來;此外,由于決策樹算法較手動巡檢發(fā)現(xiàn)了更多的數據問題,且能更好地展示對CDSS性能的影響,所以獲得的評價也更優(yōu)。反映其能作為手動巡檢的有效補充工具,助力建立特定CDSS場景所需數據集的評價標準(例如應具備哪些數據變量,每個變量的閾值等),通過數據治理有效提高CDSS預測性能。

研究人員表示,此次研究目的并非評價機器學習算法性能,而是考量其在數據質量評估工作中的適用性。

參考文獻:

Tute Erik,Ganapathy Nagarajan,Wulff Antje. A data driven learning approach for the assessment of data quality[J]. BMC Medical Informatics and Decision Making,2021,21(1):

——本公眾號所有圖文,未經許可,嚴禁轉載!

如需轉載,請?zhí)崆芭c編輯聯(lián)系取得轉載許可。否則視為侵權!


聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號