BMC|AI與人工巡檢 誰更適用于數(shù)據(jù)質(zhì)量評(píng)估?
導(dǎo)讀
與人工手動(dòng)巡檢相比,決策樹算法不僅能發(fā)現(xiàn)更多的數(shù)據(jù)問題,也能更好地評(píng)價(jià)數(shù)據(jù)問題對(duì)CDSS的性能影響。
醫(yī)療數(shù)據(jù)質(zhì)量(DQ)影響著臨床決策支持系統(tǒng)(CDSS)的性能,也是實(shí)現(xiàn)數(shù)據(jù)復(fù)用的重要因素。因此,通過數(shù)據(jù)質(zhì)量評(píng)估發(fā)現(xiàn)問題、管理問題是釋放數(shù)據(jù)價(jià)值的關(guān)鍵,但目前國(guó)內(nèi)外仍缺乏各應(yīng)用場(chǎng)景所需數(shù)據(jù)的質(zhì)量評(píng)價(jià)方法與評(píng)估標(biāo)準(zhǔn),增加了數(shù)據(jù)質(zhì)量評(píng)估工作的復(fù)雜性與挑戰(zhàn)性。
近期,一項(xiàng)發(fā)表在BMC Medical Informatics and Decision Making的研究顯示,利用機(jī)器學(xué)習(xí)算法不僅能高效評(píng)價(jià)數(shù)據(jù)質(zhì)量,也可挖掘校驗(yàn)數(shù)據(jù)質(zhì)量的適用規(guī)則,以確定數(shù)據(jù)集是否適用于特定應(yīng)用場(chǎng)景。
01—
聚焦數(shù)據(jù)問題及其對(duì)CDSS預(yù)測(cè)的影響
設(shè)計(jì)三大研究步聚
由于不同的AI應(yīng)用對(duì)底層數(shù)據(jù)的需求不同,為確定特定場(chǎng)景的數(shù)據(jù)質(zhì)量評(píng)價(jià)方法與標(biāo)準(zhǔn),傳統(tǒng)的做法是研究既有的質(zhì)量評(píng)估框架、咨詢專家等,而該研究旨在評(píng)估機(jī)器學(xué)習(xí)算法在數(shù)據(jù)質(zhì)量評(píng)估中的適用性,以減少對(duì)專家意見與人工操作的依賴,探索新型數(shù)據(jù)治理方法。
該研究流程共設(shè)計(jì)了“數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)質(zhì)量評(píng)估(DQA)—機(jī)器學(xué)習(xí)”三大步驟(圖1),其中在數(shù)據(jù)準(zhǔn)備階段,研究人員首先虛構(gòu)了一個(gè)基于患者病史數(shù)據(jù)進(jìn)行心臟病風(fēng)險(xiǎn)預(yù)測(cè)的CDSS場(chǎng)景,預(yù)先定義輸入數(shù)據(jù)的質(zhì)量如何影響CDSS預(yù)測(cè)性能,以評(píng)估通過機(jī)器學(xué)習(xí)算法獲得的數(shù)據(jù)規(guī)則是否正確。
圖1 研究流程設(shè)計(jì)
其后,研究人員使用開源的模擬數(shù)據(jù)生成器生成了10500個(gè)符合openEHR規(guī)范的數(shù)據(jù)組合,每個(gè)組合代表一個(gè)病例,將其不等分配至20個(gè)虛擬醫(yī)院,數(shù)據(jù)儲(chǔ)存于openEHR中。這些數(shù)據(jù)根據(jù)文獻(xiàn)知識(shí)預(yù)先設(shè)定了不同類型的質(zhì)量問題,例如,“缺失血壓測(cè)量記錄”是明顯的數(shù)據(jù)問題,會(huì)使CDSS預(yù)測(cè)性能大打折扣;而“心率測(cè)量次數(shù)少于10”作為次要性問題,只讓CDSS性能略微降低。
由于機(jī)器學(xué)習(xí)算法模型訓(xùn)練需用到帶標(biāo)注的數(shù)據(jù)集,研究人員同時(shí)從數(shù)據(jù)儲(chǔ)存庫中生成不同數(shù)據(jù)問題對(duì)應(yīng)的CDSS預(yù)測(cè)準(zhǔn)確率,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行多次驗(yàn)證,確認(rèn)無誤后作為結(jié)果數(shù)據(jù)添加到數(shù)據(jù)集中。
在“數(shù)據(jù)質(zhì)量評(píng)估”(CAQ)階段,研究人員使用了開源工具openCQA進(jìn)行質(zhì)量評(píng)估,根據(jù)每個(gè)病例、每家虛擬醫(yī)院的不同數(shù)據(jù)變量,生成半自動(dòng)的測(cè)量方法(MM),例如,測(cè)量某病例所有收縮壓測(cè)量值的平均值和醫(yī)院整體平均值。并將各測(cè)量結(jié)果數(shù)據(jù)集導(dǎo)出,一是用于機(jī)器學(xué)習(xí)算法訓(xùn)練,二是使用openCQA的GUI檢查預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題是否“可視”。
在GUI視圖中,研究人員找出了病例存在的數(shù)據(jù)質(zhì)量問題,同時(shí)評(píng)估其對(duì)CDSS預(yù)測(cè)產(chǎn)生的影響。如圖2所示,第一個(gè)表格標(biāo)黃的行列表示“缺失血壓值記錄的病例”,第二個(gè)表格則相應(yīng)地標(biāo)出了該問題導(dǎo)致的CDSS成功值為“0”。由此合理假設(shè)研究人員可以識(shí)別其中的關(guān)聯(lián),從而推導(dǎo)出該CDSS場(chǎng)景下的數(shù)據(jù)質(zhì)控規(guī)則,與機(jī)器學(xué)習(xí)算法推導(dǎo)的結(jié)果進(jìn)行比較。
圖2 在GUI中檢查結(jié)果
為確保研究結(jié)果的合理性,3名研究人員中只由研究人員ET全程參與研究并檢查GUI的結(jié)果,另外2人則只參與了第三階段的機(jī)器學(xué)習(xí)研究,并對(duì)預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題一無所知。
02—
人工手動(dòng)巡檢與AI結(jié)果對(duì)比
“從應(yīng)用結(jié)果倒推”
在機(jī)器學(xué)習(xí)研究階段,研究人員選擇了機(jī)器學(xué)習(xí)算法中的決策樹(DTs)算法,因?yàn)镈Ts易于解釋,且對(duì)數(shù)據(jù)沒有歸一化等特殊要求;然后使用DAQ階段產(chǎn)生的數(shù)據(jù)集進(jìn)行算法模型訓(xùn)練。而DTs應(yīng)用包括兩個(gè)方面,一是從所有虛擬醫(yī)院的數(shù)據(jù)中確定測(cè)量結(jié)果;二是對(duì)每個(gè)病例的數(shù)據(jù)測(cè)量結(jié)果進(jìn)行匯總。
應(yīng)用DTs目的是通過解釋“樹”,從決策節(jié)點(diǎn)上推導(dǎo)影響CDSS性能的數(shù)據(jù)問題規(guī)則。下圖3是從決策樹中分離出來的示例,這9018個(gè)病例(占病例總數(shù)的88%)的CDSS預(yù)測(cè)準(zhǔn)確率為60%,根據(jù)每個(gè)病例有無收縮壓測(cè)量值分為兩組,一組病例無測(cè)量值(191例),CDSS準(zhǔn)確率為0;另一組病例有一個(gè)或多個(gè)測(cè)量值(8827例),CDSS預(yù)測(cè)準(zhǔn)確率為62%。
圖3 決策樹示例
這個(gè)示例提示了數(shù)據(jù)質(zhì)量問題及其帶來的影響,也說明了研究人員采用“從應(yīng)用結(jié)果倒推”的方式進(jìn)行數(shù)據(jù)質(zhì)量問題巡查。
由于研究人員ET了解預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題及對(duì)CDSS預(yù)測(cè)的影響,能夠?qū)Ts提取的規(guī)則與實(shí)際問題進(jìn)行比較。在該研究中他執(zhí)行了3次機(jī)器學(xué)習(xí)工作流程,隨之也作出了3個(gè)DTs應(yīng)用評(píng)價(jià);而另外兩名研究人員只憑決策樹解釋推導(dǎo)出一個(gè)規(guī)則列表,并將規(guī)則列表與實(shí)際數(shù)據(jù)問題評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行比較,得出比較結(jié)果“Control”,如圖4所示。
圖4 數(shù)據(jù)質(zhì)量評(píng)估結(jié)果對(duì)比
圖4作為該研究的最終結(jié)果,其中DQ-issue代表實(shí)際存在的質(zhì)量問題,GUI代表研究人員ET手動(dòng)巡檢的結(jié)果,用Good、Weak等評(píng)價(jià)巡檢結(jié)果中覆蓋的實(shí)際數(shù)據(jù)問題數(shù)及對(duì)CDSS的影響;Outcome 1、Outcome 2、Outcome 3則是他對(duì)決策樹算法的3個(gè)評(píng)價(jià);Control中的 “Yes”代表另外兩名研究人員都將該數(shù)據(jù)問題作為CDSS的影響因素,“yes/no”表示他們中只有一人獲得這種認(rèn)知。
根據(jù)圖4的多方比較顯示,19個(gè)實(shí)際存在的數(shù)據(jù)問題,11/12個(gè)能在決策樹算法中“捕捉”,其中至少9個(gè)問題能被兩位“不知情”的研究人員從樹解釋中推導(dǎo)出來;此外,由于決策樹算法較手動(dòng)巡檢發(fā)現(xiàn)了更多的數(shù)據(jù)問題,且能更好地展示對(duì)CDSS性能的影響,所以獲得的評(píng)價(jià)也更優(yōu)。反映其能作為手動(dòng)巡檢的有效補(bǔ)充工具,助力建立特定CDSS場(chǎng)景所需數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn)(例如應(yīng)具備哪些數(shù)據(jù)變量,每個(gè)變量的閾值等),通過數(shù)據(jù)治理有效提高CDSS預(yù)測(cè)性能。
研究人員表示,此次研究目的并非評(píng)價(jià)機(jī)器學(xué)習(xí)算法性能,而是考量其在數(shù)據(jù)質(zhì)量評(píng)估工作中的適用性。
參考文獻(xiàn):
Tute Erik,Ganapathy Nagarajan,Wulff Antje. A data driven learning approach for the assessment of data quality[J]. BMC Medical Informatics and Decision Making,2021,21(1):
——本公眾號(hào)所有圖文,未經(jīng)許可,嚴(yán)禁轉(zhuǎn)載!
如需轉(zhuǎn)載,請(qǐng)?zhí)崆芭c編輯聯(lián)系取得轉(zhuǎn)載許可。否則視為侵權(quán)!

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
ChatZOC,藏在口袋里的「眼科醫(yī)生」
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
技術(shù)文庫
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
- 1 2025高端醫(yī)療器械國(guó)產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯(cuò)估了關(guān)稅將對(duì)中國(guó)醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報(bào)告:前十大出口市場(chǎng)在哪?
- 4 認(rèn)購火爆,映恩生物打響18A IPO重啟信號(hào)槍
- 5 中國(guó)創(chuàng)新藥出海:機(jī)遇、挑戰(zhàn)與未來展望
- 6 核藥賽道解碼:高壁壘、國(guó)產(chǎn)替代與千億市場(chǎng)卡位
- 7 創(chuàng)新藥是避風(fēng)港,更是發(fā)射臺(tái)!
- 8 第一醫(yī)藥扣非凈利潤(rùn)僅687.40萬元:上!半[形土豪”要再沉淀沉淀
- 9 隱匿的醫(yī)療大佬,10年干出千億級(jí)公司
- 10 3月生物醫(yī)藥產(chǎn)業(yè)100個(gè)項(xiàng)目獲投,廣東最吸金