現(xiàn)有新冠病毒診斷AI模型,幾乎毫無用處
新型冠狀病毒對全球健康造成了嚴重的威脅,為了減輕醫(yī)療保健系統(tǒng)的負擔,也給患者提供最佳的護理,高效的診斷和疾病預后信息問題亟待解決。
理論上來說,在醫(yī)療資源有限的情況下,評估感染者風險和感染結(jié)果的多變量模型可以幫助醫(yī)務人員對患者進行分類。從基于規(guī)則的評分系統(tǒng)到深度學習模型,大量預測模型都是開源的,并允許同行評論分析。
那么,我們應該對這些模型抱有怎樣的期待呢?
頂級綜合醫(yī)學期刊《英國醫(yī)學雜志》( The BMJ ) 上發(fā)表的一項研究,便對現(xiàn)有的新冠模型進行系統(tǒng)性評估,主要包括以下三種功用的模型:普通人群風險預測模型、實際感染者的診斷模型、新冠患者的預后模型,評估的部分包括模型開發(fā)和外部驗證研究。
然而,結(jié)果卻不盡人意?梢哉f,現(xiàn)有的新冠病毒診斷AI模型,幾乎無用武之地。
收集過程
這支研究小組通過 Ovid、bioRxiv、medRxiv 、arXiv、PubMed 和 Embase 等學術(shù)系統(tǒng),收集了 2020 年 1 月 3 日~2020 年 5 月 5 日之間發(fā)布的 covid-19 文獻。如果一篇文獻與基于新冠結(jié)果研究的多變量模型或評分系統(tǒng)相關(guān),團隊就將它納入研究。
最終,他們收集到總共包括三種類型的預測模型:普通人群中新冠風險的預測模型、疑似患者中實際感染者的診斷模型、新冠患者的預后模型。預測因素或結(jié)果對參考人群(例如,住院病人,門診病人或普通人群)、預測范圍(模型預測的距離)沒有限制。而另外的一些模擬疾病傳播或死亡率、診斷測試準確性和發(fā)現(xiàn)預測指標等相關(guān)研究不予考慮。
從第二次系統(tǒng)性評估開始,相關(guān)文獻由 AI 驅(qū)動的文本分析工具檢索,以優(yōu)先考慮靈敏度。研究者通過 EPPI-Reviewer 對標題、摘要和全文進行重復篩查,對于有爭議的文章,則通過討論選取。
研究使用基于 CHARMS(針對預測模型研究的系統(tǒng)評價的嚴格評估和數(shù)據(jù)提。┣鍐魏 PROBAST(偏倚風險評估工具)的標準化數(shù)據(jù)分析表來評估預測模型。
通過系統(tǒng)搜索,研究者檢索了 14209 個標題,整個篩選過程如下圖所示:
PRISMA(為系統(tǒng)評價和變換分析選取報告)研究是否采納文獻的流程圖
調(diào)查結(jié)果
最終篩選出的 107 項研究,團隊使用 PROBAST 評估,這是一項專門為預測模型偏倚風險設計的評估工具。
結(jié)果發(fā)現(xiàn),有 53 項在訓練集(參考人群)方面存在較高的偏倚風險,也就是說,模型的參考人群可能無法代表目標人群。其中 26 項研究都沒有對偏倚評估風險作出清楚的報告。
有 15 項對預測集存在很高的偏倚風險,這表明預測變量并不一定適用于模型,定義不明確或受預測結(jié)果影響。
研究者對一項診斷成像研究使用了簡單的評分規(guī)則,它呈現(xiàn)了較低的預測偏倚風險。
因為該文獻缺乏有關(guān)預處理步驟(例如圖像裁剪)的明確信息,而復雜機器學習算法是用一種復雜的方式將圖像轉(zhuǎn)換成預測因子,分析人員對原模型的預測因子尚不清楚,這其實就很難評估它的偏倚風險。大多數(shù)模型使用易于評估的結(jié)果(例如,死亡、確診等),而在 19 項研究中仍存在因結(jié)果評估引起的偏倚的擔憂,比如使用了主觀或代理結(jié)果(例如,非新冠的嚴重呼吸道感染)。
除了一項研究之外,所有其他研究在分析的數(shù)據(jù)集上都有較高的偏倚風險。
許多研究的樣本量較小,這導致過擬合的風險增加,尤其是在使用復雜的建模策略的情況下。三項研究沒有報告模型的預測性能,四項研究僅報告了表面性能(訓練集和測試集相同,未對潛在的過度擬合進行調(diào)整)。
只有 13 個研究評估了校準,但兩項研究中檢查校準的方法可能欠佳。
其中一個研究的 25 個模型使用了外部驗證的方式(在一個獨立的數(shù)據(jù)集中驗證,訓練集和測試集分開),但在其中的 11 個模型中,用于外部驗證的數(shù)據(jù)集可能無法代表目標人群。還有一個研究使用了新冠疫情之前的數(shù)據(jù)。因此,如果將模型應用于目標人群,則預測效果可能會有所不同。在一項研究中,通常用于預后(區(qū)分、校準)的性能統(tǒng)計數(shù)據(jù)沒有公布。
但也有表現(xiàn)還不錯的模型。Gozes、Fu、Chassagnon、Hu、Kurstjens 和 Vaid 等人的研究在外部驗證集上具有令人滿意的預測性能,但尚不清楚他們是如何收集外部驗證數(shù)據(jù)的,以及數(shù)據(jù)是否具有代表性。Wang、Barda、Guo、Tordjman 和 Gong 等人的研究在可能沒有偏倚的驗證數(shù)據(jù)集上獲得了令人滿意的效果,但是數(shù)據(jù)集的數(shù)據(jù)量少于外部驗證應有的數(shù)據(jù)量(100)。
Diaz-Quijano 的研究也具有不錯的外部驗證效果,但由于未進行聚合酶鏈反應(PCR)測試,因此數(shù)據(jù)集中的許多患者不得不被排除在外。
目前,社會可能亟需診斷和預后模型來幫助醫(yī)務人員更加快速有效地投入工作,這也許會促使政府和醫(yī)療機構(gòu)過早地實施預測模型。
但介于所有的 145 個預測模型都有很大的偏倚風險,并且所有模型都缺乏外部驗證的證據(jù),在新冠疫情的大背景下,模型的過早使用可能弊大于利。
因此,研究人員不建議目前在實踐中使用任何模型。
他們也推薦,未來的模型研究應側(cè)重于驗證、比較、改進和更新有前途的可用預測模型,而非著力開發(fā)新的預測模型。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
技術(shù)文庫
最新活動更多
- 1 2025高端醫(yī)療器械國產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯估了關(guān)稅將對中國醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進出口報告:前十大出口市場在哪?
- 4 認購火爆,映恩生物打響18A IPO重啟信號槍
- 5 核藥賽道解碼:高壁壘、國產(chǎn)替代與千億市場卡位
- 6 中國創(chuàng)新藥出海:機遇、挑戰(zhàn)與未來展望
- 7 創(chuàng)新藥是避風港,更是發(fā)射臺!
- 8 第一醫(yī)藥扣非凈利潤僅687.40萬元:上海“隱形土豪”要再沉淀沉淀
- 9 復星的進退與前行
- 10 隱匿的醫(yī)療大佬,10年干出千億級公司