首個AI臨床試驗國際指南誕生
醫(yī)學領域有著一整套長期積累下來的復雜規(guī)范體系和專業(yè)操作準則,即便是人工智能作為新的生產工具來勢洶洶,常有“顛覆性”新聞,也須謙虛審慎地融入到這個體系之中。 現(xiàn)在,一個權威國際小組已經制定了旨在提高AI臨床研究質量、并確保研究報告的透明性的指導方針。
此舉將使患者、衛(wèi)生保健專業(yè)人員和政策制定者對人工智能應用是否安全和有效更有把握,是在醫(yī)療健康領域塑造值得信賴的AI的關鍵一步。 SPIRIT-AI、CONSORT-AI的誕生作為醫(yī)學領域的頂刊,《自然醫(yī)學》(Nature Medicine)、《英國醫(yī)學雜志》(BMJ)和《柳葉刀》(the Lancent)近日聯(lián)合發(fā)布了首個AI臨床試驗國際標準( the first international standards for reporting of clinical trials for AI.):用以規(guī)范AI臨床試驗報告的兩大指南SPIRIT-AI[1]、CONSORT-AI[2]。由來自伯明翰大學和伯明翰大學醫(yī)院NHS基金會的研究人員與來自世界各地的領先機構(包括美國和加拿大)合作推出。 SPIRIT、CONSORT作為兩套基本標準,支配著臨床實驗科學合理地開展,臨床試驗需要遵從Consort規(guī)范和Spirit規(guī)范。 其中,SPIRIT是臨床試驗研究計劃書指南,Standard Protocol Items: Recommendations for Interventional Trials,是臨床試驗的核心,針對臨床試驗方案的報道,CONSORT則是針對臨床試驗報告的統(tǒng)一標準,Consolidated Standards of Reporting Trials,針對的是臨床試驗結果的報道。
二者雖不相同卻有相通之處。SPIRIT規(guī)范對于研究的監(jiān)督要求會更加具體,是專門為隨機對照臨床試驗(RCT)報告制訂的指南。隨機對照試驗是證明一種治療或臨床手段有效性、安全性最值得信賴的方法,也是諸多醫(yī)療實踐和衛(wèi)生政策的基礎。 自誕生以來,SPIRIT、CONSORT兩套關于臨床試驗如何進行和報告的指南,已在全球范圍內被用于指導藥物開發(fā)、診斷測試和其他醫(yī)療干預措施,同時也會隨著這一領域的變化而時有更新。 這一次SPIRIT-AI、CONSORT-AI的更新,便是針對AI技術浪潮而來。兩項新的指南都經過了行業(yè)人士階段性的討論、評估并達成共識。 最終,相較于SPIRIT 2013版本,SPIRIT-AI則增加了15個新項目,而相較于CONSORT 2010年更新版,CONSORT-AI擴展了14個新條目,總共更新的25個條目,被認為對評估AI介入效果非常重要,包括對AI介入環(huán)節(jié)進行清晰的描述、使用說明、使用AI所需的技能、AI的集成環(huán)境、AI輸入和輸出、人機交互細節(jié)和提供錯誤案例分析等。
如撰寫團隊所言,SPIRIT-AI、CONSORT-A的推出,旨在幫助提高針對AI介入臨床試驗的透明度和完整性,解釋和嚴格評估臨床試驗設計的質量以及報告結果存在偏倚的風險。 伯明翰健康伙伴中心監(jiān)管科學與創(chuàng)新中心AI負責人、UHB眼科顧問Alastair Denniston教授評論道:"患者可以從醫(yī)療環(huán)境中使用人工智能中受益匪淺,但在我們將這些技術引入日常實踐之前,我們需要知道它們已經經過了強有力的評估,并被證明是有效和安全的。我們之前的工作表明,這可能是一個多么大的問題,我們需要一種方法來切斷圍繞AI在醫(yī)療保健中的炒作。
圍繞醫(yī)療AI的炒作有望被規(guī)范 目前,AI技術的發(fā)展仍有太多的未知和炒作,即便是在事關個人生命安危的醫(yī)學領域,大量將AI系統(tǒng)用于疾病篩選和分類、診斷、預測、決策支持和治療建議環(huán)節(jié)的研究也層出不窮。 特別是過去幾年,深度學習的復興帶動許多新的AI工具被開發(fā)出來,相應的研究也得以發(fā)表在一些權威醫(yī)學期刊上,但由于試驗設計質量參差不齊,具體的有效性很難進行比較和評估。今年3月,BMJ的一項研究就警告道,研究不當和夸大其詞地宣稱AI在醫(yī)學圖像識別能力有多好(匹敵甚至超過人類醫(yī)生表現(xiàn)),給數(shù)百萬患者帶來了風險。 沒有統(tǒng)一的行業(yè)評判標準,也讓商業(yè)公司們鉆了空子,進而大肆宣傳其AI應用的有效性。例如,總部位于英國的數(shù)字健康公司Babylon Health,曾在2018年宣布其診斷聊天機器人 "與人類醫(yī)生相當 ",后受到輿論的抨擊,批評者認為公司提供的聊天機器人測試具有誤導性。因為有患者反饋,如果出現(xiàn)典型的心臟病發(fā)作癥狀,這個聊天機器人會建議你呆在家里,如果是腦膜炎的話就好好休息。 Babylon Health遠非孤例。
大量AI+醫(yī)療應用的開發(fā)者一直聲稱醫(yī)療人工智能的性能超過或匹配人類的能力。實際上的大多數(shù)情況,對這些人工智能的評估是在公司實驗室內部封閉或者說相對有利的條件下進行的。還有公司在進行AI醫(yī)療產品試驗時,會傾向于采用“離岸外包”(off-shoring)的形式:在監(jiān)管環(huán)境較為寬松的管轄區(qū)中使用,那些地區(qū)的人民群眾極度缺乏基本醫(yī)療服務,任何治療都比沒有治療好。
IBM部分AI醫(yī)療合作項目。圖片出處:spectrum.ieee.org
再往前追溯,AI 醫(yī)療的鼻祖——IBM Watson,現(xiàn)在也處于比較尷尬的狀態(tài)。IBM 于 2011 年開始致力于將沃森引入醫(yī)療保健行業(yè)。從那時起,該公司發(fā)布了近 50 份關于合作伙伴關系的公告,主要是合作開發(fā)基于人工智能的新型醫(yī)療保健應用,一部分合作致力于為醫(yī)生和機構提供工具;另一部分則屬于消費者應用。雖然許多聯(lián)盟和合作最終都沒有產生商業(yè)產品,但 IBM 表示這些研究工作很有價值。 IEEE Spectrum 的編輯 Eliza Strickland 曾發(fā)表一篇文章,反思了IBM Watson為何被高估的想象,她認為,自2011年以來的八年里,IBM 大肆宣揚開發(fā)人工智能醫(yī)療技術,但其中許多已經失敗了。此外,IBM 沃森醫(yī)療健康部門生產的產品,更像是只能執(zhí)行日常任務的基本 AI 助手,甚至連 AI 醫(yī)生都算不上。 當然,這并不是說人工智能就不可能勝過人類醫(yī)生,也不是要否定這些探索。本質問題在于,我們還是沒有達成共識的手段去評估和證明AI在臨床試驗乃至整個醫(yī)療保健領域有效性。這便是為何需要規(guī)范和監(jiān)管的原因。 SPIRIT-AI、CONSORT-AI的誕生,正是為了提高AI臨床試驗透明性、可靠性的諸多努力之一。彌補該領域承諾與證明之間的巨大差距,將是所有人都樂見的事情。
CONSORT-AI與CONSORT 2013版本的Checklist對比。圖片出處:CONSORT-AI
SPIRIT-AI與SPIRIT 2013版本的Checklist對比。
圖片出處:SPIRIT-AI Reference[1]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence
[2]Reporting guidelines for clinical trial reports for interventions involving artificial intelligence

請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
技術文庫