“深度學習輔助決策醫(yī)療器械軟件審評要點”發(fā)布!AI要拿三類證,這幾點做好了嗎?
3
算法設計
算法設計應當考慮算法選擇、算法訓練、網(wǎng)絡安全防護、算法性能評估等活動的質控要求。建議數(shù)據(jù)驅動與知識驅動相結合進行算法設計,以提升算法可解釋性。
1. 算法選擇
算法選擇應當明確所用算法的名稱、結構(如層數(shù)、參數(shù)規(guī)模)、流程圖、現(xiàn)成框架(如Tensorflow、Caffe)、輸入與輸出、運行環(huán)境、算法來源依據(jù)(或注明原創(chuàng))等信息。同時應當明確算法選擇與設計的原則、方法和風險考量,如量化誤差、梯度消失、過擬合、白盒化等。
若使用遷移學習技術,除上述內(nèi)容外還應當補充預訓練模型的數(shù)據(jù)集構建、驗證與確認等總結信息。
2. 算法訓練
算法訓練需要基于訓練集、調優(yōu)集進行訓練和調優(yōu),應當明確評估指標、訓練方法、訓練目標、調優(yōu)方法、訓練數(shù)據(jù)量-評估指標曲線等要求。
評估指標建議根據(jù)臨床需求進行選擇,如敏感性、特異性等。訓練方法包括但不限于留出法和交叉驗證法。訓練目標應當滿足臨床要求,提供ROC曲線等證據(jù)予以證實。調優(yōu)方法應當明確算法優(yōu)化策略和實現(xiàn)方法。訓練數(shù)據(jù)量-評估指標曲線應當能夠證實算法訓練的充分性和有效性。
3. 網(wǎng)絡安全防護
網(wǎng)絡安全防護應當結合軟件的預期用途、使用場景和核心功能,基于保密性、完整性、可得性等網(wǎng)絡安全特性,確定軟件網(wǎng)絡安全能力建設要求,以應對網(wǎng)絡攻擊和數(shù)據(jù)竊取等網(wǎng)絡威脅。相關要求詳見網(wǎng)絡安全指導原則。
此類軟件常見網(wǎng)絡威脅包括但不限于框架漏洞攻擊、數(shù)據(jù)污染,其中框架漏洞攻擊是指利用算法所用現(xiàn)成框架本身漏洞進行網(wǎng)絡攻擊,數(shù)據(jù)污染是指通過污染輸入數(shù)據(jù)進行網(wǎng)絡攻擊。
4. 算法性能評估
算法性能評估作為軟件驗證的重要組成部分,需要基于測試集對算法設計結果進行評估,應當明確假陰性與假陽性、重復性與再現(xiàn)性、魯棒性/健壯性等評估要求,以證實算法性能滿足算法設計要求。
同時,應當分析算法性能影響因素及其影響程度,如采集設備、采集參數(shù)、疾病構成、病變特征等因素影響,以提升算法可解釋性,并作為軟件驗證、軟件確認的基礎。
4
驗證與確認
1. 軟件驗證
軟件驗證是指通過提供客觀證據(jù)認定軟件開發(fā)、軟件更新某一階段的輸出滿足輸入要求,包括軟件驗證測試(單元測試、集成測試、系統(tǒng)測試)、設計評審等系列活動。
軟件驗證應當明確法規(guī)、標準、用戶、產(chǎn)品、數(shù)據(jù)、功能、性能、接口、用戶界面、網(wǎng)絡安全、警示提示等測試要求,以驗證軟件的安全性和有效性,并作為軟件確認的基礎。
2. 軟件確認
軟件確認是指通過提供客觀證據(jù)認定軟件滿足用戶需求和預期目的,包括軟件確認測試(用戶測試)、臨床評價、設計評審等系列活動,其中軟件確認測試應當基于軟件需求在真實或模擬使用場景下予以實施。
(1)基本原則
臨床評價是此類軟件進行軟件確認的主要方式,相關要求詳見《醫(yī)療器械臨床評價技術指導原則》。根據(jù)軟件指導原則要求,軟件應當提交基于臨床試驗的臨床評價資料,即提交申報產(chǎn)品的臨床試驗資料,或者與申報產(chǎn)品核心算法具有實質等同性的同品種產(chǎn)品或同類軟件功能的臨床試驗資料。
進口軟件應當提供中外人種、流行病學特征、臨床診療規(guī)范等方面差異影響的臨床評價資料,若不足以證實申報產(chǎn)品在中國使用的安全性和有效性,應當在中國開展臨床試驗。使用境外臨床試驗數(shù)據(jù)應當滿足《接受醫(yī)療器械境外臨床試驗數(shù)據(jù)技術指導原則》要求。
(2)臨床試驗
臨床試驗應當符合《醫(yī)療器械臨床試驗質量管理規(guī)范》要求?蓞⒄铡夺t(yī)療器械臨床試驗設計指導原則》,基于軟件的預期用途、使用場景和核心功能進行試驗設計,確定觀察指標、樣本量估計、入排標準、隨訪以及實施機構等要求,以確認軟件的安全性和有效性。
建議優(yōu)先選擇同品種產(chǎn)品或臨床參考標準(即臨床金標準)進行非劣效對照設計,若無同品種產(chǎn)品且難以獲取臨床參考標準(如違背倫理學要求)可選擇替代方法,如選擇用戶結合軟件聯(lián)合決策與用戶單獨決策進行優(yōu)效對照設計。非劣效界值或優(yōu)效界值的確定應當有充分的臨床依據(jù)。此外考慮到用戶的差異性,可選擇多閱片者多病例(MRMC)試驗設計。
建議結合適用人群、病變等層面選擇觀察指標,原則上選擇敏感性、特異性、ROC/AUC作為主要觀察指標,亦可在此基礎上根據(jù)軟件特點選擇敏感性/特異性衍生指標、ROC/AUC衍生指標、組內(nèi)相關系數(shù)、Kappa系數(shù)、時間效率、數(shù)據(jù)有效使用率等指標作為觀察指標。
入排標準應當基于目標疾病流行病學特征,保證陽性樣本和陰性樣本選取的合理性和充分性。
建議臨床試驗結果由第三方獨立評價。
實施機構應當具備代表性和廣泛性,不同于訓練數(shù)據(jù)主要來源機構,地域分布盡可能廣泛,機構數(shù)量盡可能多,以確認算法泛化能力。
例如,預期以提高輔助診斷時間效率為首要目標的某軟件,無同品種產(chǎn)品且難以獲取臨床參考標準,其臨床試驗設計可選擇用戶結合軟件聯(lián)合決策與用戶單獨決策進行交叉對照設計,以敏感性、特異性、時間效率作為主要觀察指標,其中敏感性、特異性可為非劣性對照,時間效率指標應當為優(yōu)效對照。
(3)回顧性研究
臨床評價可采用基于現(xiàn)有歷史數(shù)據(jù)的回顧性研究。回顧性研究應當在設計時考慮并必須嚴格控制偏倚,如選擇偏倚、臨床參考標準偏倚、測量偏倚、記憶偏倚等;仡櫺匝芯吭瓌t上應當包含多個不同地域臨床機構(非訓練數(shù)據(jù)主要來源機構)的同期數(shù)據(jù),結合分層分析、第三方獨立評價等方法控制偏倚,以保證真實、準確評價軟件的安全性和有效性。
回顧性研究應當基于軟件安全性級別考慮使用問題。對于安全性級別為C級的高風險軟件,原則上應當開展臨床試驗,此時回顧性研究可用作臨床預試驗,為臨床試驗設計提供參考依據(jù),或者在少見亞組病例入組時間過長等情況下,用作臨床試驗的補充。對于安全性級別為B、A級的中低風險軟件,回顧性研究可用作臨床預實驗或替代臨床試驗。
軟件安全性級別應當基于軟件的預期用途、使用場景和核心功能進行綜合判定,判定方法詳見軟件指導原則。例如,預期用于病理圖像輔助篩查或者危重疾病輔助識別的軟件,其安全性級別通常為C級。
三、軟件更新
1
基本原則
軟件更新應當考慮對軟件安全性和有效性的影響,包括正面影響和負面影響。若為重大軟件更新(即影響到軟件安全性或有效性的軟件更新)應當申請許可事項變更,若為輕微軟件更新(即未影響軟件安全性和有效性的軟件更新)則無需申請許可事項變更,通過質量管理體系進行控制。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞