99久这里只有精品2019,99国产一区二区三区亚洲,亚洲人人爽人人爽人人片

AI如何更懂醫(yī)？看騰訊天衍實(shí)驗(yàn)室智能醫(yī)療診斷技術(shù)創(chuàng)新

2022-01-05 18:19

近年來，在互聯(lián)網(wǎng)技術(shù)和政策、疫情等大環(huán)境的推動(dòng)下，在線問診需求正高速增長，自然語言處理（NLP）技術(shù)在該領(lǐng)域的研究成果和應(yīng)用落地也越來越多。雖然，智能問診已經(jīng)能夠?qū)崿F(xiàn)預(yù)診斷，但很多時(shí)候系統(tǒng)給出的診斷結(jié)果與現(xiàn)實(shí)情況大相徑庭。舉例來說，當(dāng)我們能準(zhǔn)確地給出“體溫38．5度、有點(diǎn)發(fā)熱、四肢無力”等癥狀時(shí)，系統(tǒng)會(huì)比較容易根據(jù)提供的信息進(jìn)行詢問，給出如感冒、病毒感染等相對精準(zhǔn)基礎(chǔ)診斷；但如果給出諸如“疲勞”，甚至“累”“沒勁”“胸痛”等含糊不清的主訴，智能診斷系統(tǒng)可能就無能為力了。

這是因?yàn)�，目前�?jì)算機(jī)在文本理解的精度和深度上和人類仍然有很大的差距，特別是在醫(yī)學(xué)領(lǐng)域，不僅要求計(jì)算機(jī)學(xué)會(huì)龐大的專業(yè)術(shù)語，形成知識圖譜；更要能讀懂沒有專業(yè)知識的患者對于癥狀的模糊主訴，并將其與專業(yè)術(shù)語做關(guān)聯(lián)。

在此過程中，研究人員除了要給算法“投喂”龐大的專業(yè)語料和日常知識，提升算法能力，加強(qiáng)AI對真實(shí)世界的理解，還需要用更好的策略，選擇合適的模型，優(yōu)化醫(yī)療NLP領(lǐng)域目前面臨的問題，而這也是第二十屆中國計(jì)算語言學(xué)大會(huì)（下稱CCL2021）智能醫(yī)療對話診療評測——“智能化醫(yī)療診斷賽道”要解決的主要難點(diǎn)。

在此賽道中，騰訊天衍實(shí)驗(yàn)室團(tuán)隊(duì)提交的方案憑借較高的疾病預(yù)測準(zhǔn)確率和癥狀召回率，成功獲得該賽道第一名，下面我們來看看這套方案是如何進(jìn)行算法思考和模型選擇的。

任務(wù)難點(diǎn)：讓算法迅速讀懂“患者”

“智能化醫(yī)療診斷”賽道的任務(wù)是：需要選手開發(fā)一個(gè)模擬實(shí)際問診過程的可交互程序，用程序與擁有超過2000組醫(yī)患對話樣本的病人模擬器“過招”：首先，要與主辦方提供的baseline模型交手，判斷出“患者”的初始癥狀；然后，還要根據(jù)這些信息，輸出能夠進(jìn)一步獲取有效信息的問題，對“患者” 進(jìn)行接下來的癥狀詢問；最終，在不超過11次的交互過程中，識別出“患者”的疾病和癥狀。比賽結(jié)果也是以診斷準(zhǔn)確率和癥狀召回率來確定。

其中的難點(diǎn)是，2000組的對話樣本，每個(gè)都包含著大量數(shù)據(jù)信息：疾病類別、病人自訴文本、直接信息（病人自訴中明確提及的實(shí)體信息、癥狀），甚至隱藏信息（需要結(jié)合整段醫(yī)患對話得到實(shí)體及標(biāo)簽，判斷患者是否已經(jīng)有該癥狀）。并且，與現(xiàn)實(shí)世界病人一樣，機(jī)器“患者”不會(huì)一次性把癥狀表述清楚，比如出現(xiàn)一種癥狀多種描述等主訴表達(dá)。

選手開發(fā)的算法和對應(yīng)算法選擇的模型，不僅要能“讀懂”被“模糊描述”的癥狀，并迅速將癥狀分類；還要根據(jù)當(dāng)前詢問到的病人信息，準(zhǔn)確判斷出“患者”還可能具備什么癥狀，以便在有限的問診交互環(huán)節(jié)中，增加“患者”有效信息輸出，從而最大可能提升疾病診斷準(zhǔn)確率以及癥狀召回率。

因此，該任務(wù)不僅考驗(yàn)算法能力，更同時(shí)考驗(yàn)算法和模型的搭配策略，以提升程序問診的準(zhǔn)確性和效率。

方案對策：更高效的算法＋更合適的模型提升推理速度

為了讓AI更加理解“患者”信息，騰訊天衍實(shí)驗(yàn)室利用搜索、問答、預(yù)訓(xùn)練、分類等多項(xiàng)NLP、機(jī)器學(xué)習(xí)技術(shù)，進(jìn)行程序開發(fā)，整體方案分為癥狀問詢、疾病預(yù)測兩大版塊，每個(gè)版塊都采用相同模型預(yù)測方案，同時(shí)，每個(gè)版塊細(xì)分為三個(gè)部分：基于檢索查詢歷史病例、基于自然語言的癥狀／疾病預(yù)測、基于癥狀的癥狀／疾病預(yù)測（如圖所示）。這三個(gè)部分在同一個(gè)交互周期內(nèi)會(huì)同時(shí)運(yùn)行，并通過加權(quán)算法進(jìn)行“校準(zhǔn)”，來得到需要繼續(xù)問詢的癥狀或者輸出診斷的疾病。

癥狀問詢預(yù)測框架圖

基于檢索查詢歷史病例部分，利用了精準(zhǔn)搜索、模糊搜索，以及貝葉斯推理等技術(shù)，用來查找算法數(shù)據(jù)庫中的相似病例，這樣做的好處是，不僅能將主訴癥狀的模糊表述和精準(zhǔn)表述相結(jié)合，以拓寬對于主訴癥狀和疾病的檢索范圍，還能更高效地對癥狀進(jìn)行預(yù)測。

基于自然語言的疾病預(yù)測，是將癥狀列表轉(zhuǎn)化為自然語言后，利用預(yù)訓(xùn)練語言模型預(yù)測查詢癥狀概率分布。值得注意的是，此部分選手們采用的模型是天衍實(shí)驗(yàn)室自有的大規(guī)模醫(yī)療預(yù)訓(xùn)練語言模型MedBERT，它是基于大規(guī)模的醫(yī)療在線文本由Robert繼續(xù)訓(xùn)練得到的，不僅能更好適配醫(yī)療領(lǐng)域內(nèi)的語言學(xué)習(xí)，還在多項(xiàng)醫(yī)療標(biāo)準(zhǔn)數(shù)據(jù)集上取得了SOTA。相比通用預(yù)訓(xùn)練模型來說，MedBERT更能勝任醫(yī)療相關(guān)的任務(wù)執(zhí)行。

在癥狀／疾病的預(yù)測部分，方案采用了在多項(xiàng)賽事中被驗(yàn)證、分類效果表現(xiàn)優(yōu)異的分類器——xgboost模型，其優(yōu)勢是使學(xué)習(xí)出來的模型更加簡單，防止過擬合，因此，進(jìn)一步提升了算法運(yùn)行效率。

疾病預(yù)測框架圖

多策略融合召回預(yù)測的方式，不僅將檢索、自然語言疾病預(yù)測、癥狀疾病預(yù)測三種模型優(yōu)勢進(jìn)行互補(bǔ)，實(shí)現(xiàn)了更高的準(zhǔn)確率和癥狀召回率，同時(shí)，在癥狀召回上，還能鼓勵(lì)更多輪的癥狀問詢，并做良好的超參數(shù)配置調(diào)優(yōu)，從而獲得更高的癥狀召回率。正因如此，在最終評測中，天衍實(shí)驗(yàn)室在疾病預(yù)測準(zhǔn)確率和癥狀召回率上，均獲得了總分第一的成績，甚至，在癥狀召回率上，還超出其他團(tuán)隊(duì)方案10％以上。

這一成果的獲得，不僅表明天衍實(shí)驗(yàn)室在算法能力和模型具備相對優(yōu)勢，同時(shí)，這也是天衍實(shí)驗(yàn)室在醫(yī)療健康領(lǐng)域AI算法研究和應(yīng)用落地深耕多年的實(shí)力體現(xiàn)。

騰訊天衍實(shí)驗(yàn)室一直專注于醫(yī)療健康領(lǐng)域NLP研究，其成果已經(jīng)在騰訊互聯(lián)網(wǎng)醫(yī)院中的導(dǎo)輔診、合理用藥、健康助手等業(yè)務(wù)版塊成功落地。同時(shí)，天衍實(shí)驗(yàn)室還期望在行業(yè)層面推動(dòng)整個(gè)NLP的創(chuàng)新研究：如，在深度學(xué)習(xí)頂會(huì)ICLR 2021上舉辦MLPCP挑戰(zhàn)賽（醫(yī)療對話生成與自動(dòng)診斷國際挑戰(zhàn)賽），以推動(dòng)醫(yī)療咨詢對話系統(tǒng)和預(yù)測患者可能的疾病類型等方面的創(chuàng)新突破；攜手CCKS 2021（全國知識圖譜與語義計(jì)算大會(huì)）和中山大學(xué)舉辦蘊(yùn)含實(shí)體的中文醫(yī)療對話生成評測，以助力自然語言基礎(chǔ)、語言理解、信息抽取、知識圖譜構(gòu)建等領(lǐng)域的研究創(chuàng)新和算法能力提升……未來，天衍實(shí)驗(yàn)室仍將持續(xù)扎根醫(yī)療健康領(lǐng)域，持續(xù)探索和推動(dòng)NLP領(lǐng)域?qū)W術(shù)科研與應(yīng)用方向更多價(jià)值落地。

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的，請聯(lián)系我們。