侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

百川開(kāi)源最新醫(yī)療大模型,中國(guó)力量領(lǐng)跑醫(yī)療AI賽道

文|白 鴿

編|王一粟

專注醫(yī)療后,百川智能交出第一份答卷!8月11日,百川智能發(fā)布第二款開(kāi)源醫(yī)療增強(qiáng)推理大模型Baichuan-M2,其以32B的參數(shù)量,在OpenAI的Healthbench評(píng)測(cè)集上,超越其剛剛發(fā)布5天的開(kāi)源模型gpt-oss-120b。

除gpt-oss-120b外,Baichuan-M2還領(lǐng)先GPT-5以外所有開(kāi)源與閉源前沿模型,以更小尺寸模型實(shí)現(xiàn)醫(yī)療能力反超,在所有開(kāi)源模型中登頂世界第一。

同時(shí),在落地應(yīng)用浪潮下,大模型所追求的,不再只是效果好,還要能低成本落地。

尤其是在醫(yī)療健康領(lǐng)域,模型涉及更多敏感隱私信息,醫(yī)療健康機(jī)構(gòu)對(duì)私有化部署有著強(qiáng)烈的需求,而私有化部署往往意味著高昂的部署成本。

Baichuan-M2的落地門檻則非常低,其支持RTX4090單卡部署,進(jìn)一步提升了模型在真實(shí)醫(yī)療場(chǎng)景中的落地可能性與可擴(kuò)展性。

這短短5天 “攻防戰(zhàn)”,不僅改寫(xiě)了全球醫(yī)療大模型的實(shí)力排名,更重要的一點(diǎn)在于,在中美通用大模型差距持續(xù)擴(kuò)大的背景下,中國(guó)團(tuán)隊(duì)可以在AI垂直行業(yè)大模型賽道中,實(shí)現(xiàn)彎道超車。

當(dāng)前,醫(yī)療是大模型最重要、最有潛力的應(yīng)用領(lǐng)域之一,正在逐漸成為全球共識(shí)。不過(guò),作為應(yīng)用底座的醫(yī)療大模型,現(xiàn)階段行業(yè)中并未有特別突出的產(chǎn)品。

即使是OpenAI最新發(fā)布的GPT-5,其數(shù)學(xué)能力滿分,代碼、寫(xiě)作、知識(shí)能力的成績(jī)也都很高,但醫(yī)療領(lǐng)域的得分依舊很低。

這也說(shuō)明,醫(yī)療大模型仍有很長(zhǎng)的路要走。

而中美垂直行業(yè)大模型的能力差距并不大,作為中國(guó)頭部大模型企業(yè)代表,百川智能此次在醫(yī)療大模型上,已實(shí)現(xiàn)與OpenAI的并駕齊驅(qū)。

那么,作為國(guó)內(nèi)最早全力押注醫(yī)療AI賽道的大模型創(chuàng)企,百川智能又是如何做到彎道超車的?

力壓全球醫(yī)療大模型,拆解Baichuan-M2硬實(shí)力

長(zhǎng)期以來(lái),模型在醫(yī)學(xué)考試(如 USMLE)上的表現(xiàn)被視為衡量其醫(yī)療能力的重要指標(biāo),但隨著相關(guān)題庫(kù)的飽和,這類選擇題或短回復(fù)的評(píng)測(cè)已難以全面反映模型的真實(shí)臨床實(shí)用性。

畢竟,醫(yī)療AI并不等于“刷題機(jī)器”,考試分?jǐn)?shù)再高,也未必意味著在真實(shí)醫(yī)療場(chǎng)景中好用。

因此,醫(yī)療能力的評(píng)測(cè)需要有系統(tǒng)化的方法,驗(yàn)證模型在推理決策、臨床溝通等關(guān)鍵能力上的綜合表現(xiàn)。

今年5月,OpenAI發(fā)布權(quán)威且貼近真實(shí)臨床場(chǎng)景的HealthBench醫(yī)療健康評(píng)測(cè)集。

該測(cè)評(píng)集包含了5000個(gè)廣泛場(chǎng)景覆蓋的醫(yī)患多輪對(duì)話,并通過(guò)由262個(gè)人類醫(yī)生編寫(xiě)的48562個(gè)醫(yī)療評(píng)價(jià)規(guī)則來(lái)對(duì)模型能力進(jìn)行評(píng)估,是全球公認(rèn)的醫(yī)療大模型“能力試金石”。

該數(shù)據(jù)集主要包含2個(gè)版本:

HealthBench:標(biāo)準(zhǔn)版本,包含5000條對(duì)話和對(duì)應(yīng)準(zhǔn)則。

HealthBench Hard:包含1000個(gè)特別具有挑戰(zhàn)性的案例。

在HealthBench中,Baichuan-M2得到60.1高分,反超OpenAI最新開(kāi)源模型gpt-oss120b(得分57.6),還力壓Qwen3-235B、Deepseek R1、Kimi K2等當(dāng)前世界所有開(kāi)源大模型。

同時(shí),Baichuan M2在醫(yī)療對(duì)話任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),如緊急醫(yī)療響應(yīng)、醫(yī)療上下文理解、醫(yī)患溝通能力、全球健康知識(shí)覆蓋及醫(yī)學(xué)思維完備性等核心醫(yī)療場(chǎng)景性能全面領(lǐng)先。

HealthBench Hard,是一個(gè)針對(duì)更復(fù)雜困難場(chǎng)景的數(shù)據(jù)集,用于驗(yàn)證模型多維度、全景化解決疑難復(fù)雜醫(yī)學(xué)問(wèn)題的能力。

據(jù)悉,此前該測(cè)試集發(fā)布時(shí),世界上所有頂尖模型得分都沒(méi)超過(guò)32分,許多前沿模型得分甚至為0。

GPT-5發(fā)布時(shí),OpenAI也特別強(qiáng)調(diào),其是HealthBench Hard評(píng)測(cè)全球唯一超過(guò)32分的模型。

但現(xiàn)在Baichuan-M2打破了這一紀(jì)錄,其以34.7分成為全球第二款超過(guò)32分的模型,力壓世界所有其他頂尖閉源大模型。而B(niǎo)aichuan-M2和GPT-5也是目前全球唯二超過(guò)32分的模型。

事實(shí)上,盡管HealthBench已收集大量真實(shí)醫(yī)療場(chǎng)景,但現(xiàn)實(shí)情況往往更加復(fù)雜多樣。

不過(guò),基于其評(píng)測(cè),也至少能夠證明在多數(shù)醫(yī)療場(chǎng)景上的問(wèn)答質(zhì)量,GPT-5和Baichuan-M2已經(jīng)超越資深醫(yī)生,特別是在知識(shí)更新速度和全面性上,完全可以給人類醫(yī)生強(qiáng)大支持。

那么,百川智能的Baichuan-M2醫(yī)療大模型,是如何以32B參數(shù),實(shí)現(xiàn)以小博大?其核心思路,就是讓大模型像醫(yī)生一樣思考、應(yīng)對(duì)真實(shí)醫(yī)患場(chǎng)景。

從技術(shù)角度來(lái)說(shuō),其背后則是百川智能在大型驗(yàn)證系統(tǒng)(Large Verifier System)、端到端強(qiáng)化學(xué)習(xí)、AI患者模擬器、多類型醫(yī)療數(shù)據(jù)用于深度推理等4個(gè)方面的創(chuàng)新探索。

近一年來(lái),大語(yǔ)言模型后訓(xùn)練范式的升級(jí),特別是基于RLVR(Reinforcement Learning with Verifiable Rewards)方法的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,帶來(lái)了大模型效果的顯著提升,尤其是在有明確答案的數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域。

但是,強(qiáng)化學(xué)習(xí)在數(shù)學(xué)、代碼、科學(xué)等領(lǐng)域之所以能夠顯著提升模型能力,是因?yàn)檫@些領(lǐng)域的數(shù)據(jù)是靜態(tài)的,由簡(jiǎn)潔的問(wèn)題和答案構(gòu)成。

而醫(yī)療問(wèn)題卻是復(fù)雜問(wèn)題,沒(méi)有標(biāo)準(zhǔn)答案,同一個(gè)癥狀可能存在不同病因,同一病因,患者的體格、病史、用藥史、藥物耐受程度不一樣,治療方案也會(huì)不同。

因此,醫(yī)療領(lǐng)域的強(qiáng)化學(xué)習(xí)不僅要驗(yàn)證診斷結(jié)果、治療方案的準(zhǔn)確性,還要驗(yàn)證大模型的問(wèn)診對(duì)話過(guò)程是否符合醫(yī)生思維,是一個(gè)動(dòng)態(tài)驗(yàn)證的形式,也就導(dǎo)致傳統(tǒng)強(qiáng)化學(xué)習(xí)規(guī)則在醫(yī)療領(lǐng)域表現(xiàn)并不好。

針對(duì)這一現(xiàn)狀,百川智能則以構(gòu)建Large Verifier System為核心,在通用Verifier之外,結(jié)合醫(yī)療場(chǎng)景自身特點(diǎn)設(shè)計(jì)了一套較為全面的醫(yī)療Verifier系統(tǒng)。

用通俗的話來(lái)理解,如果將大模型比作一位醫(yī)學(xué)實(shí)習(xí)生,那么這個(gè)系統(tǒng)就像是一個(gè)要求極高、異常挑剔的醫(yī)療專家。它會(huì)從醫(yī)療正確性、完備性、安全性以及對(duì)患者的友好性等多個(gè)維度,細(xì)致地評(píng)估模型的輸出,指出其不足并引導(dǎo)模型改正,使其思維方式更貼近專業(yè)醫(yī)生。

但想要讓這個(gè)系統(tǒng)成為嚴(yán)謹(jǐn)?shù)尼t(yī)療專家,最大的難點(diǎn)在于,人類醫(yī)生在聽(tīng)取患者描述病情時(shí),很容易分辨患者描述中的邏輯漏洞、從含混不清的表達(dá)中辨別出真實(shí)病因,F(xiàn)實(shí)中患者幾乎無(wú)法全面準(zhǔn)確表達(dá)自己的癥狀,僅基于靜態(tài)的病例、指南等醫(yī)療數(shù)據(jù)訓(xùn)練,模型無(wú)法掌握人類醫(yī)生的這一能力。

而為了突破這一瓶頸,百川技術(shù)團(tuán)隊(duì)升級(jí)迭代了今年初首創(chuàng)的“AI患者模擬器”。

今年1月,百川在arXiv上發(fā)表AI患者模擬器,用真實(shí)數(shù)據(jù)構(gòu)造上萬(wàn)個(gè)不同年齡性別癥狀的AI患者,能夠模擬千差萬(wàn)別患者的癥狀和表達(dá),特別是包含錯(cuò)誤噪聲的表達(dá),最大程度還原真實(shí)醫(yī)療場(chǎng)景。

7個(gè)月后,百川升級(jí)患者模擬器并引入模型端到端強(qiáng)化學(xué)習(xí),訓(xùn)練的Baichuan-M2在HealthBench等評(píng)測(cè)上取得更大突破。

這個(gè)模擬器的具體作用就是讓AI在訓(xùn)練時(shí),不斷和這個(gè)虛擬病人聊天,而在聊天的過(guò)程中,“考官” 會(huì)實(shí)時(shí)根據(jù)聊天情況,動(dòng)態(tài)調(diào)整打分標(biāo)準(zhǔn),幫AI練出“隨機(jī)應(yīng)變”的能力,即就算病人說(shuō)的信息亂、不全,也能重新判斷病情,以及會(huì)看病人說(shuō)的信息夠不夠,決定是繼續(xù)問(wèn)還是直接給結(jié)論。

而為了AI能夠更好的學(xué)習(xí)醫(yī)學(xué)知識(shí),百川智能還采用了多階段強(qiáng)化學(xué)習(xí)策略(Multi- Stage RL),將復(fù)雜的強(qiáng)化學(xué)習(xí)任務(wù)分解為幾個(gè)易于管理的、分層的訓(xùn)練階段。

就像學(xué)車要先練直線、再練轉(zhuǎn)彎、最后上馬路,AI學(xué)當(dāng)醫(yī)生也分階段練,先練“醫(yī)學(xué)常識(shí)”,再練“和病人聊天的技巧”,最后練“復(fù)雜病例的診斷”,一步步提升,避免一下子學(xué)太難而懵圈。

綜合來(lái)看,用“智能考官”判斷AI表現(xiàn),用“真實(shí)病例 + 虛擬病人”模擬實(shí)戰(zhàn),分階段訓(xùn)練讓AI既懂醫(yī)學(xué)知識(shí),又能靈活應(yīng)對(duì)真實(shí)醫(yī)患場(chǎng)景,百川智能最終使大模型具備了一個(gè)靠譜醫(yī)生的能力。

但在當(dāng)前AI大模型落地應(yīng)用浪潮中,大模型不僅僅要有能力,更重要的還是能落地,尤其是在垂直行業(yè)中,很多時(shí)候都面臨著大模型效果是很好,但部署運(yùn)營(yíng)成本太高,終成demo的情況。

醫(yī)療大模型落地,既要效果好還要成本低

早在2016年的深度學(xué)習(xí)浪潮中,AI就已經(jīng)開(kāi)始在醫(yī)療場(chǎng)景落地,但彼時(shí)更多是聚焦在語(yǔ)音語(yǔ)義、圖像等方面的應(yīng)用,以及單點(diǎn)功能(病例錄入、智能閱片)的落地。

但這一代醫(yī)療大模型開(kāi)啟了全新范式,其能力與上一代醫(yī)療AI相比已經(jīng)產(chǎn)生了質(zhì)的飛躍,醫(yī)療大模型不僅僅是醫(yī)學(xué)知識(shí)的問(wèn)答引擎與效率提升的工具,它能夠通過(guò)Agent的方式全流程融入到診中、診前、診后的各個(gè)環(huán)節(jié),為AI落地醫(yī)療真實(shí)場(chǎng)景打開(kāi)了更廣闊的空間。

百川智能醫(yī)療大模型的迭代和落地正是這一顛覆性變化的側(cè)寫(xiě)。

在實(shí)踐應(yīng)用中,今年2月,以Baichuan-M1為底座的AI兒科醫(yī)生在國(guó)家兒科醫(yī)學(xué)中心多學(xué)科會(huì)診中大放異彩,獲得會(huì)診專家一致認(rèn)可。M2則在醫(yī)療溝通、診斷合理、檢查合理、醫(yī)療治療、醫(yī)療安全六個(gè)維度相較于M1均顯著提升。

這背后最關(guān)鍵的一點(diǎn)在于,Baichuan-M2為了更適配中國(guó)醫(yī)療場(chǎng)景,也從中國(guó)醫(yī)學(xué)指南對(duì)齊、醫(yī)療政策適配和患者需求洞察等多個(gè)維度進(jìn)行了深度優(yōu)化。

在中國(guó)臨床診療場(chǎng)景的問(wèn)題評(píng)測(cè)中,對(duì)比gpt-oss系列模型,Baichuan-M2展現(xiàn)出更明顯的可用性優(yōu)勢(shì),其中部分優(yōu)勢(shì)就來(lái)源自中國(guó)醫(yī)療場(chǎng)景的適配性,例如針對(duì)臨床診療的案例,M2更貼合中國(guó)醫(yī)療場(chǎng)景,更遵循中國(guó)權(quán)威指南推薦。

以某一個(gè)真實(shí)的肝癌治療案例中,針對(duì)CNLC IIa期(BCLC B期)的肝細(xì)胞肝癌患者,M2首選推薦在具備手術(shù)條件的情況下進(jìn)行解剖性肝右葉切除(或根據(jù)腫瘤具體位置,可考慮擴(kuò)大右半肝切除、右三葉切除等),目標(biāo)是R0切除。

原因在于,依據(jù)國(guó)家衛(wèi)健委發(fā)布的《原發(fā)性肝癌診療指南》(2024版),肝切除術(shù)是潛在根治性治療,可提供最佳的長(zhǎng)期生存獲益。

同樣的案例,gpt-oss-120b建議首選治療經(jīng)動(dòng)脈化療栓塞術(shù)(TACE),理由是符合BCLCB期治療指南,當(dāng)前情況下手術(shù)切除和移植風(fēng)險(xiǎn)不理想。

臨床醫(yī)學(xué)專家認(rèn)為,類似這樣的情況還有很多。

僅就這個(gè)案例來(lái)說(shuō),手術(shù)切除或TACE都是可選方案,只是中西方指南不同,不是醫(yī)學(xué)上的高下之分,而是基于本地患者特點(diǎn)、醫(yī)療資源與當(dāng)前醫(yī)學(xué)發(fā)展水平權(quán)衡之下的最優(yōu)解。

畢竟,醫(yī)療大模型能否將全球醫(yī)學(xué)知識(shí)、醫(yī)學(xué)證據(jù)轉(zhuǎn)化為符合本地優(yōu)勢(shì)特長(zhǎng)的臨床決策,也是為醫(yī)生和患者提供切實(shí)服務(wù)能力的關(guān)鍵。

Baichuan-M2則為此所做的專門優(yōu)化,讓中國(guó)臨床場(chǎng)景有了專屬的頂尖模型。此外,更為重要的一點(diǎn)在于,Baichuan-M2能夠讓中國(guó)萬(wàn)千醫(yī)療機(jī)構(gòu)以更低的成本部署使用。

業(yè)內(nèi)皆知,醫(yī)療大模型落地面臨“兩難”,即追求高精度往往意味著高成本,如閉源模型授權(quán)費(fèi)、定制化開(kāi)發(fā)投入,而低成本方案又難以滿足臨床核心需求,尤其是在復(fù)雜場(chǎng)景的推理上。

Baichuan-M2則通過(guò)技術(shù)優(yōu)化和開(kāi)源的方式,降低了醫(yī)療機(jī)構(gòu)的部署成本。

百川智能通過(guò)多種PTQ量化策略,對(duì)Baichuan-M2進(jìn)行權(quán)重4bit量化,量化后模型精度接近無(wú)損,可在RTX4090上單卡部署,相比DeepSeek-R1 H20雙節(jié)點(diǎn)部署方式,成本降低了57倍。

同時(shí),其基于Eagle-3訓(xùn)練了Baichuan-M2-Spec版本,單用戶場(chǎng)景下token吞吐可獲得74.9%的提升。

另外,開(kāi)源大模型特性是支持二次開(kāi)發(fā),可根據(jù)具體場(chǎng)景輕量化訓(xùn)練,避免“大而全”的冗余成本,模型權(quán)重、訓(xùn)練代碼全開(kāi)放,企業(yè)/機(jī)構(gòu)無(wú)需支付授權(quán)費(fèi)。

百川M2開(kāi)源醫(yī)療大模型為中國(guó)醫(yī)療AI提供了“低成本突破”的路徑,推動(dòng)醫(yī)療AI技術(shù)的普惠應(yīng)用。它通過(guò)“高精度推理 + 開(kāi)源低成本”的組合,證明醫(yī)療大模型落地?zé)o需在效果與成本間妥協(xié)。

直面全球差距,中國(guó)醫(yī)療AI的突圍之道

今年是AI大模型浪潮興起的第三年,但在全球市場(chǎng)中,中國(guó)通用大模型一直處于跟隨者地位。

近期在由谷歌Kaggle推出的首屆全球AI象棋爭(zhēng)霸賽中,一眾中國(guó)大模型也表現(xiàn)并不佳,首輪比賽中就被淘汰出局。

我們可以看到,在通用大模型上,中美之間始終存在著差距,無(wú)論是在能力上,還是在技術(shù)創(chuàng)新層面,差距也仍在不斷擴(kuò)大。

但相比較來(lái)說(shuō),中國(guó)更擅長(zhǎng)的地方,則在于推動(dòng)大模型走向落地應(yīng)用,而這也是我們?cè)贏I垂直行業(yè)賽道能夠彎道超車的關(guān)鍵。

百川智能作為中國(guó)大模型創(chuàng)企之一,選擇醫(yī)療這一“中國(guó)有需求、有數(shù)據(jù)優(yōu)勢(shì)” 的領(lǐng)域深耕,用反超OpenAI的成績(jī)證明 “中國(guó)可以在垂直賽道做全球第一”。

而通過(guò)開(kāi)源大模型的模式,也可以降低醫(yī)療AI技術(shù)門檻,讓全球研究者、醫(yī)療機(jī)構(gòu)可直接復(fù)用模型,在細(xì)分的醫(yī)療領(lǐng)域構(gòu)建出自己的專屬模型,加速醫(yī)療AI的落地與創(chuàng)新。

此次發(fā)布會(huì)后,M2模型將進(jìn)入全面落地期,百川將與國(guó)家兒童醫(yī)學(xué)中心、北京大學(xué)第三醫(yī)院、海淀衛(wèi)健委等探索AI+醫(yī)療的深度應(yīng)用,真正推動(dòng)AI醫(yī)療從 “實(shí)驗(yàn)室” 走向 “臨床一線”。未來(lái),隨著模型的落地,將為基層醫(yī)療、疾病診斷等場(chǎng)景帶來(lái)革新,推動(dòng)“AI醫(yī)療惠及全民”。

       原文標(biāo)題 : 百川開(kāi)源最新醫(yī)療大模型,中國(guó)力量領(lǐng)跑醫(yī)療AI賽道

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)