人工智能能顛覆新藥研發(fā)嗎?
先關(guān)注一下人工智能近年來的戰(zhàn)績:
2015年估值就已達到17.81億美元的Benevolent AI公司,通過分析海量的科技文獻、專利和臨床實驗結(jié)果等挖掘潛在的知識產(chǎn)生新的假說,在肌萎縮側(cè)索硬化(ALS) 疾病治療上,發(fā)現(xiàn)的化合物在動物模型上顯示效果,準備進入臨床研究;另外它還把強生之前開發(fā)用于注意缺陷多動障礙(ADHD)失敗的Bavisant重新開發(fā)用于帕金森氏癥病人的日間極度嗜睡癥(EDS)的Phase 2b的驗證性試驗。
近期獲得軟銀領(lǐng)投的twoXAR,用人工智能技術(shù)平臺進行老藥新用,發(fā)現(xiàn)了艾塞那肽(Exenatide)和奧洛他定(Olopatadine)在類風濕性關(guān)節(jié)炎(RA)的動物模型上有較好的效果。
明碼生物的人工智能團隊與耶魯大學合作,發(fā)現(xiàn)了纖維細胞生長因子(FGF)通過糖酵解參與到血管發(fā)育的過程。
不過仔細想想,拿得出手的進展大多是臨床前的數(shù)據(jù),研究結(jié)果未發(fā)表或者發(fā)表在非同行評議的網(wǎng)站,而根據(jù)老藥新用的預(yù)測結(jié)果申請做一個Phase 2b的概念性驗證試驗并不是什么稀罕的事兒。通過實驗篩選,甚至臨床偶然觀察發(fā)現(xiàn)的老藥新用的事例數(shù)不勝數(shù)。至于FGF與血管發(fā)育的那篇文章,并沒有提到多少人工智能的內(nèi)容,更像是傳統(tǒng)的轉(zhuǎn)錄組學(RNA-seq)分析加GO富集分析(當然也可能是限于文章篇幅而沒有披露人工智能的細節(jié))。
但生物系統(tǒng)本身就很復(fù)雜,人工智能之前的傳統(tǒng)方法也同樣磕磕碰碰,毫無疑問人工智能可以幫助生物學家產(chǎn)生新的假說,但是否會是更好的假說仍面臨極大的挑戰(zhàn)。
首先,近期的Nature Reviews Drug Discovery統(tǒng)計了FDA批準的1578個藥物總共的靶點數(shù)目是667個,而Ensembl標注的潛在藥物靶點就有4479個,當然還有些其他的關(guān)于靶點數(shù)目的預(yù)估,數(shù)值有差異,但都遠大于目前已經(jīng)成藥的靶點,更何況每期的CNS文章里常有些看起來很有前景的新靶點,這些潛在的新靶點都是有或多或少obvious-data支持,而不僅僅是人工智能費力找出來的hidden-data。
我們究竟能有多大信心去花費足夠資源驗證這些由Natural Intelligence尋找的有obvious-data支持的新靶點?我們又能有多大信心去花費足夠資源驗證那些由人工智能尋找的有hidden-data支持的新靶點?
其次,大數(shù)據(jù)訓(xùn)練出來的人工智能的好處在于有問必有答,壞處也在于有問必有答。通過學習海量的文獻數(shù)據(jù),人工智能肯定能找出非常多的相關(guān)性, 無論強弱,但是信噪比如何?生物系統(tǒng)復(fù)雜異常,有著無數(shù)的獨立變量,深度學習的神經(jīng)網(wǎng)絡(luò)層數(shù)是否足夠處理?更重要的是,海量的文獻必然質(zhì)量參差不齊,存在著相當多的錯誤信息和結(jié)論、不可重復(fù)的實驗數(shù)據(jù)和結(jié)論、部分公開的實驗數(shù)據(jù)和結(jié)論,似是而非的實驗數(shù)據(jù)和結(jié)論,有意無意誤導(dǎo)性的實驗數(shù)據(jù)和結(jié)論,盲目追熱點導(dǎo)致給相關(guān)性加分的實驗數(shù)據(jù)和結(jié)論,筆者相信上述的這些情況,行業(yè)中人必然是深有體會。
基于這樣的數(shù)據(jù)集,人工智能該如何學習呢?一個優(yōu)秀的研究人員也需要多年的培訓(xùn)才有可能學會區(qū)分文獻中的可靠或不可靠信息,這其中隱含了大量的邏輯推理和常識,甚至偶爾還涉及到對文章作者學術(shù)名譽的估量,這些并不是人工智能所擅長的領(lǐng)域。
更進一步,我們都知道,相關(guān)性,即使是強相關(guān)性,也不是因果性。譬如全基因組關(guān)聯(lián)分析(GWAS)常告訴我們某些基因與某些疾病相關(guān)性很強,可這些基因離成為藥物靶點還離著十萬八千里,需要科學家一步步的去探索和驗證該基因與疾病的關(guān)系,弄明白具體的機制機理才有可能進入新藥研發(fā)人員的眼眸,這一晃也許十多年就過去了。一個新藥研發(fā)項目的啟動意味著大量資金和人力的投入,因此能真正進入到新藥研發(fā)管線中的藥物靶標都是精挑細選和嚴苛驗證的。所謂AI弱水三千,NI只取一瓢。
不過雖然生物體系異常復(fù)雜,但如果還原到更簡單的水平,譬如細胞水平,結(jié)合人工智能強大的圖像學習能力,有望取得突破。來自Janssen等公司和學校的研究人員,利用傳統(tǒng)的高通量篩選針對糖皮質(zhì)激素受體的細胞模型,篩選了50萬個化合物,獲得化合物的細胞表型圖像數(shù)據(jù),生成基于圖像的分子指紋, 同時結(jié)合這些化合物之前在500多種不同靶點的篩選模型中測定的生物學活性作為訓(xùn)練集,采用深度學習的方法訓(xùn)練出一個人工智能模型,然后可以根據(jù)化合物在糖皮質(zhì)激素受體的細胞表型圖像數(shù)據(jù),來預(yù)測化合物對其他不相關(guān)靶點的生物學活性數(shù)據(jù)。
這意味著單個高通量細胞表型圖像篩選模型可以取代許多耗時耗力構(gòu)建的特定靶點和通路的篩選模型, 顯著降低人力和時間成本。于此同時Cell Image Library提供了上萬的化合物處理細胞后不同的圖像和形態(tài)學數(shù)據(jù)以供人工智能學習,以尋找新的藥物作用新機制。筆者推測這方面的研究是否會催生一門新興學科-圖像基因組學(Imagenome),結(jié)合其他組學研究的數(shù)據(jù),綜合用來研究細胞水平的表型變化的分子機制。
總體而言,基于大數(shù)據(jù)的人工智能,擅長的是對已有知識的挖掘、重新組織和分配,所以人工智能可以學習已有的影像診斷規(guī)則,甚至能夠看得更細更快,也可以在海量的數(shù)據(jù)中尋找已有知識的關(guān)聯(lián)性。但每一次新藥研發(fā)的成功,都是人類突破已有的知識框架,對疾病認知的新突破。
新知識的產(chǎn)生,來源于人類的無數(shù)次試錯和實踐,而不是一條條畫在已有知識間的連線。能否更好的理解疾病,相信看到這里的讀者,已經(jīng)有了自己的判斷。那能否成規(guī)模的產(chǎn)生藥物候選物?究竟是“Garbage quick in, Garbage quick out”,還是另有洞天?(李偉)

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單