華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對(duì)開(kāi)源數(shù)據(jù)集
近日,華為與北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京大學(xué)化學(xué)與分子工程學(xué)院、深圳灣實(shí)驗(yàn)室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)多序列比對(duì)(Protein MSA)數(shù)據(jù)集,希望在標(biāo)準(zhǔn)化的數(shù)據(jù)集基礎(chǔ)上,支撐研究人員開(kāi)發(fā)先進(jìn)的AI模型,加深對(duì)蛋白質(zhì)結(jié)構(gòu)、功能和進(jìn)化的認(rèn)知,并進(jìn)行蛋白設(shè)計(jì)與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallary平臺(tái),相關(guān)代碼及數(shù)據(jù)集說(shuō)明將依托于華為全場(chǎng)景AI計(jì)算框架MindSpore進(jìn)行開(kāi)源開(kāi)放、定期擴(kuò)展與維護(hù),旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團(tuán)隊(duì)提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。
本次開(kāi)源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本(2021年2月發(fā)布)的UniRef50數(shù)據(jù)庫(kù)中的蛋白質(zhì)序列,采用學(xué)術(shù)界的“金標(biāo)準(zhǔn)”搜索方法,對(duì)約0.5億條蛋白序列進(jìn)行了充分的MSA搜索與比對(duì)(MSA平均深度大于1000),是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開(kāi)源蛋白質(zhì)MSA數(shù)據(jù)集(之前最大的開(kāi)源MSA數(shù)據(jù)集包含10萬(wàn)個(gè)蛋白MSA)【1】。
人類已知的蛋白質(zhì)序列已經(jīng)超過(guò)4.4億條,但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫(kù),很難了解蛋白之間的關(guān)系。Protein MSA數(shù)據(jù)庫(kù)是一個(gè)對(duì)不同蛋白質(zhì)序列之間的關(guān)系進(jìn)行了標(biāo)記的大規(guī)!瓣P(guān)系型”數(shù)據(jù)庫(kù),被標(biāo)記為關(guān)聯(lián)的蛋白質(zhì)序列之間的相似度、進(jìn)化關(guān)系、突變所在位點(diǎn)的分布等信息對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)極為重要。
為了更好地服務(wù)于跨領(lǐng)域的研究人員,Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集(近30T)將以UniRef系列數(shù)據(jù)庫(kù)【2】和UniClust數(shù)據(jù)庫(kù)【3】的標(biāo)準(zhǔn)文本形式存儲(chǔ),并按照序列長(zhǎng)度進(jìn)行分割與壓縮。為了便于AI領(lǐng)域的研究人員直接使用,Protein MSA數(shù)據(jù)集還會(huì)將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點(diǎn)數(shù)張量類型壓縮存儲(chǔ),并對(duì)已有的AI框架如MindSpore進(jìn)行數(shù)據(jù)接口的支持。
高毅勤教授表示:“我們鼓勵(lì)并期待來(lái)自生物信息學(xué)、數(shù)據(jù)科學(xué)和AI研究等領(lǐng)域的專家和人才充分碰撞與合作,引入、改進(jìn)或設(shè)計(jì)全新的AI模型,來(lái)充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。
從科學(xué)的角度看,MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進(jìn)結(jié)構(gòu)模型的預(yù)測(cè)速度和精度,而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預(yù)測(cè)方法中決定速度的主要步驟之一。因此,Protein MSA數(shù)據(jù)庫(kù)本身可以作為這些結(jié)構(gòu)預(yù)測(cè)模型的預(yù)訓(xùn)練材料,用來(lái)挖掘序列信息甚至快速生成新的序列特征,這對(duì)解決研究、設(shè)計(jì)蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問(wèn)題具有巨大的潛在價(jià)值。
此次數(shù)據(jù)庫(kù)的發(fā)布,依托于華為云AI Gallery平臺(tái),能夠充分保障國(guó)內(nèi)外用戶對(duì)于數(shù)據(jù)集的訪問(wèn)和下載,并提供可持續(xù)更新與擴(kuò)充的先進(jìn)數(shù)據(jù)維護(hù)方案以及下游AI應(yīng)用與部署的相關(guān)支持,融合了產(chǎn)、學(xué)、研相結(jié)合的研究模式的優(yōu)勢(shì)。此外,華為也與北京大學(xué)高毅勤課題組聯(lián)合開(kāi)發(fā)并開(kāi)源了首個(gè)國(guó)產(chǎn)分子動(dòng)力學(xué)軟件MindSponge。未來(lái),華為將牽手更多的學(xué)術(shù)科研界合作伙伴,在材料、生物、醫(yī)藥等更廣泛的科學(xué)計(jì)算領(lǐng)域打造數(shù)據(jù)推動(dòng)的研究新模式。
附:
【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.
【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.
【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., S?ding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
ChatZOC,藏在口袋里的「眼科醫(yī)生」
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
技術(shù)文庫(kù)
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺(jué)升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
- 1 恒瑞醫(yī)藥總算松了一口氣
- 2 中國(guó)創(chuàng)新藥,群星閃耀的時(shí)代來(lái)了!
- 3 2歲就能用,澤德曼成7000萬(wàn)人的“藥神”?
- 4 翰森制藥,醫(yī)藥界的“老實(shí)人”
- 5 他研發(fā)的新藥,改寫了全球皮膚病的治療格局
- 6 License-out潮來(lái)襲:誰(shuí)是下一個(gè)出海爆款?
- 7 港股創(chuàng)新藥走出至暗時(shí)刻
- 8 起底“神藥”艾本那肽
- 9 治療性癌癥疫苗的突破與未來(lái)展望
- 10 三生制藥股價(jià)飆漲32.28%:怎樣一款“拳頭產(chǎn)品”贏得了“宇宙大藥廠”的心?