色妞网欧美,看风景的过程人妻少妇大乳在线放 ,亚洲成人黄色小说

華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集

2021-09-09 17:56

近日，華為與北京大學生物醫(yī)學前沿創(chuàng)新中心（BIOPIC）、北京大學化學與分子工程學院、深圳灣實驗室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)多序列比對（Protein MSA）數(shù)據(jù)集，希望在標準化的數(shù)據(jù)集基礎(chǔ)上，支撐研究人員開發(fā)先進的AI模型，加深對蛋白質(zhì)結(jié)構(gòu)、功能和進化的認知，并進行蛋白設(shè)計與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallary平臺，相關(guān)代碼及數(shù)據(jù)集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護，旨在為全世界相關(guān)的產(chǎn)、學、研團隊提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。

本次開源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本（2021年2月發(fā)布）的UniRef50數(shù)據(jù)庫中的蛋白質(zhì)序列，采用學術(shù)界的“金標準”搜索方法，對約0．5億條蛋白序列進行了充分的MSA搜索與比對（MSA平均深度大于1000），是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開源蛋白質(zhì)MSA數(shù)據(jù)集（之前最大的開源MSA數(shù)據(jù)集包含10萬個蛋白MSA）【1】。

人類已知的蛋白質(zhì)序列已經(jīng)超過4．4億條，但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫，很難了解蛋白之間的關(guān)系。Protein MSA數(shù)據(jù)庫是一個對不同蛋白質(zhì)序列之間的關(guān)系進行了標記的大規(guī)�！瓣P(guān)系型”數(shù)據(jù)庫，被標記為關(guān)聯(lián)的蛋白質(zhì)序列之間的相似度、進化關(guān)系、突變所在位點的分布等信息對蛋白質(zhì)結(jié)構(gòu)和功能的預測極為重要。

為了更好地服務(wù)于跨領(lǐng)域的研究人員，Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集（近30T）將以UniRef系列數(shù)據(jù)庫【2】和UniClust數(shù)據(jù)庫【3】的標準文本形式存儲，并按照序列長度進行分割與壓縮。為了便于AI領(lǐng)域的研究人員直接使用，Protein MSA數(shù)據(jù)集還會將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點數(shù)張量類型壓縮存儲，并對已有的AI框架如MindSpore進行數(shù)據(jù)接口的支持。

高毅勤教授表示：“我們鼓勵并期待來自生物信息學、數(shù)據(jù)科學和AI研究等領(lǐng)域的專家和人才充分碰撞與合作，引入、改進或設(shè)計全新的AI模型，來充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。

從科學的角度看，MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進結(jié)構(gòu)模型的預測速度和精度，而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預測方法中決定速度的主要步驟之一。因此，Protein MSA數(shù)據(jù)庫本身可以作為這些結(jié)構(gòu)預測模型的預訓練材料，用來挖掘序列信息甚至快速生成新的序列特征，這對解決研究、設(shè)計蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

此次數(shù)據(jù)庫的發(fā)布，依托于華為云AI Gallery平臺，能夠充分保障國內(nèi)外用戶對于數(shù)據(jù)集的訪問和下載，并提供可持續(xù)更新與擴充的先進數(shù)據(jù)維護方案以及下游AI應用與部署的相關(guān)支持，融合了產(chǎn)、學、研相結(jié)合的研究模式的優(yōu)勢。此外，華為也與北京大學高毅勤課題組聯(lián)合開發(fā)并開源了首個國產(chǎn)分子動力學軟件MindSponge。未來，華為將牽手更多的學術(shù)科研界合作伙伴，在材料、生物、醫(yī)藥等更廣泛的科學計算領(lǐng)域打造數(shù)據(jù)推動的研究新模式。

附：

【1】AlQuraishi， Mohammed．＂ProteinNet： a standardized data set for machine learning of protein structure．＂ BMC bioinformatics 20．1 （2019）： 1－10．

【2】Suzek， B． E．， Wang， Y．， Huang， H．， McGarvey， P． B．， Wu， C． H．，＆ UniProt Consortium．（2015）． UniRef clusters： a comprehensive and scalable alternative for improving sequence similarity searches． Bioinformatics， 31（6）， 926－932．

【3】Mirdita M．＊， von den Driesch L．＊， Galiez C．， Martin M． J．， S?ding J．＃， and Steinegger M．＃， Uniclust databases of clustered and deeply annotated protein sequences and alignments， Nucleic Acids Res． 2016．