極道:探尋生命科學(xué)領(lǐng)域數(shù)據(jù)“多樣化”的解決之道
近年來(lái)生命科學(xué)領(lǐng)域的數(shù)據(jù)量呈爆炸式增長(zhǎng)的趨勢(shì),包括基因測(cè)序、臨床檢測(cè)、冷凍電鏡、腦科學(xué)等。數(shù)據(jù)的爆發(fā)增長(zhǎng)導(dǎo)致了數(shù)據(jù)和數(shù)據(jù)分析方式呈現(xiàn)出多樣化的特征,而這些“多樣化”特征是多個(gè)層次的,如何解讀生命科學(xué)領(lǐng)域數(shù)據(jù)多樣化帶來(lái)的一系列挑戰(zhàn),成為了業(yè)內(nèi)及數(shù)據(jù)系統(tǒng)公司需要解決的一大難題。
數(shù)據(jù)類型的“多樣化”
第一個(gè)層次的“多樣化”是數(shù)據(jù)類型的多樣化。
這包括動(dòng)植物基因組學(xué)數(shù)據(jù)、醫(yī)學(xué)臨床數(shù)據(jù)、結(jié)構(gòu)生物學(xué)研究中冷凍電鏡產(chǎn)生的蛋白和大分子結(jié)構(gòu)數(shù)據(jù),甚至還包括由3D基因組學(xué)發(fā)展而來(lái)的3維基因空間結(jié)構(gòu)數(shù)據(jù)。多樣化的數(shù)據(jù)類型,讓能夠觀察到和分析出來(lái)的數(shù)據(jù)特征越來(lái)越多樣化。
除了門、綱、目、科、屬、種、變異、突變、臨床表征等,越來(lái)越多維度的數(shù)據(jù)特征進(jìn)入了生命科學(xué)研究工作者的視野中。如何從多樣化的數(shù)據(jù)特征中發(fā)現(xiàn)數(shù)據(jù)、利用數(shù)據(jù)特征生成多維度數(shù)據(jù)集合,對(duì)數(shù)據(jù)的管理提出了相當(dāng)高的要求。
非結(jié)構(gòu)化數(shù)據(jù)的“非結(jié)構(gòu)”特性本身造成了管理上的困難,同時(shí)海量數(shù)據(jù)的特征越來(lái)越豐富,數(shù)十億級(jí)別的數(shù)據(jù)加上每個(gè)數(shù)據(jù)都可能有多個(gè)不同強(qiáng)關(guān)聯(lián)的特征,而利用關(guān)系型數(shù)據(jù)庫(kù)加數(shù)據(jù)路徑實(shí)現(xiàn)的傳統(tǒng)LIMS系統(tǒng)來(lái)進(jìn)行數(shù)據(jù)管理的方式,其擴(kuò)展性差、海量數(shù)據(jù)強(qiáng)關(guān)聯(lián)搜索效率極低并且難以分析的弱點(diǎn)也逐漸被暴露出來(lái)。
針對(duì)這一現(xiàn)象,極道的新型數(shù)據(jù)管理系統(tǒng)能夠利用分布式圖技術(shù)對(duì)數(shù)據(jù)進(jìn)行大規(guī)模強(qiáng)關(guān)聯(lián)實(shí)時(shí)數(shù)據(jù)特征管理,解決生命科學(xué)領(lǐng)域用戶的多樣化數(shù)據(jù)特征的痛點(diǎn),有序管理、快速搜索、生成多維度數(shù)據(jù)視圖。
數(shù)據(jù)計(jì)算模式的“多樣化”
第二個(gè)層次的“多樣化”是數(shù)據(jù)計(jì)算模式的多樣化。
傳統(tǒng)的生命科學(xué)領(lǐng)域無(wú)論是基因測(cè)序還是冷凍電鏡數(shù)據(jù),通常采用的是批量計(jì)算或者高性能計(jì)算的工具和算法。但是隨著計(jì)算技術(shù)的發(fā)展,計(jì)算模式的不斷進(jìn)步,更多新型方法實(shí)現(xiàn)的算法和工具加入到生命科學(xué)相關(guān)領(lǐng)域的研究和生產(chǎn)中。比如測(cè)序領(lǐng)域的GATK4spark和一些其他的基于大數(shù)據(jù)MapReduce技術(shù)實(shí)現(xiàn)的算法工具誕生,導(dǎo)致生命科學(xué)用戶傳統(tǒng)的單一HPC集群已不能滿足計(jì)算的需要。而近兩年AI技術(shù)的興起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物醫(yī)學(xué)平臺(tái)帶來(lái)了更多新型分析生物數(shù)據(jù)的工具和算法,各種異構(gòu)的計(jì)算模式也給生物數(shù)據(jù)處理和分析帶來(lái)了很大的挑戰(zhàn)。
如何改造傳統(tǒng)的計(jì)算基礎(chǔ)架構(gòu)?構(gòu)建和運(yùn)維獨(dú)立割裂的HPC集群、大數(shù)據(jù)集群、AI集群并不是最有效的解決方法。多樣化的計(jì)算模式帶來(lái)了資源上的壁壘,資源利用率和運(yùn)維的復(fù)雜度也成為了生命科學(xué)研究工作者需要解決的難題,而更為重要的是,新技術(shù)誕生并不能一次性的顛覆所有以前的算法實(shí)現(xiàn)。
因此可以預(yù)見(jiàn),未來(lái),多樣化模式實(shí)現(xiàn)的算法將會(huì)長(zhǎng)期共存。一個(gè)復(fù)雜的生物數(shù)據(jù)分析流程很可能會(huì)同時(shí)涉及到批量計(jì)算、高性能計(jì)算、MapReduce和深度學(xué)習(xí)相關(guān)的各種算法。
在這種情況下極道Achelous計(jì)算系統(tǒng)誕生了。Achelous通過(guò)共享硬件的一套集群,動(dòng)態(tài)地構(gòu)建多模式計(jì)算框架、利用智能執(zhí)行引擎協(xié)助生命科學(xué)領(lǐng)域用戶構(gòu)建高效率、混合算法的數(shù)據(jù)流程,有效的解決計(jì)算的多樣化需求。
計(jì)算硬件需求異構(gòu)化
第三個(gè)層次的“多樣化”是計(jì)算硬件需求的異構(gòu)化。
隨著生命科學(xué)領(lǐng)域計(jì)算模式的樣化,計(jì)算硬件也在迅速發(fā)展。除CPU以外,GPU、FPGA等稀缺計(jì)算資源也加入了進(jìn)來(lái),以滿足復(fù)雜和高速的數(shù)據(jù)分析處理。
解決異構(gòu)計(jì)算資源的共享和調(diào)度問(wèn)題,需要足夠智能的計(jì)算平臺(tái)。例如GPU如何根據(jù)拓?fù)湔{(diào)度化零為整、如何根據(jù)顯存調(diào)度化整為零?極道的計(jì)算系統(tǒng)Achelous能夠面對(duì)異構(gòu)硬件平臺(tái),根據(jù)不同稀缺計(jì)算資源的特征設(shè)計(jì)高級(jí)調(diào)度策略,盡可能把稀缺計(jì)算資源的利用率發(fā)揮到極致。
多種算法模型共存
第四個(gè)層次的“多樣化”是多種算法模型帶來(lái)的的多樣化。
在生物信息分析計(jì)算過(guò)程中,一套系統(tǒng)會(huì)同時(shí)存在多種算法模型的運(yùn)行實(shí)例,而每個(gè)算法的實(shí)現(xiàn)都對(duì)數(shù)據(jù)存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元數(shù)據(jù)訪問(wèn)的延遲,多樣化的IO模式給數(shù)據(jù)存取效率帶來(lái)了很大的挑戰(zhàn)。面對(duì)這種多樣化的IO存儲(chǔ)模式,存儲(chǔ)需要進(jìn)行相應(yīng)的優(yōu)化和動(dòng)態(tài)調(diào)整,才能滿足數(shù)據(jù)分析的需要。
比如計(jì)算集群登陸節(jié)點(diǎn)交互操作多,要求數(shù)據(jù)和元數(shù)據(jù)的訪問(wèn)延遲,而計(jì)算節(jié)點(diǎn)很可能一段時(shí)間內(nèi)是吞吐密集,另一個(gè)算法同時(shí)需要求高的Ops。解決這種多IO模式共存情況下數(shù)據(jù)存取的效能,需要計(jì)算系統(tǒng)和存儲(chǔ)系統(tǒng)的協(xié)同,極道獨(dú)創(chuàng)的“應(yīng)用感知”理論,其目的是要存儲(chǔ)系統(tǒng)通過(guò)高級(jí)策略根據(jù)應(yīng)用算法多樣化IO模式進(jìn)行實(shí)時(shí)調(diào)整,盡可能把存儲(chǔ)的數(shù)據(jù)存取效能在多樣化計(jì)算過(guò)程中發(fā)揮到極致。
事實(shí)上,生命科學(xué)數(shù)據(jù)所面對(duì)的四個(gè)層次的“多樣化”,在很多的行業(yè)中都有共性表現(xiàn),面對(duì)“多樣化”挑戰(zhàn),需要各種各樣的“門道”。極道有“道”,能夠用產(chǎn)品和優(yōu)勢(shì)技術(shù)把所有的“道兒”都發(fā)揮到極致。
這就是極道作為一個(gè)數(shù)據(jù)系統(tǒng)公司與傳統(tǒng)的存儲(chǔ)公司、或者IT系統(tǒng)公司的不同之處。極道不僅站在系統(tǒng)公司的角度設(shè)計(jì)和研發(fā)產(chǎn)品,更重要的是還能夠深度理解行業(yè)應(yīng)用、根據(jù)行業(yè)用戶的真實(shí)數(shù)據(jù)需要設(shè)計(jì)產(chǎn)品,來(lái)迎接行業(yè)所面臨的多樣化數(shù)據(jù)挑戰(zhàn)。
目前,極道的數(shù)據(jù)系統(tǒng)產(chǎn)品在國(guó)內(nèi)外頂級(jí)的基因公司、臨床檢測(cè)公司、國(guó)家級(jí)科研機(jī)構(gòu)、藥物研發(fā)等領(lǐng)域廣泛應(yīng)用,并收獲眾多客戶好評(píng)。未來(lái),極道仍將不斷提供創(chuàng)新的技術(shù)與產(chǎn)品,為生物基因技術(shù)的快速發(fā)展發(fā)揮重要作用。
關(guān)于極道
極道,專注于數(shù)據(jù)“存”、“管”、“算”的創(chuàng)新數(shù)據(jù)系統(tǒng)公司,由國(guó)內(nèi)頂尖的存儲(chǔ)和數(shù)據(jù)分析專家團(tuán)隊(duì)組建。以分布式并行文件存儲(chǔ)、強(qiáng)關(guān)聯(lián)大規(guī)模實(shí)時(shí)數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎為核心產(chǎn)品,滿足企業(yè)對(duì)數(shù)據(jù)處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為真正的數(shù)據(jù)資產(chǎn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
ChatZOC,藏在口袋里的「眼科醫(yī)生」
-
金百澤科技亮相中國(guó)國(guó)際醫(yī)療器械博覽會(huì) | 盡顯醫(yī)療領(lǐng)域硬實(shí)力
-
進(jìn)階的新冠疫苗 又一個(gè)中國(guó)造
-
“AI醫(yī)療第一股”鷹瞳科技上市首日即破發(fā)
-
圓心科技登陸港股,“賣藥的生意”還好不好做?
-
十圖解讀2021年中國(guó)康復(fù)醫(yī)療行業(yè)現(xiàn)狀
-
醫(yī)藥流通數(shù)字化運(yùn)營(yíng)實(shí)現(xiàn)精細(xì)化飼養(yǎng)
-
科學(xué)家發(fā)現(xiàn)人體新器官:將有助于癌癥治療
技術(shù)文庫(kù)
最新活動(dòng)更多
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報(bào)名參會(huì)>>> 全數(shù)會(huì)2025中國(guó)激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會(huì)
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】研華嵌入式核心優(yōu)勢(shì),以Edge AI驅(qū)動(dòng)機(jī)器視覺(jué)升級(jí)
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【在線會(huì)議】從直流到高頻,材料電特性參數(shù)的全面表征與測(cè)量
- 1 2025高端醫(yī)療器械國(guó)產(chǎn)替代提速,這些賽道值得關(guān)注!
- 2 多數(shù)人錯(cuò)估了關(guān)稅將對(duì)中國(guó)醫(yī)藥產(chǎn)業(yè)的影響
- 3 一季度醫(yī)療儀器及器械進(jìn)出口報(bào)告:前十大出口市場(chǎng)在哪?
- 4 認(rèn)購(gòu)火爆,映恩生物打響18A IPO重啟信號(hào)槍
- 5 核藥賽道解碼:高壁壘、國(guó)產(chǎn)替代與千億市場(chǎng)卡位
- 6 中國(guó)創(chuàng)新藥出海:機(jī)遇、挑戰(zhàn)與未來(lái)展望
- 7 創(chuàng)新藥是避風(fēng)港,更是發(fā)射臺(tái)!
- 8 第一醫(yī)藥扣非凈利潤(rùn)僅687.40萬(wàn)元:上海“隱形土豪”要再沉淀沉淀
- 9 復(fù)星的進(jìn)退與前行
- 10 隱匿的醫(yī)療大佬,10年干出千億級(jí)公司