侵權投訴
訂閱
糾錯
加入自媒體

極道:探尋生命科學領域數(shù)據(jù)“多樣化”的解決之道

2021-02-23 10:47
來源: 粵訊

近年來生命科學領域的數(shù)據(jù)量呈爆炸式增長的趨勢,包括基因測序、臨床檢測、冷凍電鏡、腦科學等。數(shù)據(jù)的爆發(fā)增長導致了數(shù)據(jù)和數(shù)據(jù)分析方式呈現(xiàn)出多樣化的特征,而這些“多樣化”特征是多個層次的,如何解讀生命科學領域數(shù)據(jù)多樣化帶來的一系列挑戰(zhàn),成為了業(yè)內(nèi)及數(shù)據(jù)系統(tǒng)公司需要解決的一大難題。

數(shù)據(jù)類型的“多樣化”

第一個層次的“多樣化”是數(shù)據(jù)類型的多樣化。

這包括動植物基因組學數(shù)據(jù)、醫(yī)學臨床數(shù)據(jù)、結(jié)構生物學研究中冷凍電鏡產(chǎn)生的蛋白和大分子結(jié)構數(shù)據(jù),甚至還包括由3D基因組學發(fā)展而來的3維基因空間結(jié)構數(shù)據(jù)。多樣化的數(shù)據(jù)類型,讓能夠觀察到和分析出來的數(shù)據(jù)特征越來越多樣化。

除了門、綱、目、科、屬、種、變異、突變、臨床表征等,越來越多維度的數(shù)據(jù)特征進入了生命科學研究工作者的視野中。如何從多樣化的數(shù)據(jù)特征中發(fā)現(xiàn)數(shù)據(jù)、利用數(shù)據(jù)特征生成多維度數(shù)據(jù)集合,對數(shù)據(jù)的管理提出了相當高的要求。

非結(jié)構化數(shù)據(jù)的“非結(jié)構”特性本身造成了管理上的困難,同時海量數(shù)據(jù)的特征越來越豐富,數(shù)十億級別的數(shù)據(jù)加上每個數(shù)據(jù)都可能有多個不同強關聯(lián)的特征,而利用關系型數(shù)據(jù)庫加數(shù)據(jù)路徑實現(xiàn)的傳統(tǒng)LIMS系統(tǒng)來進行數(shù)據(jù)管理的方式,其擴展性差、海量數(shù)據(jù)強關聯(lián)搜索效率極低并且難以分析的弱點也逐漸被暴露出來。

針對這一現(xiàn)象,極道的新型數(shù)據(jù)管理系統(tǒng)能夠利用分布式圖技術對數(shù)據(jù)進行大規(guī)模強關聯(lián)實時數(shù)據(jù)特征管理,解決生命科學領域用戶的多樣化數(shù)據(jù)特征的痛點,有序管理、快速搜索、生成多維度數(shù)據(jù)視圖。

數(shù)據(jù)計算模式的“多樣化”

第二個層次的“多樣化”是數(shù)據(jù)計算模式的多樣化。

傳統(tǒng)的生命科學領域無論是基因測序還是冷凍電鏡數(shù)據(jù),通常采用的是批量計算或者高性能計算的工具和算法。但是隨著計算技術的發(fā)展,計算模式的不斷進步,更多新型方法實現(xiàn)的算法和工具加入到生命科學相關領域的研究和生產(chǎn)中。比如測序領域的GATK4spark和一些其他的基于大數(shù)據(jù)MapReduce技術實現(xiàn)的算法工具誕生,導致生命科學用戶傳統(tǒng)的單一HPC集群已不能滿足計算的需要。而近兩年AI技術的興起,Google的DeepVariant、Nvidia的Clara等基于人工智能的生物醫(yī)學平臺帶來了更多新型分析生物數(shù)據(jù)的工具和算法,各種異構的計算模式也給生物數(shù)據(jù)處理和分析帶來了很大的挑戰(zhàn)。

如何改造傳統(tǒng)的計算基礎架構?構建和運維獨立割裂的HPC集群、大數(shù)據(jù)集群、AI集群并不是最有效的解決方法。多樣化的計算模式帶來了資源上的壁壘,資源利用率和運維的復雜度也成為了生命科學研究工作者需要解決的難題,而更為重要的是,新技術誕生并不能一次性的顛覆所有以前的算法實現(xiàn)。

因此可以預見,未來,多樣化模式實現(xiàn)的算法將會長期共存。一個復雜的生物數(shù)據(jù)分析流程很可能會同時涉及到批量計算、高性能計算、MapReduce和深度學習相關的各種算法。

在這種情況下極道Achelous計算系統(tǒng)誕生了。Achelous通過共享硬件的一套集群,動態(tài)地構建多模式計算框架、利用智能執(zhí)行引擎協(xié)助生命科學領域用戶構建高效率、混合算法的數(shù)據(jù)流程,有效的解決計算的多樣化需求。

計算硬件需求異構化

第三個層次的“多樣化”是計算硬件需求的異構化。

隨著生命科學領域計算模式的樣化,計算硬件也在迅速發(fā)展。除CPU以外,GPU、FPGA等稀缺計算資源也加入了進來,以滿足復雜和高速的數(shù)據(jù)分析處理。

解決異構計算資源的共享和調(diào)度問題,需要足夠智能的計算平臺。例如GPU如何根據(jù)拓撲調(diào)度化零為整、如何根據(jù)顯存調(diào)度化整為零?極道的計算系統(tǒng)Achelous能夠面對異構硬件平臺,根據(jù)不同稀缺計算資源的特征設計高級調(diào)度策略,盡可能把稀缺計算資源的利用率發(fā)揮到極致。

多種算法模型共存

第四個層次的“多樣化”是多種算法模型帶來的的多樣化。

在生物信息分析計算過程中,一套系統(tǒng)會同時存在多種算法模型的運行實例,而每個算法的實現(xiàn)都對數(shù)據(jù)存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元數(shù)據(jù)訪問的延遲,多樣化的IO模式給數(shù)據(jù)存取效率帶來了很大的挑戰(zhàn)。面對這種多樣化的IO存儲模式,存儲需要進行相應的優(yōu)化和動態(tài)調(diào)整,才能滿足數(shù)據(jù)分析的需要。

比如計算集群登陸節(jié)點交互操作多,要求數(shù)據(jù)和元數(shù)據(jù)的訪問延遲,而計算節(jié)點很可能一段時間內(nèi)是吞吐密集,另一個算法同時需要求高的Ops。解決這種多IO模式共存情況下數(shù)據(jù)存取的效能,需要計算系統(tǒng)和存儲系統(tǒng)的協(xié)同,極道獨創(chuàng)的“應用感知”理論,其目的是要存儲系統(tǒng)通過高級策略根據(jù)應用算法多樣化IO模式進行實時調(diào)整,盡可能把存儲的數(shù)據(jù)存取效能在多樣化計算過程中發(fā)揮到極致。

事實上,生命科學數(shù)據(jù)所面對的四個層次的“多樣化”,在很多的行業(yè)中都有共性表現(xiàn),面對“多樣化”挑戰(zhàn),需要各種各樣的“門道”。極道有“道”,能夠用產(chǎn)品和優(yōu)勢技術把所有的“道兒”都發(fā)揮到極致。

這就是極道作為一個數(shù)據(jù)系統(tǒng)公司與傳統(tǒng)的存儲公司、或者IT系統(tǒng)公司的不同之處。極道不僅站在系統(tǒng)公司的角度設計和研發(fā)產(chǎn)品,更重要的是還能夠深度理解行業(yè)應用、根據(jù)行業(yè)用戶的真實數(shù)據(jù)需要設計產(chǎn)品,來迎接行業(yè)所面臨的多樣化數(shù)據(jù)挑戰(zhàn)。

目前,極道的數(shù)據(jù)系統(tǒng)產(chǎn)品在國內(nèi)外頂級的基因公司、臨床檢測公司、國家級科研機構、藥物研發(fā)等領域廣泛應用,并收獲眾多客戶好評。未來,極道仍將不斷提供創(chuàng)新的技術與產(chǎn)品,為生物基因技術的快速發(fā)展發(fā)揮重要作用。

關于極道

極道,專注于數(shù)據(jù)“存”、“管”、“算”的創(chuàng)新數(shù)據(jù)系統(tǒng)公司,由國內(nèi)頂尖的存儲和數(shù)據(jù)分析專家團隊組建。以分布式并行文件存儲、強關聯(lián)大規(guī)模實時數(shù)據(jù)管理系統(tǒng),以及集群的調(diào)度系統(tǒng)和執(zhí)行引擎為核心產(chǎn)品,滿足企業(yè)對數(shù)據(jù)處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結(jié)構化數(shù)據(jù)轉(zhuǎn)化為真正的數(shù)據(jù)資產(chǎn)。

聲明: 本文系OFweek根據(jù)授權轉(zhuǎn)載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內(nèi)容、版權以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號