“戈登貝爾獎”之后,中國需要什么樣的超算呢?
上個月的SC21大會,中國超算除了摘得國際超算應(yīng)用領(lǐng)域的最高學(xué)術(shù)獎項“戈登貝爾獎”引起轟動之外,還有一件大事。那就是在當(dāng)?shù)貢r間11月18日公布的IO500榜單上,Top3 都是中國自研系統(tǒng),其中兩席是華為已經(jīng)大規(guī)模商用的存儲系統(tǒng)。
全球 HPC 存儲系統(tǒng)性能排名 IO500 榜單,Top 3 均為中國自研系統(tǒng),其中華為獨占兩席。來源:io500.orgIO500是高性能計算領(lǐng)域針對存儲性能最權(quán)威的世界排行榜之一,它反映的是存儲系統(tǒng)可為實際程序提供的I/O性能,是衡量超級計算機應(yīng)用效率的重要指標(biāo),具有極高的參考價值。
而存力比之于算力,也愈顯其重要性。從近年來入圍“戈登貝爾獎”的超算應(yīng)用及歷年獲獎情況來看,人工智能+大數(shù)據(jù)與超算的融合正成為主流趨勢。
而隨著要處理的數(shù)據(jù)量暴增,高性能計算機也正從以計算為核心向以數(shù)據(jù)為核心的計算演進(jìn),數(shù)據(jù)密集型超算亦被視為未來發(fā)展的主流方向之一。
華為攜存儲技術(shù)優(yōu)勢,正在這一方向發(fā)力。12月10日,華為與湖南大學(xué)在國家超級計算長沙中心簽署戰(zhàn)略合作協(xié)議,成立“數(shù)據(jù)密集型超算聯(lián)合創(chuàng)新中心”。
這是我國首個關(guān)注于數(shù)據(jù)密集型超算的聯(lián)合創(chuàng)新平臺。依照合作協(xié)議,雙方將就項目共推、技術(shù)應(yīng)用、人才培養(yǎng)等聯(lián)合開展數(shù)據(jù)密集型超算示范相關(guān)工作。
為什么說數(shù)據(jù)密集型超算代表著未來超算發(fā)展的方向?其建設(shè)與應(yīng)用有哪些技術(shù)要求、有哪些難題?未來該如何培育發(fā)展?
天才的預(yù)判,院士的首肯
在展開我國計算技術(shù)產(chǎn)業(yè)話題之前,有一個美日歐都無可比擬的前提,那就是中國勢必是擁有最海量數(shù)據(jù)、最多元數(shù)據(jù)類型、最豐富應(yīng)用場景的地方——這些特征隨著信息爆炸愈發(fā)突出?梢哉f,抓住了大數(shù)據(jù)和數(shù)據(jù)價值挖掘這個“總龍頭”,就抓住了未來計算產(chǎn)業(yè)競爭力的“牛鼻子”。
有時候不得不佩服天才大師們的先見之明——傳奇的1998年度圖靈獎得主吉姆·格雷(James Gray,或稱詹姆士·格雷)早在2007年的演講中就提出,隨著數(shù)據(jù)的爆炸性增長,科學(xué)計算(即“第三范式”)中的數(shù)據(jù)密集型范式將成為一個獨特的科學(xué)研究范式,即第四范式。而超算也將從科學(xué)計算工具,向著基于大數(shù)據(jù)、人工智能(AI)的“數(shù)據(jù)密集型科學(xué)”演進(jìn)。
稍展開一下解讀,可以說,作為構(gòu)建下一代數(shù)據(jù)產(chǎn)業(yè)和科學(xué)計算的基石,超算無疑握著一把開啟未來數(shù)據(jù)文明的鑰匙。
吉姆·格雷那次演講的題目為《科學(xué)方法的革命》,這是他留給世人的最后一次演講。這次演講17天后,吉姆·格雷以一個帆船運動愛好者的身份,消失在了茫茫大海,至今杳無音信。
1998年度圖靈獎得主吉姆·格雷(資料圖)
但他這一論斷影響深遠(yuǎn)。在今年的全國高性能計算學(xué)術(shù)年會(CCF HPC China 2021)上,中國計算機學(xué)會高性能計算專業(yè)委員會(CCF高專委)發(fā)布了由華為公司與上海交通大學(xué)等多家高校、長沙超算等多家超算中心等主編的《數(shù)據(jù)密集型超算技術(shù)白皮書》(下簡稱《白皮書》)!栋灼酚芍袊茖W(xué)院院士陳國良作序,他在序言中直言:“智能世界運轉(zhuǎn)的速率直接取決于數(shù)據(jù)分析的效率!
陳國良院士(資料圖)
陳國良院士作了個貼切的比喻:如果說數(shù)據(jù)是數(shù)字世界的新石油,那么“預(yù)計到2025年占比將超過80%的非結(jié)構(gòu)化數(shù)據(jù)”就是石油中的頁巖油。和頁巖油一樣,非結(jié)構(gòu)化數(shù)據(jù)的“開采”(價值挖掘)難度更大,需要依賴更加專業(yè)化的工具。
他談到,工具之一就是《白皮書》中提到的“面向海量數(shù)據(jù)的高性能數(shù)據(jù)分析”(High Performance Data Analysis,HPDA) 。為幫助理解,陳院士還貼心地寫下一條等式:
HPDA= HPC + BigData +AI
從這個等式出發(fā),陳國良院士對《白皮書》提出的以數(shù)據(jù)為中心的超算系統(tǒng)架構(gòu)“深以為然”,他說:“以數(shù)據(jù)為中心也就是以價值為中心。”
“如果把IT系統(tǒng)跟人或組織的關(guān)系比喻成好朋友,那么IT系統(tǒng)以前更多是一個隨叫隨到、提升效率的小助手;而以后,IT系統(tǒng)更多地是參與人或組織在商業(yè)世界里的價值共創(chuàng)!睅缀跖c吉姆·格雷異曲同工地,陳國良院士認(rèn)為,“超算系統(tǒng)將更多地從一個業(yè)務(wù)支撐系統(tǒng)走向一個價值生產(chǎn)系統(tǒng)”。
10大場景,需求擺在桌面
如果說我們能從前賢的見解中可以得出什么結(jié)論,至少有一條:未來數(shù)據(jù)密集型超算的發(fā)展,與我國科技創(chuàng)新邁向更廣更深息息相關(guān)。
而與此同時,如何建設(shè)和發(fā)展數(shù)據(jù)密集型超算的問題也就擺在了桌面。
超算作為國之重器,當(dāng)然不能“先射箭后畫靶”。而要明確構(gòu)建數(shù)據(jù)密集型超算的技術(shù)要求、勾勒數(shù)據(jù)密集型超算的輪廓,最必要的是要弄清楚,未來將會有哪些數(shù)據(jù)密集型的超算應(yīng)用、它們給超算提出了哪些要求和挑戰(zhàn)。
這些問題本來挺難回答的,但好在“剛想睡覺就有人送枕頭”——前文提到的《白皮書》專門辟以大量篇幅,面向未來3~5年數(shù)據(jù)密集型超算場景作出了預(yù)測。
這個預(yù)測的完整表述是“面向2025年的十大數(shù)據(jù)密集型超算場景”。這十大場景依次是:基因測序、自動駕駛、能源勘探、氣象預(yù)測、衛(wèi)星遙感、類腦科學(xué)、高能物理、天文物理、災(zāi)害模擬、媒體計算。
《白皮書》作出以上預(yù)測的模型,充分考量了兩個維度:場景應(yīng)用與大數(shù)據(jù)及AI的相關(guān)度、場景應(yīng)用數(shù)據(jù)量的規(guī)模及市場空間。
可以看到,這些應(yīng)用場景,有的是從傳統(tǒng)的HPC超算場景逐步演進(jìn)到HPDA場景,如基因測序,能源勘探等;有的原生地就是HPDA應(yīng)用,如自動駕駛等。
另外,從數(shù)據(jù)規(guī)模角度,依照《白皮書》的說法,上述10大數(shù)據(jù)密集型超算應(yīng)用場景,數(shù)據(jù)量規(guī)模起步都是PB級以上。
共48頁的《白皮書》,用了近20頁的篇幅對表格中前6個典型應(yīng)用場景作了分析。分析認(rèn)為,這些應(yīng)用場景雖然領(lǐng)域迥異、對計算平臺的需求也各有側(cè)重,但幾乎都共同指向未來超算要滿足對海量數(shù)據(jù)的計算需求、對各類應(yīng)用之間的高效互通的需求、對大內(nèi)存的容量要求、對存儲的極致性能要求、對高效算力的低功耗或綠色化要求。
紅色虛框中為面向2025的十大數(shù)據(jù)密集型應(yīng)用場景
7項建議,呼喚示范先行
從需求出發(fā),《白皮書》對數(shù)據(jù)密集型超算技術(shù)的建設(shè)提出了7條建議。這7條建議,直指超算自系統(tǒng)架構(gòu)而上的層層技術(shù)迭代,也直面E級超算、EB級應(yīng)用的“存儲墻”“編程墻”“功耗墻”,非常全面,現(xiàn)歸納如下。
1、采用異構(gòu)融合的新型 HPDA 架構(gòu)
超算最本質(zhì)的是算力。如今超算多采用異構(gòu)架構(gòu),以讓CPU、GPU、FPGA等不同的處理器發(fā)揮最大效用。但此舉也存在問題,即計算單元各自為戰(zhàn)、硬件資源閑時高于用時。《白皮書》認(rèn)為,超算架構(gòu)應(yīng)在異構(gòu)基礎(chǔ)上,再加上“融合”。用異構(gòu)融合的新型HPDA架構(gòu)一統(tǒng)超算,能夠最大化利用計算資源,更好發(fā)揮對海量數(shù)據(jù)的并行處理能力。
HPDA 融合架構(gòu)圖
2、打造存算分離的統(tǒng)一數(shù)據(jù)存儲底座
數(shù)據(jù)密集型超算,意味著場景應(yīng)用中的數(shù)據(jù)分析處理是“主角”。面對海量數(shù)據(jù)涌入,超算不能將大量機時浪費在等數(shù)據(jù)的讀寫上。這就是傳統(tǒng)超算的“存儲墻”難題!栋灼诽岢,要打造存算分離的統(tǒng)一數(shù)據(jù)存儲底座,讓計算節(jié)點共享存儲,讓熱數(shù)據(jù)、冷數(shù)據(jù)按需流動。
另據(jù)統(tǒng)計,我國存力與算力之比約為1:2,對應(yīng)投資約為1:3,而美國這兩組數(shù)據(jù)均為1:1。從數(shù)據(jù)作為新生產(chǎn)資料的角度來看,存力的基礎(chǔ)地位日益彰顯;要改變當(dāng)前“重算力、輕存力”的現(xiàn)狀,未來我國還要在存力規(guī)劃上下功夫。
3、推進(jìn)全光化多網(wǎng)融合高速互聯(lián)網(wǎng)絡(luò)構(gòu)建
海量數(shù)據(jù)的流動必然依賴高效的網(wǎng)絡(luò)傳輸,所謂高效,就是高帶寬、高IOPS、低時延!栋灼诽岬,可從器件材料和傳輸技術(shù)兩個角度構(gòu)建未來高速互聯(lián)網(wǎng)絡(luò)。材料方面,提倡“光進(jìn)銅退”,即發(fā)展光通信技術(shù);技術(shù)方面,推動超算內(nèi)部計算網(wǎng)、存儲網(wǎng)、數(shù)據(jù)網(wǎng)等的融合,同時降低成本。
4、使用低碳高效綠色節(jié)能的工程工藝
E級、10E級超算的挑戰(zhàn),除了計算性能,還有一個低功耗的“緊箍咒”!熬G色”是計算科學(xué)家們必須要去平衡的一個需求,這就是所謂的“功耗墻”。超算的能耗主要產(chǎn)自對器件的供電和散熱,因此要“破墻”,就須提高電源使用效率(降低PUE)和設(shè)備能源利用率。當(dāng)前水冷、液冷等技術(shù)發(fā)展較快,對降低PUE大有助益,而在提高設(shè)備能源利用率方面還缺乏有效措施!栋灼诽岬,使用SSD閃存盤組成的存儲系統(tǒng)功耗較低,可作為參考方向。
5、構(gòu)建高效并行開發(fā)和編譯環(huán)境
異構(gòu)融合的超算架構(gòu)需要解決CPU+GPU+XPU等異構(gòu)計算部件的并行編程難題,這就是超算的“編程墻”!栋灼诽岢觯悩(gòu)編程架構(gòu)應(yīng)該基于現(xiàn)有的經(jīng)典并發(fā)模型,針對程序并行和數(shù)據(jù)并行,為用戶提供方便快捷的工具。
6、構(gòu)筑易用的國產(chǎn)應(yīng)用平臺支撐環(huán)境生態(tài)
建設(shè)超算,應(yīng)用是目標(biāo)。超算應(yīng)用是有門檻的,為此超算供應(yīng)商常用容器化技術(shù)將超算運行環(huán)境封裝好,讓上層應(yīng)用與底層隔開,使普通用戶也能使用超算。不過,即便如此,超算平臺因一端連接計算、一端連接行業(yè)應(yīng)用,能夠兼具計算知識和專業(yè)應(yīng)用的人才很少,一些共性難題須協(xié)同解決。因此《白皮書》認(rèn)為,要讓更多人參與到超算應(yīng)用開發(fā)中,構(gòu)建良好超算生態(tài)。這就要求超算平臺要為用戶提供簡單、易懂的可視化操作界面。
7、提供智能化集群管理運維平臺
素來超算平臺的搭建都“人前風(fēng)光”,但建設(shè)超算只是開始,超算運維從來都不輕松。投射到數(shù)據(jù)密集型超算,更是要面對不同用戶巨量數(shù)據(jù)的管理,人工干預(yù)壓力更大。
《白皮書》提出,數(shù)據(jù)密集型超算中心未來要逐步實現(xiàn)規(guī)劃、建設(shè)、運維、優(yōu)化的全生命周期數(shù)字化管理,逐步實現(xiàn)自動化、無人化、智能化。但有鑒于運維場景的多樣性和復(fù)雜性,不同運維場景采用的 AI 算法差異巨大且通用性較差,通常需要多種 AI 算法的組合,智能運維技術(shù)的成熟落地仍然是一個長期演進(jìn)的過程。
超算從算力服務(wù)時代走向數(shù)據(jù)價值時代,數(shù)據(jù)密集型超算正當(dāng)時
后記
從上述形同技術(shù)要求的7條發(fā)展建議來看,數(shù)據(jù)密集型超算的建設(shè)不僅是一項系統(tǒng)工程,同時也關(guān)乎超算各項前沿技術(shù)的進(jìn)步與發(fā)展,直接影響著我國超算產(chǎn)業(yè)未來是否依然具備競爭力。顯然,其建設(shè)與發(fā)展需要廣泛發(fā)動產(chǎn)學(xué)研合作,共同攻關(guān)核心技術(shù)難題。
回過頭來看,此番湖南大學(xué)與華為攜手,就數(shù)據(jù)密集型超算領(lǐng)域涉及的國產(chǎn)自研并行文件系統(tǒng)、算力互聯(lián)網(wǎng)、智能存儲系統(tǒng)、數(shù)學(xué)庫優(yōu)化等關(guān)鍵技術(shù)展開深入合作,就是產(chǎn)學(xué)研協(xié)同的一次有益嘗試;目標(biāo)就是推進(jìn)數(shù)據(jù)密集型超算的示范先行,進(jìn)而率先推出國際化的測評標(biāo)準(zhǔn),掌握話語權(quán)。
而縱觀美國人制定的各類評測形成的各類榜單對超算發(fā)展的策動與影響,其中利害,不必多言。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?