TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首
本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自nextplatform
“El Capitan”超級計(jì)算機(jī)開創(chuàng)了融合 CPU-GPU 計(jì)算的先河。
從勞倫斯利弗莫爾的專家處所知,從許多指標(biāo)來看,El Capitan 可以與超大規(guī)模企業(yè)和云構(gòu)建者為 AI 訓(xùn)練運(yùn)行而啟動的大型機(jī)器相媲美。El Capitan 是一臺專門為運(yùn)行有史以來最復(fù)雜、最密集的模擬和建模工作負(fù)載而定制的機(jī)器,它恰好在 GenAI 革命的核心——新型大型語言模型方面表現(xiàn)相當(dāng)出色。
而且得益于 Cray 設(shè)計(jì)的“Rosetta” Slingshot 11 互連和惠普企業(yè)銷售的 EX 系列系統(tǒng)的核心組件,El Capitan 已經(jīng)采用了 HPC 增強(qiáng)型可擴(kuò)展以太網(wǎng),這與超級以太網(wǎng)聯(lián)盟 (Ultra Ethernet Consortium) 試圖推進(jìn)的技術(shù)路線類似,因?yàn)槌笠?guī)模企業(yè)和云構(gòu)建者厭倦了為他們的 AI 集群支付 InfiniBand 網(wǎng)絡(luò)的高昂費(fèi)用。
勞倫斯利弗莫爾將獲得一臺極其強(qiáng)大的 HPC/AI 超級計(jì)算機(jī),而其價格比如今的超大規(guī)模計(jì)算公司、云構(gòu)建商和大型 AI 初創(chuàng)公司支付的價格要低得多。很難準(zhǔn)確地說出兩者之間的差異,但筆者初步粗略計(jì)算得出,El Capitan 每單位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在構(gòu)建的大型“Hopper”H100 集群的一半。
國家安全至關(guān)重要,而某些技術(shù)突破和創(chuàng)新有著積極意義。以 El Capitan 為例,突破系統(tǒng)設(shè)計(jì)的架構(gòu)極限意義非凡。同時,要有勇于在設(shè)計(jì)混合 CPU - GPU 計(jì)算引擎方面展現(xiàn)自身能力的決心,而且將超快的 HBM 內(nèi)存接入到這些融合設(shè)備之間的共享內(nèi)存空間,這一系列舉措都能帶來好處。最后,El Capitan 和超大規(guī)模企業(yè)、云構(gòu)建者以及 AI 初創(chuàng)公司正在打造的強(qiáng)大機(jī)器之間存在著巨大的差異。
2019 年 8 月,惠普 (Hewlett Packard Enterprise) 獲得了價值數(shù)百萬美元的 El Capitan 合同,當(dāng)時用戶只知道這臺機(jī)器將使用 Slingshot 互連,成本約為 5 億美元,并提供至少 1.5 百億億次浮點(diǎn)運(yùn)算的持續(xù)性能。就在幾個月前,HPE 表示將以 13 億美元收購 Cray。
無論如何,彼時El Capitan 的持續(xù)性能預(yù)計(jì)至少為 IBM 為實(shí)驗(yàn)室構(gòu)建的 “Sierra” 混合 CPU - GPU 系統(tǒng)的 10 倍,功率范圍達(dá) 30 兆瓦。2020 年 3 月,勞倫斯利弗莫爾宣稱其正與 AMD 合作開發(fā) El Capitan 的計(jì)算引擎,并進(jìn)一步指出,該系統(tǒng)的峰值理論 FP64 性能將超 2 百億億次浮點(diǎn)運(yùn)算(實(shí)際系統(tǒng)能夠以 64 位分辨率進(jìn)行計(jì)算),功耗約為 40 兆瓦,成本不超過 6 億美元。
El Capitan 混合 CPU - GPU 系統(tǒng)已在勞倫斯利弗莫爾完成安裝且近乎滿負(fù)荷運(yùn)行,人們公認(rèn)這是世界上針對傳統(tǒng)模擬和建模工作負(fù)載性能最優(yōu)的系統(tǒng),這其中包括中國 “天河三號”(2.05 百億億次浮點(diǎn)運(yùn)算)和 “海洋之光”(1.5 百億億次浮點(diǎn)運(yùn)算)超級計(jì)算機(jī)的峰值性能。
2022 年 6 月,勞倫斯利弗莫爾和 AMD 宣布將采用融合的 CPU - GPU 設(shè)備(AMD 數(shù)十年來一直將其稱為加速處理單元或 APU)作為 El Capitan 系統(tǒng)的主要計(jì)算引擎。自那時起,眾人皆在猜測 “Antares” Instinct MI300A 設(shè)備的時鐘速度、設(shè)備中 GPU 計(jì)算單元的數(shù)量以及其運(yùn)行時鐘速度。事實(shí)證明,筆者認(rèn)為 MI300A 的時鐘速度會更高,因此只需較少的時鐘周期即可達(dá)到相應(yīng)性能。勞倫斯利弗莫爾所獲得的機(jī)器性能比預(yù)期更優(yōu),因此其性價比甚至超出了預(yù)期水平。
勞倫斯利弗莫爾國家實(shí)驗(yàn)室利弗莫爾計(jì)算部門首席技術(shù)官 Bronis de Supinski透露,El Capitan 系統(tǒng)中總計(jì)有 87 個計(jì)算機(jī)架,另有數(shù)十個額外機(jī)架用于容納其 “Rabbit” NVM - Express 快速存儲陣列。
El Capitan 在液冷 Cray EX 機(jī)架中總共擁有 11,136 個節(jié)點(diǎn),每個節(jié)點(diǎn)配備四個 MI300A 計(jì)算引擎,整個系統(tǒng)共有 44,544 個設(shè)備。每個設(shè)備都有 128GB 的 HBM3 主內(nèi)存,由 CPU 和 GPU 芯片共享,運(yùn)行頻率為 5.2GHz,能夠?yàn)?CPU 和 GPU 芯片提供總計(jì) 5.3TB / 秒的總帶寬。
根據(jù) 11 月份 Top500 排行榜的數(shù)據(jù),MI300A CPU 芯片組的運(yùn)行頻率為 1.8 GHz,而 AMD 規(guī)格表顯示 GPU 芯片組的峰值運(yùn)行頻率為 2.1 GHz。該芯片組包含三個 “Genoa” X86 計(jì)算復(fù)合體,每個復(fù)合體具備八個核心,總計(jì) 24 個核心,系采用臺積電的 5 納米工藝蝕刻而成。MI300A 設(shè)備上的六個 Antares GPU 芯片組擁有 228 個 GPU 計(jì)算單元,總共包含 912 個矩陣核心和 14,592 個流處理器。在矢量單元方面,MI300A 的峰值 FP64 性能為 61.3 萬億次浮點(diǎn)運(yùn)算,在矩陣單元上,其 FP64 性能為矢量單元的兩倍,即 122.6 萬億次浮點(diǎn)運(yùn)算。
每個 El Capitan 節(jié)點(diǎn)的峰值 FP64 性能可達(dá) 250.8 teraflops,當(dāng)將所有節(jié)點(diǎn)連接在一起時,F(xiàn)P64 總性能可達(dá) 2,792.9 petaflops,前端配備 5.475 PB 的 HBM3 內(nèi)存。在 CPU 和 GPU 計(jì)算芯片下方設(shè)有四個 I/O 芯片,用于將這些元件整合并連接至 HBM3 內(nèi)存,這些芯片是采用臺積電的 6 納米工藝蝕刻而成。
值得注意的是,MI300A 封裝上仍有六個計(jì)算芯片(在 AMD 術(shù)語中為 XCD),其與六個 GPU 芯片完美匹配。橡樹嶺的 “Frontier” 超級計(jì)算機(jī)定制的 “Trento” CPU XCD(單個芯片中每個節(jié)點(diǎn)八個)與四個獨(dú)立的雙芯片 “Aldebaran” MI250X GPU 的比例亦為一比一。這種一比一的封裝形式在多代 Cray 超級計(jì)算機(jī)的 CPU 和加速器之間一直得以延續(xù),這或許并非偶然。從某種意義上講,MI300A 是一個六路 X86 CPU 服務(wù)器,與六路 GPU 系統(tǒng)板交叉耦合。
以下是一個匯總表,展示了 El Capitan 系統(tǒng)及其位于勞倫斯利弗莫爾的 El Capitan 區(qū)塊的 “Toulumne” 和 “rzAdams” 芯片以及位于桑迪亞國家實(shí)驗(yàn)室的 “El Dorado” 系統(tǒng)的相關(guān)參數(shù):
El Capitan 服務(wù)器節(jié)點(diǎn)的示意圖如下:
如您所見,存在四個 Infinity Fabric x16 端口,其總帶寬達(dá) 128 GB / 秒,以內(nèi)存一致性方式將四個 MI300A 設(shè)備相互連接。
此外,還有四個端口,這些端口可配置為 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在此情形下,它們被設(shè)置為前者,以便插入 Slingshot 11 網(wǎng)絡(luò)接口卡,這些接口卡實(shí)際上通過 Slingshot 11 架構(gòu)將整個系統(tǒng)中的 APU 相互連接。
最后,關(guān)于 El Capitan 系統(tǒng)有一個饒有趣味的觀點(diǎn),從技術(shù)層面而言,該系統(tǒng)用于運(yùn)行對超級計(jì)算機(jī)進(jìn)行排名的高性能 Linpack 基準(zhǔn)測試的那部分機(jī)器,其性能可達(dá) 2,746.38 千萬億次浮點(diǎn)運(yùn)算。(若物理機(jī)器上總計(jì)有 44,544 個 APU,此部分機(jī)器激活了 43,808 個 APU,占機(jī)器容量的 98.3%。)額定性能末尾的 46 千萬億次浮點(diǎn)運(yùn)算(性能的第三和第四位有效數(shù)字)比 2024 年 11 月 Top500 榜單上除 34 臺機(jī)器之外的所有機(jī)器都要大。當(dāng)提及 “2.7 百億億次浮點(diǎn)運(yùn)算” 時所舍棄的那些四舍五入數(shù)字,其規(guī)模幾乎與巴塞羅那超級計(jì)算中心的 “MareNostrum 5” 超級計(jì)算機(jī)相當(dāng)。
若勞倫斯利弗莫爾讓 HPL 在系統(tǒng)中的所有 APU 上運(yùn)行,El Capitan 的性能將再提升 1.65%,并且我們認(rèn)為,計(jì)算、內(nèi)存和互連相互作用的改進(jìn)可使其性能再提高約 5%。倘若勞倫斯利弗莫爾能夠?qū)④浖途W(wǎng)絡(luò)調(diào)優(yōu)性能提高 7.5%,那么該機(jī)器的峰值 HPL 容量將突破 3 百億億次浮點(diǎn)運(yùn)算,我們期望實(shí)驗(yàn)室能夠達(dá)成這一目標(biāo),畢竟這極具意義。這將是五年前項(xiàng)目啟動時 El Capitan 最初預(yù)期性能的兩倍 —— 且是按時按預(yù)算推進(jìn)的。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
原文標(biāo)題 : TOP500超算榜出爐:El Capitan以1.742 EFlop/s居榜首

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報(bào)名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評 >> 【評選啟動】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?