2021年度AI服務(wù)器的巔峰對決
時至12月,又到了盤點、總結(jié)的時候了。遙記當年DIY最火的時代,年底都要做的是硬件產(chǎn)品橫評與盤點等重要選題,從消費者到廠商都能通過對比來了解產(chǎn)品的性能與市場表現(xiàn),從而為選擇、研發(fā)下一代產(chǎn)品積累經(jīng)驗。
我們再來看看企業(yè)級市場,近20年來它的變化速度飛快,從x86服務(wù)器興起開始,多核算力、云計算、大數(shù)據(jù)、人工智能、容器等等技術(shù)實現(xiàn)了一次又一次的突破,也為數(shù)字化的未來寫下了一頁頁濃墨重彩的傳奇。
企業(yè)級市場發(fā)展至今,可以看到無論是技術(shù)還是產(chǎn)品,整體趨勢都無一例外地朝向應用。CPU、GPU、DPU、存儲都不再是單一的衡量標準,企業(yè)級用戶關(guān)注的應用,或者說是能夠在什么樣的成本下,提供為我所需的性能,這才是最重要的一點。
2021 MLPerf?人工智能測試收官之作
正是因為如此,MLPerf?測試才應運而生地成為了新一代標桿,它所衡量的是服務(wù)器在人工智能相關(guān)領(lǐng)域應用的性能表現(xiàn),極具實戰(zhàn)價值,因此也備受業(yè)界關(guān)注。
MLPerf?是影響力最廣的國際AI性能基準評測,由圖靈獎得主大衛(wèi)?帕特森(David Patterson)聯(lián)合頂尖學術(shù)機構(gòu)發(fā)起成立。2020年,非盈利性機器學習開放組織MLCommons基于MLPerf?基準測試成立,其成員包括谷歌、Facebook、英偉達、英特爾、浪潮、哈佛大學、斯坦福大學、加州大學伯克利分校等50余家全球AI領(lǐng)軍企業(yè)及頂尖學術(shù)機構(gòu),致力于推進機器學習和人工智能標準及衡量指標。
目前,MLCommons每年組織2次MLPerf? AI訓練性能測試和2次MLPerf? AI推理性能測試,為用戶衡量設(shè)備性能提供權(quán)威有效的數(shù)據(jù)指導。
MLPerf?基準測試分為固定任務(wù)(Closed Model Division)和開放任務(wù)(Open Model Division)兩個分區(qū)。
固定任務(wù)是通過相同的模型、優(yōu)化器及參數(shù)值測試深度學習在不同服務(wù)器上的性能表現(xiàn),類似于我們?nèi)粘?吹降挠布悓Ρ仍u測。而開放任務(wù)則對深度學習模型及精度不做過多約束,重點考察服務(wù)器廠商對深度學習模型及算法的優(yōu)化能力,推進ML模型和優(yōu)化的創(chuàng)新。
固定任務(wù)(Closed)強調(diào)AI計算系統(tǒng)的公平比較,競賽衡量的是同一深度學習模型在不同硬件上的性能,重點考察參測廠商硬件系統(tǒng)和軟件優(yōu)化的能力。
既然MLPerf?每年組織4次AI相關(guān)測試,那么年底這次當然就屬重頭戲了,業(yè)界對此的關(guān)注度也非常之高。12月1日,MLPerf?公布了最新一期訓練(Training)榜單V1.1,此次共有谷歌、微軟云、英偉達、浪潮信息、百度、戴爾等14家公司及科研機構(gòu),參與MLPerf?基準測試,全部都是國際大廠,可謂華山論劍。共提交180項固定任務(wù)(Closed)成績,6項開放任務(wù)(Open)成績。
在單機測試的8項任務(wù)中,浪潮信息獲7項冠軍,英偉達獲1項冠軍;在集群測試的8項任務(wù)中,英偉達獲7項冠軍,微軟云獲1項冠軍。
實戰(zhàn)應用場景,用計算力推動深度學習
正如前文所述,本次MLPerf?基準評測涵蓋了8類極具代表性的機器學習任務(wù),分別是圖像分類(ResNet)、醫(yī)學影像分割(U-Net3D)、目標物體檢測(SSD)、目標物體檢測(Mask R-CNN)、語音識別(RNN-T)、自然語言理解(BERT)、智能推薦(DLRM)以及強化學習(MiniGo)。
為什么MLPerf?的AI性能測試受關(guān)注度如此高?
還不是因為它最貼近用戶使用場景嘛!這一點尤為重要。
這就如同我們挑選智能手機,市場中的機型幾百、上千款,它們的設(shè)計、定位本身就有著很大不同。白領(lǐng)注重品質(zhì)和可靠性、游戲玩家關(guān)注性能、年輕人喜歡拍照、學生更關(guān)注性價比,根據(jù)自己的使用場景進行選擇,這樣才能做到定位精準。MLPerf?的應用場景式評測,也是意在于此。
場景一:圖像分類(ResNet)
ResNet是非常經(jīng)典的深度學習模型,它也被稱為最典型的計算機視覺應用。將海量圖片識別后標記,然后進行分類,這種應用場景非常便捷與高效,ResNet考察的就是服務(wù)器在這項模型訓練中的表現(xiàn)。
圖像分類(ResNet)任務(wù)單機訓練成績排名
從上圖可以看到,浪潮信息的兩款經(jīng)典服務(wù)器拿下了前兩名位置,NF5488A5性能最高,NF5688M6排名第二。Supermicro的8卡A100-SXM4-80GB(500W)機型性能較NF5488A5低1.6%,排名第三。
看到這里可能有人會產(chǎn)生疑問,為什么只有浪潮和超微用500W的GPU?對于其他廠商而言是不是有些不公平?
其實,這恰恰證明了它們強大的研發(fā)實力。因為浪潮是第一個在服務(wù)器中實現(xiàn)8塊500W功耗GPU部署的廠商,并提供液冷與風冷兩種機型,同期其他品牌的產(chǎn)品大都僅做到了部署4塊500W GPU。本次測試,超微是第二家以8塊500W GPU服務(wù)器參賽的廠商。
GPU從300W到400W再發(fā)展至500W,多張卡同時部署的時候,對服務(wù)器內(nèi)有限的空間提出了更高散熱需求,因此供電與散熱方面設(shè)計難度非常高。也正是因為如此,在評測中,才能夠觀察出各家企業(yè)、機構(gòu)參賽產(chǎn)品的設(shè)計、研發(fā)能力。
場景二:醫(yī)學影像分割(U-Net3D)
患者到醫(yī)院拍了醫(yī)學影像,包括X光、超聲、CT和MRI等,AI可以在很短時間內(nèi)對分割后的影像進行分析,給出合理的初步診斷、分析及預測,為診斷提供便利。
醫(yī)學影像分割是醫(yī)學影像智能分析中的重要領(lǐng)域,也是計算機輔助診斷、監(jiān)視、干預和治療所必需的一環(huán),其關(guān)鍵任務(wù)是對醫(yī)學影像中器官或病變進行分割,為疾病的精準識別、詳細分析、合理診斷、預測與預防等方面提供非常重要的意義和價值。
該項測試主要還是面向數(shù)據(jù)訓練,考驗服務(wù)器的硬實力。
醫(yī)學影像分割(U-Net3D)任務(wù)單機訓練成績排名
三維醫(yī)學圖像分割任務(wù)3D U-Net模型的整機性能對比。浪潮信息此次僅提交了NF5688M6的結(jié)果,可以看到其性能領(lǐng)先第二名GIGABYTE約4.7%。領(lǐng)先第三名Supermicro約7.7%。相對而言該項測試計算任務(wù)比較繁重,因此各款產(chǎn)品也拉開了較明顯的差距。
場景三:語音識別(RNN-T)
在一場規(guī)模龐大的線上會議中,演講者所說的內(nèi)容全部實時顯示在屏幕上,既清晰又精準,F(xiàn)在,這樣的場景已經(jīng)無需人力,僅僅通過AI就能實現(xiàn)了。它的背后,就是語音識別的功勞。
RNN-T模型巧妙的將語言模型聲學模型整合在一起,同時進行聯(lián)合優(yōu)化,是一種理論上相對完美的模型結(jié)構(gòu)。它通過聯(lián)合網(wǎng)絡(luò)將語言模型和聲學模型的狀態(tài)通過某種思路結(jié)合在一起,可以是拼接操作,也可以是直接相加等,因此也更加精準。
語音識別(RNN-T)任務(wù)單機訓練成績排名
語音識別RNNT任務(wù)訓練的整機性能對比?梢钥吹絅F5488A5性能第一,領(lǐng)先第二名NVIDIA約2.6%,領(lǐng)先第三名Microsoft約12.5%。這項測試可以說兼顧了深度學習的多種模型整合,復雜程度較高,浪潮NF5488A5憑借硬實力也創(chuàng)造了新的紀錄。
上述這三種場景測試僅僅是冰山一角,在MLPerf?基準測試中共涵蓋了8項最貼近應用場景的機器學習相關(guān)任務(wù),這也是其被譽為極具實戰(zhàn)價值的關(guān)鍵所在。
浪潮AI服務(wù)器,2021收獲滿滿
作為業(yè)內(nèi)最權(quán)威的AI基準測試,MLPerf?每年組織AI推理及AI訓練性能測試各2次。12月1日結(jié)果的公布,這也意味著MLPerf? 2021年度4次測試正式收官。本年度共29家國際廠商、研究機構(gòu)參與其中,在數(shù)據(jù)中心推理、邊緣推理、集群訓練和單機訓練各類AI場景下,不斷突破AI系統(tǒng)性能。其中,浪潮信息共斬獲44項冠軍,名列MLPerf? 2021年度冠軍榜首,英偉達、戴爾、高通分列第二、第三、第四。
仔細觀察不難發(fā)現(xiàn),參賽的廠商與機構(gòu)所選擇的硬件基本類似,想獲得更高的性能,只能靠系統(tǒng)設(shè)計與優(yōu)化能力,這里并無捷徑而言。浪潮信息在AI服務(wù)器設(shè)計與優(yōu)化方面深耕多年,因此才具備如此強勁的硬實力。
在硬件設(shè)計方面,針對AI任務(wù)中常見的密集IO傳輸瓶頸,浪潮AI服務(wù)器以領(lǐng)先設(shè)計大幅降低通信延遲,極大提升了AI訓練效率。同時,針對高負載多GPU協(xié)同任務(wù)調(diào)度,對NUMA節(jié)點與GPU之間的數(shù)據(jù)傳輸進行全面優(yōu)化和深度調(diào)校,確保訓練任務(wù)中的數(shù)據(jù)IO無阻塞。此外,在散熱層面,A100-SXM-80GB(500W) GPU這款產(chǎn)品功耗非常高,為此浪潮開發(fā)了先進冷板液冷系統(tǒng),確保GPU在全功率負載下依然穩(wěn)定工作,也是讓AI服務(wù)器在各種測試中表現(xiàn)出色的重要原因之一。
對于浪潮AI服務(wù)器產(chǎn)品而言,兩款主力機型NF5488A5和NF5688M6在本年度MLPerf?測試中分別斬獲18和15項冠軍,它們的成功并非一蹴而就,而是眾多研發(fā)設(shè)計人員共同努力之下,再輔以多年來的技術(shù)積累,所結(jié)出的成果當然極具實力。
MLPerf?的評測,可以說在整個2021年度為IT行業(yè)點燃了一盞明燈,指引大家將關(guān)注重點放在AI實戰(zhàn)上,而并非硬件指標。此次V1.1榜單也可看作是AI服務(wù)器的盤點與總結(jié),極具參考和實戰(zhàn)價值。從MLPerf?測試本身來看,很多優(yōu)秀的硬件產(chǎn)品在不同階段測試中表現(xiàn)出了強勁的實力,并在各種優(yōu)化之后一次又一次地實現(xiàn)“刷榜”,這也是行業(yè)用戶最想看到的一點。在測試中不斷強大的AI服務(wù)器能夠幫助用戶更高效地完成訓練,并且可以嘗試以前無法企及的任務(wù),為AI在不同領(lǐng)域的快速發(fā)展注入新活力。
浪潮AI服務(wù)器在中國市場份額已連續(xù)五年穩(wěn)居第一,目前全球市場份額也是第一。浪潮信息在MLPerf?中能夠取得優(yōu)異的成績,再次證明了自身研發(fā)實力,并在實戰(zhàn)應用場景方面有了更加深入的洞察和理解。此外,浪潮信息在MLPerf?測試中的探索和創(chuàng)新,也進一步幫助浪潮能夠在實際應用中更好地回饋行業(yè)客戶,助力其業(yè)務(wù)發(fā)展,并以此推動AI快速前行。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風翻身?