訂閱
糾錯
加入自媒體

今年355萬片等效H100,流向五大AI龍頭

本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自lesswrong

2024年五大AI巨頭,擁有多少片英偉達(dá)GPU?

人工智能基礎(chǔ)設(shè)施的數(shù)據(jù)難以精確獲取。諸多報道中會出現(xiàn)諸如 “某公司本季度在基礎(chǔ)設(shè)施上花費了 Xbn”“某公司購買了 10 萬臺 H100” 或者 “擁有 10 萬臺 H100 集群” 這類信息,但當(dāng)筆者試圖估算某家公司能夠使用的計算資源時,卻無法找到統(tǒng)一的數(shù)據(jù)。

在此,筆者試圖從各類來源搜集信息,來大致估算以下兩點:其一,截至 2024 年,預(yù)計各方會擁有多少計算能力?其二,預(yù)計 2025 年會有哪些變化?之后,筆者將簡要闡述這對主要前沿實驗室的培訓(xùn)計算可用性的意義。在討論該問題之前,筆者想先說明幾點注意事項。

這些數(shù)字是筆者在有限時間內(nèi)依據(jù)公開數(shù)據(jù)估算得出的,可能存在誤差,也可能遺漏了一些重要信息。

付費供應(yīng)商很可能有更精準(zhǔn)的估算,他們能夠花費更多時間去詳細(xì)分析諸如晶圓廠的數(shù)量、各晶圓廠的生產(chǎn)內(nèi)容、數(shù)據(jù)中心的位置、每個數(shù)據(jù)中心的芯片數(shù)量等諸多細(xì)節(jié),并得出精確得多的數(shù)字。若讀者需要非常精確的估算,筆者建議向幾家供應(yīng)商中的一家購買相關(guān)數(shù)據(jù)。

英偉達(dá)芯片生產(chǎn)

首先要從最重要的數(shù)據(jù)中心 GPU 生產(chǎn)商 Nvidia 開始。截至 11 月 21 日,在 Nvidia 公布 2025 年第三季度財報之后,預(yù)計Nvidia 該財年數(shù)據(jù)中心收入約為 1100 億美元。這比 2023 年的 420 億美元有所增長,預(yù)計 2025 年將達(dá)到 1730 億美元(基于 2026 財年 1770 億美元的估計)。

數(shù)據(jù)中心的收入絕大部分來自芯片銷售。2025 年的芯片銷售額預(yù)計為 650-700 萬 GPU,幾乎全部是 Hopper 和 Blackwell 型號。根據(jù) CoWoS-S 和 CoWoS-L 制造工藝的預(yù)期比例以及 Blackwell 的預(yù)期量產(chǎn)速度,筆者估計 Hopper 和 Blackwell 型號分別為 200 萬和 500 萬。

2024 年產(chǎn)量

有關(guān) 2024 年生產(chǎn)數(shù)字的資料來源很少,而且經(jīng)常相互矛盾,但 2024 年第四季度的 Hopper GPU 產(chǎn)量估計為 150 萬個(盡管其中包括一些 H20 芯片,因此這只是一個上限),而且各季度的數(shù)據(jù)中心收入比率表明,產(chǎn)量上限為 500 萬個(這將假定每個 H100 同等產(chǎn)品的收入約為 2 萬美元)。

這與今年早些時候估計的 150 萬到 200 萬臺 H100 的產(chǎn)量相沖突--這種差異是否可以合理地歸因于 H100 與 H200、擴容或其他因素尚不清楚,但由于這與他們的收入數(shù)字不一致,筆者選擇使用較高的數(shù)字。

此前的產(chǎn)量

為了評估目前以及未來誰擁有最多的計算資源,2023年之前的數(shù)據(jù)對整體格局的影響有限。這主要是因為GPU性能本身的提升,以及從英偉達(dá)的銷售數(shù)據(jù)來看,產(chǎn)量已經(jīng)實現(xiàn)了大幅增長。根據(jù)估算,微軟和Meta在2023年各自獲得了約15萬塊H100 GPU。結(jié)合英偉達(dá)的數(shù)據(jù)中心收入,2023年H100及同等級產(chǎn)品的總產(chǎn)量很可能在100萬塊左右。

GPU/TPU 按組織計數(shù)

筆者試圖估算微軟、Meta、谷歌、亞馬遜和 XAI 到 2024 年底將獲得多少以 H100 當(dāng)量表示的芯片,以及 2025 年的相關(guān)數(shù)量。

許多消息源稱 “英偉達(dá) 46% 的收入來自 4 個客戶”,不過這可能存在誤導(dǎo)性。查閱英偉達(dá)的 10 - Q 和 10 - K 可以發(fā)現(xiàn),他們區(qū)分了直接客戶和間接客戶,46% 這個數(shù)字指的是直接客戶。然而,直接客戶大多是中間商,比如 SMC、HPE 和戴爾,他們購買 GPU 并組裝服務(wù)器供間接客戶使用,這些間接客戶包括公共云提供商、消費互聯(lián)網(wǎng)公司、企業(yè)、公共部門和初創(chuàng)公司,而筆者所關(guān)注的公司屬于 “間接客戶” 這一范疇。

關(guān)于間接客戶的信息披露相對寬松,可能也不太可靠。在 2024 財年(約 2023 年,文中所討論的情況),英偉達(dá)的年報披露,“一個主要通過系統(tǒng)集成商和分銷商購買我們產(chǎn)品的間接客戶估計占總收入的約 19%”。按照規(guī)定,他們需要披露收入份額超過 10% 的客戶信息。所以,要么他們的第二個客戶最多只有第一個客戶規(guī)模的一半,要么存在測量誤差。這個最大的客戶可能是微軟,有零星信息披露稱,每季度有第二個客戶的數(shù)量曾短暫超過 10%,但這種情況不具有連貫性,而且不包括 2023 年全年或 2024 年前 3 個季度的情況。

估計 2024 年底 H100 等效芯片數(shù)量

微軟,Meta

筆者考慮到微軟身為最大的公有云之一,是 OpenAI 的主要計算提供商,自身沒有像谷歌、可能還有亞馬遜那樣大規(guī)模的定制芯片安裝基礎(chǔ),并且與英偉達(dá)似乎存在相對于同行的特殊關(guān)系(例如,他們顯然率先獲得了 Blackwell 芯片),所以推測這兩個最大的客戶極有可能都是微軟。英偉達(dá)在 2024 年的收入份額不像 2023 年那般精確,其在第二季度和第三季度提及 H1 收入的 13%,而第三季度僅 “超過 10%”,不過 13% 可作為一個合理的估計,這表明微軟在英偉達(dá)銷售中的份額相較 2023 年有所降低。

另有一些對客戶規(guī)模的估計,數(shù)據(jù)顯示,微軟占英偉達(dá)收入的 15%,其次是 Meta Platforms 占 13%,亞馬遜占 6%,谷歌占約 6%,但從消息來源難以確定這些數(shù)據(jù)對應(yīng)的年份。截至 2023 年底,有關(guān)這些云提供商擁有 H100 芯片數(shù)量的報告(Meta 和微軟為 15 萬片,亞馬遜、谷歌和甲骨文各為 5 萬片)與上文的數(shù)據(jù)更為契合。

這里有一個關(guān)鍵的數(shù)據(jù)點,即 Meta 宣稱到 2024 年底 Meta 將擁有 60 萬 H100 當(dāng)量的計算能力。據(jù)說其中包含 35 萬 H100,其余大部分似乎將是 H200 和上個季度到貨的少量 Blackwell 芯片。

倘若我們將這 60 萬視為準(zhǔn)確數(shù)據(jù),并依據(jù)收入數(shù)字的比例,便能更好地估算微軟的可用計算量比這高出 25% 至 50%,即 75 萬至 90 萬 H100 等效值。

谷歌,亞馬遜

筆者注意到,亞馬遜和谷歌向來被視作在對英偉達(dá)收入的貢獻(xiàn)方面處于較為靠后的位置。不過,二者的情況實則全然不同。

谷歌早已擁有大量自定義的 TPU,而這 TPU 正是其內(nèi)部工作負(fù)載所倚重的主要芯片。至于亞馬遜,其內(nèi)部 AI 工作負(fù)載看上去很可能要比谷歌小得多,并且亞馬遜所擁有的數(shù)量相當(dāng)?shù)挠ミ_(dá)芯片,主要是為了通過云平臺來滿足外部 GPU 的需求,其中最為顯著的當(dāng)屬來自 Anthropic 的需求。

下面先來看谷歌的情況。如前文所述,TPU 是其用于內(nèi)部工作負(fù)載的主要芯片。提供該領(lǐng)域數(shù)據(jù)的領(lǐng)先訂閱服務(wù) Semianalysis 在 2023 年底曾宣稱:“谷歌是唯一一家擁有強大內(nèi)部芯片的公司”,“谷歌具備近乎無與倫比的能力,能夠以低成本和高性能可靠地大規(guī)模部署 AI”,且稱其為 “世界上計算資源最豐富的公司”。自這些說法問世以來,谷歌在基礎(chǔ)設(shè)施方面的支出一直維持在較高水平。

筆者對 TPU 和 GPU 的支出進(jìn)行了 2 比 1 的估計(此估計或許較為保守),即假設(shè)每一美元的 TPU 性能等同于微軟的 GPU 支出,由此得出的數(shù)據(jù)范圍是在 2024 年年底擁有 10 萬 - 150 萬 H100 當(dāng)量。

亞馬遜雖有自己的定制芯片 Trainium 和 Inferentia,但它們起步的時間相較于谷歌的 TPU 要晚得多,并且在這些芯片的發(fā)展進(jìn)程中似乎落后于前沿水平。亞馬遜甚至推出 1.1 億美元的免費積分以吸引人們試用,這一舉措表明其芯片截至目前尚未呈現(xiàn)出良好的適應(yīng)性。半分析指出:“我們的數(shù)據(jù)顯示,Microsoft 和 Google 在 AI 基礎(chǔ)設(shè)施上的 2024 年支出計劃將使他們部署的計算量遠(yuǎn)超過亞馬遜”,并且 “此外,亞馬遜即將推出的內(nèi)部芯片 Athena 和 Trainium2 仍然顯著落后”。

然而,到 2024 年年中,情況或許已有所轉(zhuǎn)變。在 2024 年第三季度財報電話會議上,亞馬遜首席執(zhí)行官安迪?賈西談及 Trainium2 時表示 “我們察覺到人們對這些芯片抱有濃厚興趣,我們已多次與制造合作伙伴溝通,產(chǎn)量遠(yuǎn)超最初計劃”。但由于當(dāng)時他們 “在接下來的幾周內(nèi)才開始增產(chǎn)”,所以在 2024 年其芯片似乎不太可能有大規(guī)模的供應(yīng)。

XAI

筆者在此要介紹的最后一位重要參與者便是 XAI。該機構(gòu)發(fā)展極為迅速,在相關(guān)領(lǐng)域坐擁一些規(guī)模最大的集群,且有著宏大的發(fā)展計劃。其在 2024 年底對外透露了一個正在運行的、擁有 10 萬臺 H100 的集群,不過就目前來看,似乎在為該站點提供充足電力方面存在一定的問題。

2025年Blackwell芯片預(yù)測

筆者注意到《2024 年人工智能狀態(tài)報告》對主要供應(yīng)商的 Blackwell 購買量有所估計,其提到 “大型云公司正在大量購買這些 GB200 系統(tǒng):微軟在 70 萬 - 140 萬之間,谷歌在 40 萬以及 AWS 在 36 萬之間。有傳言說 OpenAI 至少有 40 萬 GB200”。由于這些數(shù)字是芯片的總數(shù),所以存在重復(fù)計算 2024 年 Blackwell 購買量的風(fēng)險,故而筆者打了 15% 的折扣。

若依據(jù)微軟的估計,谷歌和 AWS 購買英偉達(dá)的數(shù)量約為 100 萬臺,這與它們相對于微軟的典型比例相符。這也會使微軟占英偉達(dá)總收入的 12%,此情況與其在英偉達(dá)收入中的份額于 2024 年的小幅下降態(tài)勢相一致。

在這份報告里,Meta 未被給出任何估計,但 Meta 預(yù)計明年人工智能相關(guān)基礎(chǔ)設(shè)施支出將 “顯著加速”,這意味著其在英偉達(dá)支出中的份額將維持在高位。筆者假定到 2025 年,Meta 的支出約為微軟的 80%。

對于 XAI 而言,其在這些芯片的相關(guān)內(nèi)容中未被提及,不過埃隆?馬斯克宣稱他們將于 2025 年夏天擁有一個 30 萬的 Blackwell 集群?紤]到馬斯克有時會有夸張言論的情況,XAI 似乎有可能在 2025 年底擁有 20 萬至 40 萬這樣的芯片。

一架 B200 的 H100 值多少呢?為衡量產(chǎn)能增長,這是一個關(guān)鍵問題。訓(xùn)練和推理所引用的數(shù)字不同,就訓(xùn)練而言,當(dāng)前(2024 年 11 月)的最佳估計值是 2.2 倍。

對于谷歌,筆者假定英偉達(dá)芯片繼續(xù)占其總邊際計算的 1/3。對于亞馬遜,筆者假定為 75%。這些數(shù)字存在較大不確定性,估計數(shù)對其較為敏感。

值得留意的是,仍然有諸多 H100 和 GB200 未被記錄,且可能在其他地方有顯著聚集,尤其是在英偉達(dá) 10% 的報告門檻之下。像甲骨文等云服務(wù)提供商以及其他較小的云服務(wù)提供商可能持有。

芯片數(shù)量估計摘要

模型訓(xùn)練注意事項

筆者在此所提及的上述數(shù)字,乃是對可用計算總量的估計情況。不過,想必許多人會更為關(guān)注用于訓(xùn)練最新前沿模型的那部分計算量。接下來,筆者將著重圍繞 OpenAI、Google、Anthropic、Meta 以及 XAI 展開介紹。但需說明的是,這一切內(nèi)容都頗具推測性,畢竟這些公司要么是私營性質(zhì),要么規(guī)模極為龐大,以至于無需對外披露這方面的成本明細(xì)。就拿谷歌來說,相關(guān)內(nèi)容僅僅只是其業(yè)務(wù)的一小部分罷了。

據(jù)預(yù)計,OpenAI 在 2024 年的培訓(xùn)成本將會達(dá)到 30 億美元,其推理成本則為 40 億美元。依照一位消息人士的說法,Anthropic“預(yù)計今年將會虧損約 20 億美元,營收可達(dá)數(shù)億美元”。這也就意味著,Anthropic 的總計算成本要比 OpenAI 的 70 億美元多出 20 億美元。由于 Anthropic 的收入主要源自 API,且應(yīng)當(dāng)具備正的毛利率,所以其推理成本將會大幅降低,由此可推斷出,多出的 20 億美元中的大部分是用于訓(xùn)練的,大概為 15 億美元左右。即便與 OpenAI 相比,Anthropic 在培訓(xùn)成本方面存在兩個不利因素,但這似乎并未對其競爭力造成妨礙。這種情況看起來確實很有可能,因為 Anthropic 的主要云提供商是 AWS,而我們已然了解到,AWS 所擁有的資源通常要比為 OpenAI 提供計算資源的微軟少。之前提到的《AI 狀態(tài)報告》中有傳言稱,微軟將會向 OpenAI 提供 40 萬個 GB 200 芯片,這一數(shù)量將會超過 AWS 傳聞中的整個 GB 200 容量,所以極有可能使得 OpenAI 的訓(xùn)練能力遠(yuǎn)遠(yuǎn)高于 Anthropic 的訓(xùn)練能力。

筆者發(fā)現(xiàn),谷歌的情況不太明晰。Gemini超 1.0 模型的訓(xùn)練計算量大約是 GPT - 4 的 2.5 倍,不過在其發(fā)布 9 個月后,相比最新的 Llama 模型僅多出 25%。正如我們所了解到的,谷歌或許比同行擁有更多的可用計算能力,然而,由于它既是一個主要的云提供商,又是一家大企業(yè),所以其自身的需求也更多。谷歌的計算能力要強于 Anthropic 或 OpenAI,甚至比 Meta 也要強,要知道 Meta 也有大量獨立于前沿模型培訓(xùn)的內(nèi)部工作流程,比如社交媒體產(chǎn)品的推薦算法。Llama 3 在計算方面比 Gemini 要小,盡管它是在 Gemini 發(fā)布 8 個月后才推出的,這表明截至目前,Meta 分配給這些模型的資源相較于 OpenAI 或 Google 而言略少一些。

再看 XAI 方面,據(jù)稱其使用了 2 萬個 H100 來訓(xùn)練Grok 2 型,并且預(yù)計Grok 3 型的訓(xùn)練將會使用多達(dá) 10 萬個 H100。鑒于 GPT - 4 據(jù)稱是在 25000 個英偉達(dá) A100 GPU 上訓(xùn)練了 90 - 100 天,而 H100 的性能大約是 A100 的 2.25 倍,如此一來,Grok 2 型的計算量將達(dá)到 GPT - 4 的兩倍,并且預(yù)計Grok 3 型的計算量還會再增加 5 倍,從而使其接近行業(yè)領(lǐng)先水平。

需要注意的是,XAI 并非所有的計算資源都來自于他們自己的芯片,據(jù)估計,他們從甲骨文云租用了 16000 個 H100。倘若 XAI 能夠像 OpenAI 或 Anthropic 那樣將其計算資源合理地部分用于培訓(xùn),筆者猜測它的培訓(xùn)規(guī)模或許會與 Anthropic 類似,略低于 OpenAI 和谷歌。

*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。

       原文標(biāo)題 : 今年355萬片等效H100,流向五大AI龍頭

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號