訂閱
糾錯(cuò)
加入自媒體

DeepSeek到底用了多少GPU?

各位小伙伴們大家好呀

在中國(guó)春節(jié)期間DeepSeek靠著超低價(jià)格迅速出圈,掀起了一場(chǎng)全球AI大模型風(fēng)暴。這直接改變了以前大家普遍認(rèn)為的發(fā)展AI就要不斷地堆算力、堆GPU的“傳統(tǒng)”觀念。

但很多網(wǎng)友會(huì)有一個(gè)疑問(wèn):訓(xùn)練出DeepSeek,需要多少GPU呢?

關(guān)于這個(gè)問(wèn)題,網(wǎng)上也是說(shuō)法不一,甚至連“美國(guó)鋼鐵俠”馬斯克也在瘋狂質(zhì)疑DeepSeek:不信只用了極少的芯片。

那么DeepSeek到底用了多少GPU呢?最近國(guó)外網(wǎng)站SemiAnalysis對(duì)這一話題進(jìn)行了分析,我個(gè)人覺(jué)得相對(duì)比較符合事實(shí),我們今天拿過(guò)來(lái)一起來(lái)討論一下。

▉ DeepSeek與幻方

對(duì)于密切關(guān)注AI大模型領(lǐng)域的人來(lái)說(shuō),DeepSeek嚴(yán)格意義上其實(shí)并不算一家新公司。

DeepSeek創(chuàng)始人梁文鋒1985年出生于廣東省湛江市,2015年梁文鋒與朋友一同創(chuàng)辦了幻方量化(High-Flyer),是最早在交易算法中使用人工智能的機(jī)構(gòu)之一。

他們很早就意識(shí)到AI人工智能在金融以外領(lǐng)域的潛力,以及擴(kuò)展的重要性。因此,他們不斷擴(kuò)充其GPU的供應(yīng)。在2021年出口限制之前,High-Flyer就投資了1萬(wàn)個(gè)A100 GPU,這一舉措獲得了豐厚回報(bào)。

隨著High-Flyer的不斷進(jìn)步,2023年5月他們意識(shí)到是時(shí)候分拆出“DeepSeek”,以更專(zhuān)注地追求進(jìn)一步的人工智能能力。由于當(dāng)時(shí)外部投資者對(duì)人工智能興趣不大,主要擔(dān)心缺乏商業(yè)模式,High-Flyer自行投資了這家公司,這在現(xiàn)在看來(lái)是多個(gè)明智的一項(xiàng)投資。

由于這層關(guān)系,如今High-Flyer和DeepSeek經(jīng)常共享人力和計(jì)算資源。

DeepSeek如今已經(jīng)發(fā)展成為一個(gè)嚴(yán)肅且有組織的努力方向,絕非許多媒體所聲稱(chēng)的“副業(yè)”。SemiAnalysis認(rèn)為,即使考慮到出口管制,他們?cè)贕PU上的投資也已超過(guò)5億美元。

▉ DeepSeek的GPU資源分布

SemiAnalysis預(yù)估,DeepSeek使用大約5萬(wàn)個(gè)Hopper GPU來(lái)做訓(xùn)練,當(dāng)然正如一些人所聲稱(chēng)的那樣,這并不等同于5萬(wàn)個(gè)H100。英偉達(dá)根據(jù)不同法規(guī)制造了H100的不同版本(H800、H20),目前只有H20可供中國(guó)的模型供應(yīng)商使用。

需要注意的是,H800的計(jì)算能力與H100相同,但網(wǎng)絡(luò)帶寬較低。

SemiAnalysis認(rèn)為DeepSeek使用了大約1萬(wàn)個(gè)H800和大約1萬(wàn)個(gè)H100。此外,他們還訂購(gòu)了更多的H20,英偉達(dá)在過(guò)去9個(gè)月中已經(jīng)生產(chǎn)了超過(guò)100萬(wàn)個(gè)專(zhuān)為中國(guó)設(shè)計(jì)的GPU。這些GPU在High-Flyer和DeepSeek之間共享,并在一定程度上地理分散部署,用于交易、推理、訓(xùn)練和研究。

通過(guò)分析顯示,DeepSeek的服務(wù)器總資本支出約為16億美元,其中與運(yùn)營(yíng)這些集群相關(guān)的成本相當(dāng)可觀,達(dá)到9.44億美元。

同樣,所有AI實(shí)驗(yàn)室和超大規(guī)模云服務(wù)提供商都有更多的GPU用于各種任務(wù),包括研究和訓(xùn)練,而不是僅用于單次訓(xùn)練運(yùn)行,如何有效集中資源進(jìn)行特定任務(wù)的訓(xùn)練也是DeepSeek的挑戰(zhàn)之一。

在人才方面,DeepSeek專(zhuān)注從中國(guó)招聘人才,并不考慮之前的資歷,重點(diǎn)放在能力和好奇心上。據(jù)了解,DeepSeek定期在北大和浙大等頂尖大學(xué)舉辦招聘會(huì),許多員工都畢業(yè)于這些學(xué)校。職位并不一定預(yù)先定義,招聘人員被賦予靈活性,甚至在招聘廣告中吹噓可以無(wú)限制地使用數(shù)萬(wàn)個(gè)GPU。

DeepSeek極具競(jìng)爭(zhēng)力,據(jù)稱(chēng)為有前途的候選人提供超過(guò)130萬(wàn)美元的薪水,遠(yuǎn)高于同為中國(guó)的競(jìng)爭(zhēng)對(duì)手,如Moonshot。DeepSeek目前有大約150名員工,但正在迅速增長(zhǎng)。

正如歷史所證明的那樣,一個(gè)資金充足且專(zhuān)注的小型初創(chuàng)公司往往能夠突破可能的邊界。DeepSeek沒(méi)有像谷歌那樣的官僚機(jī)構(gòu),并且由于是自籌資金,他們可以迅速推進(jìn)想法。然而,與谷歌一樣,DeepSeek(在大多數(shù)情況下)自行運(yùn)營(yíng)數(shù)據(jù)中心,不依賴(lài)外部方或提供商。這為實(shí)驗(yàn)開(kāi)辟了更多空間,使他們能夠在整個(gè)堆棧中進(jìn)行創(chuàng)新。

SemiAnalysis認(rèn)為DeepSeek是當(dāng)今最好的“開(kāi)放靈活”實(shí)驗(yàn)室,超過(guò)了Meta的Llama項(xiàng)目、Mistral等。

▉ DeepSeek的訓(xùn)練成本和性能

近期,一個(gè)新聞?lì)^條中提到DeepSeek的價(jià)格和效率引發(fā)了全球的熱潮,標(biāo)題是DeepSeek V3的訓(xùn)練成本只有“600萬(wàn)美元”,這是錯(cuò)誤的。這就好比指出產(chǎn)品材料清單中的一個(gè)特定部分,并將其視為全部成本。預(yù)訓(xùn)練成本只是總成本中非常狹窄的一部分。

下面我們來(lái)看下DeepSeek整體的訓(xùn)練成本

我們相信預(yù)訓(xùn)練的成本遠(yuǎn)遠(yuǎn)不是模型實(shí)際花費(fèi)的金額。

SemiAnalysis認(rèn)為DeepSeek在公司歷史上對(duì)硬件的支出遠(yuǎn)遠(yuǎn)超過(guò)5億美元。在模型開(kāi)發(fā)過(guò)程中,為了開(kāi)發(fā)新的架構(gòu)創(chuàng)新,需要在測(cè)試新想法、新的架構(gòu)想法和消融研究上花費(fèi)相當(dāng)多的資金。

比如多頭潛在注意力(Multi-Head Latent Attention)是DeepSeek的一個(gè)關(guān)鍵創(chuàng)新,它的開(kāi)發(fā)花費(fèi)了團(tuán)隊(duì)幾個(gè)月的時(shí)間開(kāi)發(fā),涉及了大量的人力和GPU資源。

文章中提到的600萬(wàn)美元成本僅歸因于預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一部分。被排除在外的還有像研發(fā)和硬件本身的總擁有成本(TCO)這樣重要的部分。

作為參考,Claude 3.5 Sonnet的訓(xùn)練成本為數(shù)千萬(wàn)美元,如果這就是Anthropic所需的全部成本,那么他們就不會(huì)從谷歌籌集數(shù)十億美元,從亞馬遜籌集數(shù)百億美元了。這是因?yàn)樗麄冃枰M(jìn)行實(shí)驗(yàn)、提出新的架構(gòu)、收集和清理數(shù)據(jù)、支付員工工資等。

那么DeepSeek是如何擁有如此龐大的集群的呢?出口管制的滯后是關(guān)鍵,此外,他們還訂購(gòu)了大量的H20型號(hào)GPU,這是專(zhuān)門(mén)為滿足中國(guó)市場(chǎng)的需求而生產(chǎn)的。

下面我們來(lái)看下V3的性能

V3無(wú)疑是一個(gè)令人印象深刻的模型,但值得注意的是,它相對(duì)于什么來(lái)說(shuō)是令人印象深刻的。許多人將V3與GPT-4o進(jìn)行比較,并強(qiáng)調(diào)V3的性能超過(guò)了4o。這是事實(shí),但GPT-4o是在2024年5月發(fā)布的。而在AI領(lǐng)域,這段時(shí)間已經(jīng)帶來(lái)了顯著的算法進(jìn)步。

隨著時(shí)間的推移,使用較少的計(jì)算資源實(shí)現(xiàn)相同或更強(qiáng)的能力是正常的。例如,現(xiàn)在可以在筆記本電腦上運(yùn)行的小型模型,其性能與GPT-3相當(dāng),而GPT-3的訓(xùn)練需要超級(jí)計(jì)算機(jī),并且推理需要多個(gè)GPU。

換句話說(shuō),算法改進(jìn)使得訓(xùn)練和推理相同能力模型所需的計(jì)算量減少,這種模式一次又一次地出現(xiàn)。這一次,世界之所以注意到,是因?yàn)樗鼇?lái)自中國(guó)的實(shí)驗(yàn)室。但小型模型性能提升并不是什么新鮮事。

到目前為止,我們見(jiàn)證的這種模式表明,人工智能實(shí)驗(yàn)室在絕對(duì)美元支出上花費(fèi)更多,以換取更高的性價(jià)比。據(jù)估計(jì),算法進(jìn)步的速度為每年4倍,這意味著每過(guò)一年,實(shí)現(xiàn)相同能力所需的計(jì)算量就會(huì)減少到原來(lái)的1/4。

Anthropic的首席執(zhí)行官Dario認(rèn)為,算法的進(jìn)步速度甚至更快,可以帶來(lái)10倍的提升。就GPT-3級(jí)別的推理定價(jià)而言,成本已經(jīng)降低了1200倍。

在研究GPT-4的成本時(shí),我們看到了類(lèi)似的成本下降趨勢(shì),盡管這處于曲線的更早期階段。盡管隨著時(shí)間推移成本差異的減少可以通過(guò)不再保持能力恒定來(lái)解釋?zhuān)谶@種情況下,我們看到算法改進(jìn)和優(yōu)化帶來(lái)了成本的10倍降低和能力的10倍提升。

需要明確的是,DeepSeek的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這一成本和能力水平。他們?cè)诎l(fā)布開(kāi)源權(quán)重方面也是獨(dú)一無(wú)二的,但之前的Mistral和Llama模型也曾這樣做過(guò)。DeepSeek已經(jīng)實(shí)現(xiàn)了這一成本水平,但到今年年底,不要對(duì)成本再下降5倍感到驚訝。

R1的性能是否與o1相當(dāng)?

另一方面,R1能夠達(dá)到與o1相當(dāng)?shù)慕Y(jié)果,而o1是在9月才剛剛宣布的。DeepSeek是如何如此迅速地迎頭趕上的呢?

答案在于推理是一個(gè)新的范式,它具有更快的迭代速度和更低的入門(mén)門(mén)檻,能夠在較小的計(jì)算量下取得有意義的收益,這比之前的范式更有優(yōu)勢(shì)。正如在擴(kuò)展定律報(bào)告中所概述的那樣,之前的范式依賴(lài)于預(yù)訓(xùn)練,而這正變得越來(lái)越昂貴,也越來(lái)越難以取得穩(wěn)健的收益。

這個(gè)新的范式專(zhuān)注于通過(guò)在現(xiàn)有模型上進(jìn)行后訓(xùn)練的合成數(shù)據(jù)生成和強(qiáng)化學(xué)習(xí)(RL)來(lái)實(shí)現(xiàn)推理能力,這使得人們能夠以更低的價(jià)格更快地取得進(jìn)步。較低的入門(mén)門(mén)檻加上易于優(yōu)化的特點(diǎn),使得DeepSeek能夠比以往更快地復(fù)制o1的方法。隨著參與者逐漸學(xué)會(huì)在這個(gè)新范式中實(shí)現(xiàn)更大規(guī)模的擴(kuò)展,預(yù)計(jì)匹配能力的時(shí)間差距將會(huì)增加。

需要注意的是,R1的論文中沒(méi)有提及所使用的計(jì)算量。這并非偶然——為了進(jìn)行R1的后訓(xùn)練,生成合成數(shù)據(jù)需要大量的計(jì)算,更不用說(shuō)強(qiáng)化學(xué)習(xí)了。R1是一個(gè)非常好的模型,我們并不否認(rèn)這一點(diǎn),如此迅速地達(dá)到推理能力的前沿是令人欽佩的。DeepSeek作為中國(guó)的公司,而且用更少的資源就迎頭趕上了,這更令人印象深刻。

但是R1提到的一些基準(zhǔn)測(cè)試也是具有誤導(dǎo)性的。將R1與o1進(jìn)行比較是很棘手的,因?yàn)镽1故意沒(méi)有提及他們沒(méi)有領(lǐng)先的基準(zhǔn)測(cè)試。而且盡管R1在推理性能上與o1相當(dāng),但在許多情況下,它并不是每個(gè)指標(biāo)的明確贏家,而且在許多情況下,它比o1更差。

我們還沒(méi)有提到O3。O3的能力比R1和O1都要高出很多。事實(shí)上,OpenAI最近分享了O3的結(jié)果,其基準(zhǔn)測(cè)試的提升是垂直的。“深度學(xué)習(xí)撞墻了”,但這是另一種類(lèi)型的“墻”。

谷歌的推理模型與R1相當(dāng)?

盡管R1引發(fā)了大量炒作,但一家市值2.5萬(wàn)億美元的公司早在一個(gè)月前就發(fā)布了一個(gè)更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。該模型已經(jīng)可以使用,并且比R1便宜得多,盡管它的模型上下文長(zhǎng)度通過(guò)API要大得多。

在報(bào)告的基準(zhǔn)測(cè)試中,F(xiàn)lash 2.0 Thinking擊敗了R1,盡管基準(zhǔn)測(cè)試并不能說(shuō)明全部情況。谷歌只發(fā)布了3個(gè)基準(zhǔn)測(cè)試,因此這是一個(gè)不完整的畫(huà)面。盡管如此,我們認(rèn)為谷歌的模型是穩(wěn)健的,在許多方面都能與R1抗衡,盡管它沒(méi)有受到任何炒作。這可能是因?yàn)楣雀柙愀獾纳鲜胁呗院陀脩趔w驗(yàn)不佳,但也因?yàn)镽1是一個(gè)來(lái)自中國(guó)的驚喜。

明確地說(shuō),這些都不會(huì)削弱DeepSeek的杰出成就。DeepSeek作為一個(gè)快速行動(dòng)、資金充足、聰明且專(zhuān)注的初創(chuàng)公司,能夠擊敗像Meta這樣的巨頭發(fā)布推理模型,這是值得稱(chēng)贊的。

▉ DeepSeek技術(shù)創(chuàng)新

DeepSeek破解了AI大模型密碼,解鎖了領(lǐng)先實(shí)驗(yàn)室尚未實(shí)現(xiàn)的創(chuàng)新。SemiAnalysis預(yù)計(jì),DeepSeek發(fā)布的任何改進(jìn)都將被西方實(shí)驗(yàn)室?guī)缀趿⒓磸?fù)制。

這些改進(jìn)是什么?大多數(shù)架構(gòu)成就都與V3有關(guān),V3是R1的基礎(chǔ)模型。讓我們?cè)敿?xì)說(shuō)明這些創(chuàng)新。

訓(xùn)練方面(預(yù)訓(xùn)練和微調(diào))

DeepSeek V3在前所未有的規(guī)模上使用了多標(biāo)記預(yù)測(cè)(MTP),并且增加了注意力模塊,這些模塊預(yù)測(cè)接下來(lái)的幾個(gè)標(biāo)記,而不是單一標(biāo)記。這在訓(xùn)練期間提高了模型性能,并且可以在推理時(shí)丟棄。這是一個(gè)算法創(chuàng)新的例子,它實(shí)現(xiàn)了在較低計(jì)算量的情況下提高性能。

還有其他考慮因素,比如在訓(xùn)練中使用FP8精度,但領(lǐng)先的美國(guó)實(shí)驗(yàn)室已經(jīng)進(jìn)行了很長(zhǎng)時(shí)間的FP8訓(xùn)練。

DeepSeek V3也是一種混合專(zhuān)家模型,這是一個(gè)由許多其他較小的專(zhuān)家組成的大型模型,這些專(zhuān)家擅長(zhǎng)不同的事情,這是一種新興行為;旌蠈(zhuān)家模型面臨的一個(gè)挑戰(zhàn)是如何確定哪個(gè)標(biāo)記應(yīng)該分配給哪個(gè)子模型或“專(zhuān)家”。

圖片

DeepSeek實(shí)現(xiàn)了一個(gè)“門(mén)控網(wǎng)絡(luò)”,以平衡的方式將標(biāo)記派發(fā)到正確的專(zhuān)家,而不會(huì)降低模型性能。這意味著派發(fā)非常高效,并且在訓(xùn)練期間,相對(duì)于模型的整體大小,每個(gè)標(biāo)記只改變少量參數(shù)。這增加了訓(xùn)練效率,并降低了推理的成本。

盡管有人擔(dān)心混合專(zhuān)家(MoE)的效率提升可能會(huì)減少投資,但Dario指出,更強(qiáng)大的人工智能模型帶來(lái)的經(jīng)濟(jì)效益如此巨大,以至于任何成本節(jié)約都會(huì)迅速重新投入到構(gòu)建更大模型中。與其減少整體投資,混合專(zhuān)家的效率提升將加速人工智能的擴(kuò)展努力。公司專(zhuān)注于將模型擴(kuò)展到更多的計(jì)算資源,并在算法上提高它們的效率。

就R1而言,它從擁有一個(gè)強(qiáng)大的基礎(chǔ)模型(V3)中受益匪淺。這在一定程度上是因?yàn)閺?qiáng)化學(xué)習(xí)(RL)。強(qiáng)化學(xué)習(xí)有兩個(gè)重點(diǎn):格式化(以確保其提供連貫的輸出)和有用性與無(wú)害性(以確保模型是有用的)。推理能力是在模型在合成數(shù)據(jù)集上進(jìn)行微調(diào)時(shí)出現(xiàn)的。

需要注意的是,在R1論文中沒(méi)有提到計(jì)算量,這是因?yàn)樘岬绞褂玫挠?jì)算量會(huì)顯示他們擁有的GPU比他們聲稱(chēng)的要多。這種規(guī)模的強(qiáng)化學(xué)習(xí)需要大量的計(jì)算,尤其是用于生成合成數(shù)據(jù)。

此外,DeepSeek使用的一部分?jǐn)?shù)據(jù)似乎來(lái)自O(shè)penAI的模型,SemiAnalysis認(rèn)為這將對(duì)從輸出中提取信息的政策產(chǎn)生影響。這在服務(wù)條款中已經(jīng)是非法的,但展望未來(lái),一種新的趨勢(shì)可能是某種形式的KYC(了解你的客戶),以阻止提取信息。

說(shuō)到提取信息,R1論文中最有趣的部分或許是能夠通過(guò)用推理模型的輸出對(duì)較小的非推理模型進(jìn)行微調(diào),從而將它們變成推理模型。數(shù)據(jù)集策劃總共包含了80萬(wàn)個(gè)樣本,現(xiàn)在任何人都可以使用R1的CoT輸出來(lái)創(chuàng)建自己的數(shù)據(jù)集,并借助這些輸出制作推理模型。我們可能會(huì)看到更多較小的模型展示推理能力,從而提升小模型的性能。

多頭潛在注意力(MLA)

MLA是DeepSeek大幅降低推理成本的關(guān)鍵創(chuàng)新之一。原因是MLA將每個(gè)查詢所需的KV緩存減少了約93.3%,與標(biāo)準(zhǔn)注意力相比。KV緩存是Transformer模型中的一種內(nèi)存機(jī)制,用于存儲(chǔ)代表對(duì)話上下文的數(shù)據(jù),減少不必要的計(jì)算。

圖片

隨著對(duì)話上下文的增長(zhǎng),KV緩存也會(huì)增加,并且會(huì)帶來(lái)相當(dāng)大的內(nèi)存限制。大幅減少每個(gè)查詢所需的KV緩存可以減少每個(gè)查詢所需的硬件數(shù)量,從而降低成本。

然而,SemiAnalysis認(rèn)為DeepSeek正在以成本價(jià)提供推理服務(wù)以獲得市場(chǎng)份額,而不是真正賺錢(qián)。谷歌的Gemini Flash 2.0 Thinking仍然更便宜,而且谷歌不太可能以成本價(jià)提供該服務(wù)。MLA特別引起了眾多領(lǐng)先美國(guó)實(shí)驗(yàn)室的關(guān)注。MLA于2024年5月發(fā)布的DeepSeek V2中推出。由于H20的內(nèi)存帶寬和容量比H100更高,DeepSeek在推理工作負(fù)載方面也享受了更多效率。

關(guān)注DeepSeek的創(chuàng)新的內(nèi)容詳解可以查看我上一篇文章一文搞懂DeepSeek創(chuàng)新了些啥?

目前來(lái)說(shuō),DeepSeek 的 GPU 需求突出了有效的人工智能基礎(chǔ)設(shè)施規(guī)劃的必要性。通過(guò)使用智能工作負(fù)載分配、量化和動(dòng)態(tài) GPU 分配,業(yè)務(wù)可以顯著降低計(jì)算成本,同時(shí)保持高性能。這也是DeepSeek被稱(chēng)作"國(guó)運(yùn)級(jí)"產(chǎn)品的重要原因吧。

       原文標(biāo)題 : DeepSeek到底用了多少GPU?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)