訂閱
糾錯
加入自媒體

希望2025年,中國不再只有一個DeepSeek

 DeepSeek對AI行業(yè)深遠影響,成本定價體系、市場估值體系、產(chǎn)業(yè)上下游生態(tài),都需要達成新的共識。更重要的是DeepSeek使人們看到了‘信心’,‘信心’能凝聚更多資源(輿論環(huán)境、人才、資本、時間、耐心等)讓中國科技從技術(shù)追趕者變成了引領(lǐng)創(chuàng)新者。

從2022年底OpenAI發(fā)布ChatGPT,中國AI發(fā)展的主流敘事始終是“追趕”,而DeepSeek橫空出世,將“追趕“變成了“創(chuàng)新”和“普及”,甚至是“重塑”和“超越”。

從1月20日,周日晚間梁文鋒登上新聞聯(lián)播開始發(fā)酵,震撼全世界的“DeepSeek R1 560萬美元訓(xùn)練成本,并且開源”,使得全球AI人相關(guān)的人注意力都聚焦于此。

算力廠家股價大跳水。投AI的VC們不僅忙著研究DeepSeek,還要重新評估AI市場,并且還要承受輿論的巨大壓力,比如小紅書有篇帖子,標題為“DeepSeek再次證明,中國VC就是個笑話”。更不幸的是,點贊還過千了。DeepSeek的開源也引發(fā)了全球?qū)τ诩夹g(shù)平權(quán)的熱烈討論。

當我們情緒得到了宣泄,冷靜下來用“系統(tǒng)2”來思考的時候,不禁會問:DeepSeek影響了什么?真實的成本到底多少?未來對AI的投資有哪些影響?技術(shù)平權(quán)帶來了什么?

01失意的VC們

自從ChatGPT問世以來,國內(nèi)關(guān)于AI賽道的投資是最火熱的。但DeepSeek的發(fā)布,讓英偉達這類算力相關(guān)廠商的股價大跳水(堆算力的敘事邏輯被打破),成為最大“受害者”。

除此之外,最失意的可能要算是這些VC們了:投的企業(yè)沒水花,火爆的投不進去。

他們投了大量的錢在“大模型六小龍”們上,但他們支持的大模型創(chuàng)業(yè)項目,自始沒有一個達到DeepSeek這樣的全球熱度。

比如幾乎與DeepSeek同時發(fā)布的,Kimi全新強化學習模型k1.5,雖然是全球繼OpenAI之后首個多模態(tài)類o1模型,在諸多層面能力接近o1甚至是超越,但沒有濺起多大水花,同樣淹沒在了DeepSeek狂熱的輿論中。

輿論不吝給予梁文鋒和他的理想主義最大程度的贊揚,同時也施加給中國VC極致的羞辱和討伐,比如小紅書有篇帖子,標題為“DeepSeek再次證明,中國VC就是個笑話”。更不幸的是,點贊還過千了。

宣泄情緒,不如客觀分析,VC們?yōu)槭裁礇]投到DeepSeek?

這個春節(jié)假期,大模型的投資人心情是復(fù)雜的,既驚喜又恐慌。驚喜在于,中國大模型企業(yè)能夠這么快趕上世界水平;恐慌則在于,整個AI投資的邏輯可能會發(fā)生巨大的變化。

至少在國內(nèi),DeepSeek已經(jīng)贏了這場戰(zhàn)爭。它正在進行的一輪融資估值已經(jīng)達到80億美元,是行業(yè)里估值最高的一家,這都得搶破頭或只能定向融。”一位AI投資人說。關(guān)注AI賽道的投資人,最近都直接或間接找到梁文鋒確認DeepSeek是否正式啟動融資,目前沒有得到官方答復(fù)。爆火后的梁文鋒,已經(jīng)被投資人包圍了。幻方杭州總部所在的匯金國際大廈,近期都擠滿了記者和投資人。DeepSeek此前并未開放融資,初期資金由幻方量化支持。

按照梁文峰在訪談中的說法,他也嘗試過找資方,但礙于自己專注于研究的想法和VC更多考慮商業(yè)化的訴求不相符,于是斷了念想。為什么沒有投到DeepSeek,有兩方面原因:1、投資行業(yè)對于AI的投資經(jīng)驗判斷導(dǎo)致;2、DeepSeek自身定位和基因。

1、AI的投資判斷2023年上半年融資戰(zhàn)剛開始時,行業(yè)內(nèi)的一個分析是:中國的VC經(jīng)過上一代AI公司(以AI四小龍商湯、曠世、云從、依圖為代表)的“洗禮”,對大模型公司的商業(yè)化耐心已經(jīng)從5年、8年縮短到3年內(nèi)。這或許是中國大模型公司的普遍困境。VC都是幫LP管錢,都得賺錢,所以商業(yè)化是必須提上日程的事,不能一直專注做研究。像金沙江資本的朱嘯虎,在DeepSeek這波火爆之前,對大模型嗤之以鼻,明確不投大模型,投AI應(yīng)用,就是因為研究離商業(yè)化太遠。

但朱總畢竟是朱總,對VC應(yīng)不應(yīng)該參與DeepSeek融資的重點拿捏得很準,“我肯定投啊,這個價格已經(jīng)不太重要了,關(guān)鍵是參與在這里面”。打不打臉不重要,誰和錢過不去呢。這應(yīng)該是現(xiàn)階段所有VC的共識:“跪著”也要進去一些份額。一位省級國資的投資人表示,最近他們機構(gòu)從上到下,都在跟DeepSeek方面接觸,無論如何希望“跪一部分份額”進去,但DeepSeek口咬得很死,堅稱目前并沒有開放融資窗口。

當然誰也不可能預(yù)知未來,也不可能預(yù)測到DeepSeek這么火。任何產(chǎn)品的火爆離不開天時地利人和,時點很重要。在當下AI的上升曲線已經(jīng)變緩,預(yù)訓(xùn)練的數(shù)據(jù)差不多用光了,大語言模型能力不再容易上升,只能轉(zhuǎn)換思路轉(zhuǎn)向以O(shè)penAI的 O1和DeepSeek的 R1為代表的推理模型。“這個時候,是選擇繼續(xù)砸大錢去搏一個上限?還是不追求那5%的進步而是把成本降到原來的10%?DeepSeek代表的降成本路線恰恰出現(xiàn)在一個合適的時間點上。”2、DeepSeek自身定位和基因創(chuàng)始人梁文鋒的個人風格十分明顯:有極強的技術(shù)信仰,對 AGI 有十足的好奇心與求知欲,并且十分刻苦。

接近梁文鋒的知情人士形容,梁文鋒“說話非常非常慢,每一句話都要思考很久很久才表達出來,而且表達非常簡潔。雖然簡潔,但說出來的話經(jīng)常一針見血。”一位幻方量化的員工曾在公司博客中寫道,“老板本人每天都在寫代碼、跑代碼。”這是就是梁文鋒與其他公司的不同之處。想了解梁文鋒的成長經(jīng)歷,可以看下這篇文章:《爆火DeepSeek背后的創(chuàng)始人梁文鋒,到底有多牛?》

DeepSeek是一群絕對的技術(shù)理想主義者。延續(xù)了梁文鋒在量化行業(yè)對技術(shù)人才高要求的風格,DeepSeek基本以 Top2 高校、信息學競賽金牌選手為基準,團隊規(guī)模往往不大,但能力超強。看看這份名單就可知曉一二:

DeepSeek 內(nèi)部的組織文化也非常扁平。無論是北京還是杭州,都只有一個老板:DeepSeek創(chuàng)始人梁文鋒。梁文鋒以下基本全是打工人。當然同時也是幻方量化創(chuàng)始人的梁文鋒也不差錢,還是支撐的起初期DeepSeek的投入,幾十億還是拿的出來。當然和OpenAI幾千億、字節(jié)、阿里幾百億的投入相比,確實不是一個量級。一號位是技術(shù)發(fā)燒友,對技術(shù)有天然的敬畏之心與好奇之心;同時在管理上集權(quán)風格明顯,文化扁平,因而能在技術(shù)探索中遇到困難時能自上而下協(xié)調(diào)資源,快速達到上傳下達的效果。這或許就是DeepSeek能成功的關(guān)鍵。當然,這也是和VC們談不攏的根本原因。

02技術(shù)平權(quán)

ChatGPT和LLama,OpenAI和Mata一直代表著大模型的兩個陣營,閉源和開源之爭,就像蘋果的IOS和谷歌的安卓。

開源與閉源既是技術(shù)策略,更是商業(yè)策略。

表面上是發(fā)展路線之爭,實則是利益之爭。

梳理國內(nèi)知名大模型的開閉源情況發(fā)現(xiàn),阿里云、騰訊等云廠商旗下模型更傾向于開源;智譜AI、百川智能、月之暗面等大模型創(chuàng)業(yè)公司則傾向于閉源。

“核心還是盈利模式。”生成人工智能算力成本高昂、研發(fā)投入較大給企業(yè)盈利帶來一定困難。

有錢的大廠都傾向于開源,沒錢的公司都傾向于閉源。百度的李彥宏支持大模型閉源,何嘗不是經(jīng)營層面的考慮呢?

DeepSeek的開源,是全球大模型發(fā)展的催化劑,可以讓全球享受到更低的成本,讓AI更快速地走到大眾身邊。

圖片

當然開源、閉源確實也各有利弊。開源會讓大家“拿來主義”,不會再考慮底層的創(chuàng)新了。TrainiCEO孫鄰家認為,“技術(shù)過度平權(quán)不一定是好事,會失去創(chuàng)新的驅(qū)動力,F(xiàn)在看來,2025年是一個從閉源套殼轉(zhuǎn)為開源套殼的年份,造成的結(jié)果可能是出現(xiàn)一堆同質(zhì)化產(chǎn)品,依然找不到盈利的方法。目前,能做Fine-tuning(大模型微調(diào))的公司沒有想象中的那么多,能持續(xù)做并且有創(chuàng)新的就更少,缺數(shù)據(jù)和人才。”開源也好,閉源也罷。技術(shù)競合催生共贏,封鎖反噬創(chuàng)新生態(tài)。模型變小和經(jīng)濟性提高,對應(yīng)用肯定是積極影響,但是在應(yīng)用側(cè),技術(shù)不是最大的制約,而是對產(chǎn)業(yè)的理解。

在安卓上長出的軟件應(yīng)用也沒有殺死iOS和其應(yīng)用。LLama的能力也很強大,可以滿足多數(shù)應(yīng)用的需求,但實際離我們期待的落地使用也差很遠。

相信2025年是AI應(yīng)用大年。DeepSeek出來之后,做應(yīng)用的廠商只需要專注在應(yīng)用本身的前后端交互體驗,同時再基于場景做打磨就可以了,這省去了很多基礎(chǔ)層面的投入。

DeepSeek的出現(xiàn)短期內(nèi)可以改變了對算力需求的邏輯,但長期來看,AI和應(yīng)用的蓬勃發(fā)展,必然帶來總體需求的增長,算力還是有價值的。

03

DeepSeek的真實成本?

網(wǎng)絡(luò)的敘事,總是夸大事實來吸引眼球,560萬美元真的是DeepSeek的真實成本嗎?DeepSeek從來沒說過。只不過在DeepSeek V3的論文中提到了自己的訓(xùn)練成本是557.6萬美元,但這肯定不是總成本。

DeepSeek到底有多少GPU?DeepSeek沒有對外公布過GPU數(shù)量,外界都是根據(jù)一些信息評估的數(shù)據(jù)。比如SemiAnalysis的評估數(shù)據(jù)如下:

1萬個A100,1萬個H800,1萬個H100和3萬個H20,組成了DeepSeek的“彈藥庫”。這里提下為什么這么多型號?英偉達為了遵守不同限制規(guī)定,生產(chǎn)了 H100 的多種變體(H800、H20),目前中國的模型供應(yīng)商僅能獲得 H20。2022年10月,美國政府要求英偉達不得向中國銷售A100和H100人工智能處理器。2023年英偉達針對中國市場的特供版H800、A800兩款芯片也被禁售。英偉達目前針對中國市場的是特供版H20,這個芯片在DeepSeek的影響下,可能也要被特朗普禁售了。而真正有據(jù)可查的數(shù)據(jù),來源于DeepSeek的論文中,提到了DeepSeek-V3使用了2048塊H800 GPU進行訓(xùn)練。

DeepSeek的這一配置可能是其最有效的預(yù)訓(xùn)練集群。作為參考,Meta在其論文中提到使用了超過16000塊GPU的集群,Meta用的H100,而H800的性能是不如H100的。無論如何,雖遠低于Meta的規(guī)模,但DeepSeek仍屬于計算資源最豐富的機構(gòu)之一,而且DeepSeek是2021年國內(nèi)最早具有萬卡的5家企業(yè)之一,其他4家都是互聯(lián)網(wǎng)大廠。DeepSeek的總成本都有哪些?除了購買GPU的費用以外,DeepSeek還需要承擔實驗與預(yù)訓(xùn)練成本、運營及電力成本、人力成本等等,如果真要均攤下,確實不低,這也是做大模型的公司,第一門檻就是找錢。1、實驗與預(yù)訓(xùn)練成本

模型開發(fā)過程中用于實驗的總計算量遠高于最終報告的數(shù)字,語言模型實驗室常會通過scaling laws降低預(yù)訓(xùn)練風險,這意味著在大規(guī)模訓(xùn)練之前會進行數(shù)千次小規(guī)模實驗(如10億至70億參數(shù)量),以驗證模型的有效性。

據(jù)推測,DeepSeek-V3的預(yù)訓(xùn)練實驗總計算量可能是論文中報告數(shù)字的2-4倍,在1000萬-2500萬美元之間。此外,DeepSeek還可能使用了其他項目(如DeepSeek R1 Lite)作為合成數(shù)據(jù)的來源,進一步增加了計算開銷。

2、運營及電費成本

對于1萬塊以上的A/H100 GPU集群,電費每年可能超過1000萬美元,這也是筆不小開銷。這么多GPU既要找地方放又要維護吧,當然也可能與云服務(wù)提供商合作,這部分成本至少數(shù)億級別。

3、人力成本

DeepSeek-V3論文中有139名技術(shù)作者,當然這里面有他們的員工,有應(yīng)屆畢業(yè)生,也有在校的實習生。如果按照人均60w年薪,大概也是1000多萬美元。

全年運營成本:結(jié)合硬件、實驗、運營及電力和人員成本,DeepSeek 一年的運營成本肯定不會低于3億美元。SemiAnalysis給出的估算是13億美元。

560萬美元都是很多自媒體為了打雞血,抓眼球的斷章取義,反正普通老百姓也分辨不了,怎么能煽動情緒怎么來寫。不要過度神話,也不要無腦貶低。多用用我們大腦的“系統(tǒng)2”理性分析。

對權(quán)威保持警惕、永遠從問題的本質(zhì)倒推,堅定創(chuàng)新,才能引領(lǐng)潮流。短期的快錢或許會流向幸運的人,但長期的資源應(yīng)該流向那些擅長將資源應(yīng)用到最好的團隊。這也是創(chuàng)業(yè)的魅力所在~!

希望2025年,中國不再只有一個DeepSeek!

       原文標題 : 希望2025年,中國不再只有一個DeepSeek

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號