訂閱
糾錯
加入自媒體

拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?

2024-05-23 11:34
藍鯨
關注

圖片

圖片來源:視覺中國

在眾多AI應用眼花繚亂地涌入市場時,AI公司深度求索(DeepSeek)上周公告DeepSeekChat已通過北京市生成式人工智能服務備案,或?qū)⒑芸煜蚬婇_放服務。

DeepSeek由知名私募巨頭幻方量化于2023年4月創(chuàng)立。與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關系。但這家公司仍然被視為一匹可能改變國內(nèi)AI市場格局的“黑馬”。

5月初,DeepSeek宣布開源第二代MoE大模型DeepSeek-V2。據(jù)介紹,該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的僅百分之一,這也讓DeepSeek收獲了“AI屆拼多多”的名號。

而直到本周,阿里巴巴和百度才爭先恐后加入大模型價格戰(zhàn),DeepSeek的掀桌子舉動甚至比智譜AI和字節(jié)跳動對旗下大模型產(chǎn)品的高調(diào)降價更早。

高性價比或許是DeepSeek的顯著優(yōu)勢,但隨著諸多企業(yè)紛紛入局AI價格戰(zhàn),已經(jīng)卷出“白菜價”的大模型很快變得不再稀缺,DeepSeek又該走出怎樣的商業(yè)模式來應對呢?

價格戰(zhàn)的導火索漸失低價優(yōu)勢

DeepSeek-V2推出后,DeepSeek一度被AI圈稱作“價格屠夫”。

它的中文綜合能力是目前開源模型中最強的,與GPT-4 Turbo,文心4.0等閉源模型處于同一梯隊。英文綜合能力與最強的開源模型LLaMA3-70B處于同一梯隊,超過最強MoE開源模型Mixtral8x22B。而這些競爭者都背靠科技大廠,或者擁有科技業(yè)界明星團隊。

相較于出色的性能,有分析公司直言DeepSeek-V2的價格“便宜得難以置信”。該模型每百萬tokens輸入價格為1元、輸出價格為2元,而GPT-4 Turbo每百萬tokens的輸入/輸出價格為72元、217元。

同為中國公司,盡管DeepSeek率先定下了大模型的低價,但在過去一周,關于價格戰(zhàn)的討論卻更多地圍繞字節(jié)跳動、阿里等行業(yè)巨頭。

5月15日,字節(jié)發(fā)布豆包大模型,其主力模型的定價為輸入0.0008元/千tokens,當時稱較行業(yè)便宜99.3%。阿里云周二宣布,通義千問對標ChatGPT-4的主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%。百度隨之公告,文心大模型的兩款入門級主力模型ENIRE Speed、ENIRE Lite全面免費。此前,智譜AI入門級產(chǎn)品GLM-3 Turbo模型的調(diào)用價格也從5元/百萬tokens降至1元/百萬tokens。

雖然國外AI公司仍將競賽焦點放在技術(shù)的迭代升級和產(chǎn)品的應用場景上,但一些大模型今年也相繼宣布下調(diào)價格。2月底,法國人工智能企業(yè)Mistral AI發(fā)布大模型Mistral Large,其輸入、輸出價格比GPT-4 Turbo便宜約20%,成為OpenAI的強勁對手。自去年以來,OpenAI已進行4次降價,5月發(fā)布的GPT-4o價格較前一代模型降低了50%。

降價有助于大模型快速搶占市場,爭取更多的用戶。而使用量越大,大模型也能被調(diào)用得更好。但并非所有玩家都有資格加入價格戰(zhàn),降價涉及到大模型的研發(fā)、訓練、推理等成本的優(yōu)化,一些中小企業(yè)會難以跟上大廠的腳步。

正如字節(jié)旗下火山引擎總裁譚待所說,“豆包模型的超低定價,來源于我們有信心用技術(shù)手段優(yōu)化成本,而不是補貼或是打價格戰(zhàn)爭奪市場份額。”

對于DeepSeek-V2而言,定出低價的底氣在于其架構(gòu)的創(chuàng)新。該模型沒有沿用傳統(tǒng)的大模型架構(gòu),而是采用新的多頭潛在注意力(Multi-Head Latent Attention)和DeepSeekMoE架構(gòu),在處理信息時能夠更智能和高效,降低大模型的推理成本。

DeepSeek-V2具有2360億總參數(shù),但處理每個token時只需激活210億參數(shù)。這不僅能夠減少內(nèi)存使用,也能提高計算效率。一些大模型需要激活所有參數(shù)來提供響應,參數(shù)越多,計算成本也就越高。

AI明星公司Anthropic聯(lián)合創(chuàng)始人、OpenAI前政策主管Jack Clark也關注到DeepSeek-V2的突破,并表示:“DeepSeek組建了一支團隊,他們對訓練雄心勃勃的模型所需的基礎設施有著深刻的理解。中國制造也將成為AI模型的發(fā)展趨勢。”

此外,也有業(yè)界人士認為,DeepSeek可能是中國幾家大廠之外,擁有英偉達高性能GPU最多的公司。

隨著頭部廠商們陸續(xù)入局,大模型價格戰(zhàn)越發(fā)聲勢浩大,創(chuàng)新能力或可成為DeepSeek參與競爭的資本。

不做應用做研究

除了開始卷價格,國內(nèi)AI行業(yè)還卷起了應用的落地。如果說過去一年上演的還是“百模大戰(zhàn)”,2024年則被認為將會是AI應用落地元年。

今年3月,月之暗面宣布旗下的Kimi智能助手已支持 200 萬字超長無損上下文,隨后拉動Kimi概念股大漲,反映出市場對于AI技術(shù)的商業(yè)化應用的信心。據(jù)AI產(chǎn)品榜數(shù)據(jù),4月Kimi訪問量達2004萬,超過百度文心一言的1691萬。

橫空出世的Kimi搶占風口后,巨頭們也開始加速推出一系列AI應用。百度聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏多次表態(tài),“卷大模型沒有意義,卷應用機會更大。”字節(jié)跳動更是一氣推出十多款AI產(chǎn)品,從“App工廠”轉(zhuǎn)型為“AI應用工廠”。大廠們在推動大模型落地時大多遵循由內(nèi)到外的邏輯,先基于AI重構(gòu)內(nèi)部產(chǎn)品,再實現(xiàn)對外的輸出。

在一片AI應用浪潮中,DeepSeek卻顯得有些安靜。其母公司幻方量化的創(chuàng)始人梁文鋒去年在接受媒體采訪時表示,公司不會過早地設計基于模型的一些應用,而是會專注在大模型上。幻方的目標是探索 AGI(人工通用智能),認為語言大模型可能是通往AGI的必經(jīng)之路,并且初步具備了AGI的特征,所以會從大模型開始。

梁文鋒也承認,很多風投對于優(yōu)先做研究、不做應用的策略有顧慮,希望能盡快實現(xiàn)產(chǎn)品商業(yè)化,這讓DeepSeek很難獲得融資。但其擁有的算力和工程師團隊相當于“有了一半籌碼”。

有云計算專家提出,1萬枚英偉達A100芯片是做AI大模型的算力門檻。當中國云廠商受限于緊缺的GPU芯片時,幻方卻早早押中了大模型賽道的入場券。據(jù)報道,除商湯科技、百度、騰訊、字節(jié)、阿里等科技巨頭外,幻方也手握著超1萬枚GPU。

梁文鋒在媒體采訪中表示,幻方對算力的儲備并不突然。在2019年,幻方就已投資2億元自研深度學習訓練平臺“螢火一號”,搭載了1100塊GPU。到了2021年,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。一年后,OpenAI發(fā)布ChatGPT的公開測試版本,拉開全球新一輪AI熱潮的序幕。

頂著高昂的研發(fā)成本,百度、阿里等頭部玩家已開始大打價格戰(zhàn),搶占市場,期望有更多的真實使用場景以推進產(chǎn)品訓練。而事實上率先掀起本輪大模型價格戰(zhàn),喊著“不做應用做研究”的DeepSeek,卻并沒有在各家大廠密集召開降價發(fā)布會時發(fā)聲,顯得無心參戰(zhàn)。盡管背后有幻方量化提供研發(fā)經(jīng)費,DeepSeek不計ROI的堅持究竟會導向領先,還是落后的未來呢?

       原文標題 : 拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號