拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?
圖片來源:視覺中國
在眾多AI應用眼花繚亂地涌入市場時,AI公司深度求索(DeepSeek)上周公告DeepSeekChat已通過北京市生成式人工智能服務備案,或?qū)⒑芸煜蚬婇_放服務。
DeepSeek由知名私募巨頭幻方量化于2023年4月創(chuàng)立。與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關系。但這家公司仍然被視為一匹可能改變國內(nèi)AI市場格局的“黑馬”。
5月初,DeepSeek宣布開源第二代MoE大模型DeepSeek-V2。據(jù)介紹,該模型在性能上比肩GPT-4 Turbo,價格卻只有GPT-4的僅百分之一,這也讓DeepSeek收獲了“AI屆拼多多”的名號。
而直到本周,阿里巴巴和百度才爭先恐后加入大模型價格戰(zhàn),DeepSeek的掀桌子舉動甚至比智譜AI和字節(jié)跳動對旗下大模型產(chǎn)品的高調(diào)降價更早。
高性價比或許是DeepSeek的顯著優(yōu)勢,但隨著諸多企業(yè)紛紛入局AI價格戰(zhàn),已經(jīng)卷出“白菜價”的大模型很快變得不再稀缺,DeepSeek又該走出怎樣的商業(yè)模式來應對呢?
價格戰(zhàn)的導火索漸失低價優(yōu)勢
DeepSeek-V2推出后,DeepSeek一度被AI圈稱作“價格屠夫”。
它的中文綜合能力是目前開源模型中最強的,與GPT-4 Turbo,文心4.0等閉源模型處于同一梯隊。英文綜合能力與最強的開源模型LLaMA3-70B處于同一梯隊,超過最強MoE開源模型Mixtral8x22B。而這些競爭者都背靠科技大廠,或者擁有科技業(yè)界明星團隊。
相較于出色的性能,有分析公司直言DeepSeek-V2的價格“便宜得難以置信”。該模型每百萬tokens輸入價格為1元、輸出價格為2元,而GPT-4 Turbo每百萬tokens的輸入/輸出價格為72元、217元。
同為中國公司,盡管DeepSeek率先定下了大模型的低價,但在過去一周,關于價格戰(zhàn)的討論卻更多地圍繞字節(jié)跳動、阿里等行業(yè)巨頭。
5月15日,字節(jié)發(fā)布豆包大模型,其主力模型的定價為輸入0.0008元/千tokens,當時稱較行業(yè)便宜99.3%。阿里云周二宣布,通義千問對標ChatGPT-4的主力模型Qwen-Long,API輸入價格從0.02元/千tokens降至0.0005元/千tokens,直降97%。百度隨之公告,文心大模型的兩款入門級主力模型ENIRE Speed、ENIRE Lite全面免費。此前,智譜AI入門級產(chǎn)品GLM-3 Turbo模型的調(diào)用價格也從5元/百萬tokens降至1元/百萬tokens。
雖然國外AI公司仍將競賽焦點放在技術(shù)的迭代升級和產(chǎn)品的應用場景上,但一些大模型今年也相繼宣布下調(diào)價格。2月底,法國人工智能企業(yè)Mistral AI發(fā)布大模型Mistral Large,其輸入、輸出價格比GPT-4 Turbo便宜約20%,成為OpenAI的強勁對手。自去年以來,OpenAI已進行4次降價,5月發(fā)布的GPT-4o價格較前一代模型降低了50%。
降價有助于大模型快速搶占市場,爭取更多的用戶。而使用量越大,大模型也能被調(diào)用得更好。但并非所有玩家都有資格加入價格戰(zhàn),降價涉及到大模型的研發(fā)、訓練、推理等成本的優(yōu)化,一些中小企業(yè)會難以跟上大廠的腳步。
正如字節(jié)旗下火山引擎總裁譚待所說,“豆包模型的超低定價,來源于我們有信心用技術(shù)手段優(yōu)化成本,而不是補貼或是打價格戰(zhàn)爭奪市場份額。”
對于DeepSeek-V2而言,定出低價的底氣在于其架構(gòu)的創(chuàng)新。該模型沒有沿用傳統(tǒng)的大模型架構(gòu),而是采用新的多頭潛在注意力(Multi-Head Latent Attention)和DeepSeekMoE架構(gòu),在處理信息時能夠更智能和高效,降低大模型的推理成本。
DeepSeek-V2具有2360億總參數(shù),但處理每個token時只需激活210億參數(shù)。這不僅能夠減少內(nèi)存使用,也能提高計算效率。一些大模型需要激活所有參數(shù)來提供響應,參數(shù)越多,計算成本也就越高。
AI明星公司Anthropic聯(lián)合創(chuàng)始人、OpenAI前政策主管Jack Clark也關注到DeepSeek-V2的突破,并表示:“DeepSeek組建了一支團隊,他們對訓練雄心勃勃的模型所需的基礎設施有著深刻的理解。中國制造也將成為AI模型的發(fā)展趨勢。”
此外,也有業(yè)界人士認為,DeepSeek可能是中國幾家大廠之外,擁有英偉達高性能GPU最多的公司。
隨著頭部廠商們陸續(xù)入局,大模型價格戰(zhàn)越發(fā)聲勢浩大,創(chuàng)新能力或可成為DeepSeek參與競爭的資本。
不做應用做研究
除了開始卷價格,國內(nèi)AI行業(yè)還卷起了應用的落地。如果說過去一年上演的還是“百模大戰(zhàn)”,2024年則被認為將會是AI應用落地元年。
今年3月,月之暗面宣布旗下的Kimi智能助手已支持 200 萬字超長無損上下文,隨后拉動Kimi概念股大漲,反映出市場對于AI技術(shù)的商業(yè)化應用的信心。據(jù)AI產(chǎn)品榜數(shù)據(jù),4月Kimi訪問量達2004萬,超過百度文心一言的1691萬。
橫空出世的Kimi搶占風口后,巨頭們也開始加速推出一系列AI應用。百度聯(lián)合創(chuàng)始人兼首席執(zhí)行官李彥宏多次表態(tài),“卷大模型沒有意義,卷應用機會更大。”字節(jié)跳動更是一氣推出十多款AI產(chǎn)品,從“App工廠”轉(zhuǎn)型為“AI應用工廠”。大廠們在推動大模型落地時大多遵循由內(nèi)到外的邏輯,先基于AI重構(gòu)內(nèi)部產(chǎn)品,再實現(xiàn)對外的輸出。
在一片AI應用浪潮中,DeepSeek卻顯得有些安靜。其母公司幻方量化的創(chuàng)始人梁文鋒去年在接受媒體采訪時表示,公司不會過早地設計基于模型的一些應用,而是會專注在大模型上。幻方的目標是探索 AGI(人工通用智能),認為語言大模型可能是通往AGI的必經(jīng)之路,并且初步具備了AGI的特征,所以會從大模型開始。
梁文鋒也承認,很多風投對于優(yōu)先做研究、不做應用的策略有顧慮,希望能盡快實現(xiàn)產(chǎn)品商業(yè)化,這讓DeepSeek很難獲得融資。但其擁有的算力和工程師團隊相當于“有了一半籌碼”。
有云計算專家提出,1萬枚英偉達A100芯片是做AI大模型的算力門檻。當中國云廠商受限于緊缺的GPU芯片時,幻方卻早早押中了大模型賽道的入場券。據(jù)報道,除商湯科技、百度、騰訊、字節(jié)、阿里等科技巨頭外,幻方也手握著超1萬枚GPU。
梁文鋒在媒體采訪中表示,幻方對算力的儲備并不突然。在2019年,幻方就已投資2億元自研深度學習訓練平臺“螢火一號”,搭載了1100塊GPU。到了2021年,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。一年后,OpenAI發(fā)布ChatGPT的公開測試版本,拉開全球新一輪AI熱潮的序幕。
頂著高昂的研發(fā)成本,百度、阿里等頭部玩家已開始大打價格戰(zhàn),搶占市場,期望有更多的真實使用場景以推進產(chǎn)品訓練。而事實上率先掀起本輪大模型價格戰(zhàn),喊著“不做應用做研究”的DeepSeek,卻并沒有在各家大廠密集召開降價發(fā)布會時發(fā)聲,顯得無心參戰(zhàn)。盡管背后有幻方量化提供研發(fā)經(jīng)費,DeepSeek不計ROI的堅持究竟會導向領先,還是落后的未來呢?
原文標題 : 拆解AI|“白菜價”始作俑者、大模型 “價格屠夫”DeepSeek是誰?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?