訂閱
糾錯
加入自媒體

被攻擊、被力挺、被跟隨,DeepSeek重新制定游戲規(guī)則

文/王慧瑩 

編輯/子夜 

今年春節(jié),一款中國大模型席卷了全球AI圈。

引發(fā)這場全球范圍內(nèi)AI討論的是DeepSeek R1,直接對標(biāo)OpenAI去年9月發(fā)布的OpenAI o1系列模型。

一些數(shù)據(jù)足以證明DeepSeek的火爆。1月27日,DeepSeek在中國區(qū)和美國區(qū)蘋果App Store免費(fèi)榜上同時沖到了下載量第一;DeepSeek單周下載量高達(dá)約240萬次……

直到DeepSeek R1發(fā)布之前,OpenAI o1還讓中國大模型廠商們望塵莫及。DeepSeek R1的出現(xiàn),讓OpenAI CEO奧特曼感嘆,“這是個令人印象深刻的模型”,英偉達(dá)更是稱贊DeepSeek R1為最先進(jìn)的大語言模型。

圖片

圖源DeepSeek微信公眾號 

更重要的是,相比OpenAI在模型上的閉源,以及o1模型付費(fèi)使用限制,DeepSeek R1不僅開源,并且免費(fèi)供全球用戶無限調(diào)用。

這場由DeepSeek掀起的AI風(fēng)暴之下,也引發(fā)了全球范圍內(nèi)AI從業(yè)者的跟隨,也引起了一些恐慌和攻擊。

“大模型開源之王”的Meta內(nèi)部員工爆出“Meta生成式人工智能部門陷入恐慌”;OpenAI的壓力也溢于言表,兩周內(nèi)接連發(fā)布三個大模型:兩個AI智能體 Operator、Deep Research、推理模型o3-mini。

另一方面,1月28日凌晨,DeepSeek官網(wǎng)連續(xù)發(fā)布兩條公告稱,DeepSeek線上服務(wù)受到大規(guī)模惡意攻擊。

DeepSeek儼然站在了風(fēng)暴中心。很關(guān)鍵的一點(diǎn)在于,DeepSeek打破了大模型行業(yè)拼算力的共識,DeepSeek用不到OpenAI十分之一的資源,就做出了性能對標(biāo)OpenAI o1的DeepSeek R1。

這時候問題來了,倘若大模型不需要那么多算力進(jìn)行訓(xùn)練和推理,AI上下游產(chǎn)業(yè)還會那么性感嗎?

資本市場給出了答案。截至1月27日美股收盤,美股科技股大跌,費(fèi)城半導(dǎo)體指數(shù)下跌9.2%、英偉達(dá)股價下跌近17%。

一夜之間,一切與AI有關(guān)的環(huán)節(jié)都發(fā)生了微妙的變化。蝴蝶效應(yīng)還在繼續(xù),AI行業(yè)的走向也在持續(xù)變幻莫測,DeepSeek似乎成了重新制定游戲規(guī)則的那一個。

1、被攻擊、被力挺,DeepSeek被“包圍”了

2023年春節(jié),ChatGPT的橫空出世點(diǎn)燃了AI行業(yè)的火種。自那之后,幾乎每年春節(jié)都有爆火的大模型出現(xiàn)。2024年是Sora,2025年是DeepSeek。

不同的是,前兩年站在C位的公司是美國的OpenAI。今年,站在C位的是中國的深度求索。

連續(xù)多日登頂蘋果App Store全球下載榜首;DeepSeek上線20天,日活突破2000萬。作為一家AI創(chuàng)業(yè)公司,這股來自東方的“神秘力量”徹底沖擊了AI行業(yè)。

這股力量很快席卷了遠(yuǎn)在大洋彼岸的硅谷。要知道,自文本大模型ChatGPT橫空出世后,視頻大模型Sora,再到深度推理模型o1,OpenAI是行業(yè)的范式企業(yè),其他大模型企業(yè)通常扮演追隨的腳步。

圖片

拿o1大模型來說,自去年9月推出以來,國內(nèi)大模型企業(yè)尚未推出能與之對標(biāo)的大模型。這一次,DeepSeek用更小的算力、更低的成本,帶來了DeepSeek R1,無疑讓市場眼前一亮。

實(shí)際上,相比OpenAI和它的中國效仿者們用數(shù)億美元訓(xùn)練大模型,DeepSeek的思路始終是“花小錢,辦大事”。

早在去年12月底,DeepSeek發(fā)布對標(biāo)GPT-4o的V3模型,其僅使用2048塊英偉達(dá)H800芯片,耗費(fèi)約560萬美元。相比之下,GPT-4o使用上萬塊英偉達(dá)H100芯片(性能優(yōu)于H800),訓(xùn)練成本約1億美元。

去年5月,DeepSeek發(fā)布DeepSeek-V2 ,價格僅為GPT-4 Turbo的近百分之一。也是從那時候開始,字節(jié)、阿里、百度等大模型相繼宣布降價,DeepSeek更是一年內(nèi)3次降價,每次降幅超過85%。

無論是價格,還是訓(xùn)練成本,DeepSeek都不追求大而全的路線,而是走在細(xì)分和創(chuàng)新的路線上。

比如,DeepSeek提出了一種新的MLA(多頭潛在注意力)架構(gòu),與DeepSeek MoESparse (混合專家結(jié)構(gòu))結(jié)合,把顯存占用降到了其他大模型最常用的MHA(多頭注意力)架構(gòu)的5%-13%。

此外,DeepSeek通過“數(shù)據(jù)蒸餾”技術(shù)來訓(xùn)練模型,即用一個高精度的通用大模型當(dāng)老師,僅用1/5的數(shù)據(jù)量達(dá)到同等效果,促成了成本的下降。

對標(biāo)OpenAI只是表面,本質(zhì)上,DeepSeek沖擊的是整個大模型行業(yè),也面臨著前所未有的壓力。

在登頂中國和美區(qū)蘋果應(yīng)用商店24小時后,DeepSeek再次站在風(fēng)暴中心:OpenAI對媒體指控 DeepSeek未經(jīng)許可“蒸餾”了其專有技術(shù)。 

美國多位官員也發(fā)聲支持這一指控,包括特朗普的人工智能顧問大衛(wèi)·薩克斯、特朗普提名的美國商務(wù)部長霍華德·盧特尼克。

所謂的“蒸餾”,指通過對更大、更強(qiáng)模型的學(xué)習(xí),讓小型模型能夠在特定任務(wù)上以更低的成本取得類似效果。

此次爭議源于OpenAI的最大投資方微軟。1月29日,據(jù)外媒報道,微軟的安全研究人員發(fā)現(xiàn),DeepSeek相關(guān)人士可能使用 OpenAI 應(yīng)用程序編程接口 (API),未經(jīng)授權(quán)竊取了大量數(shù)據(jù)。

此外,DeepSeek的線上服務(wù)一直在遭到不同程度的攻擊。從最開始是SSDP、NTP反射放大攻擊,到1月28日增加了大量HTTP代理攻擊,針對DeepSeek的網(wǎng)絡(luò)攻擊一直在層層加碼

被質(zhì)疑、被攻擊的另一面,還有不少企業(yè)在迅速適應(yīng)并擁抱DeepSeek帶來的新變化。

在云領(lǐng)域,華為云、騰訊云、阿里云、百度智能云、火山引擎、京東云、360數(shù)字安全等多平臺都宣布上線DeepSeek大模型。此前海外的亞馬遜云、微軟智能云等云巨頭也已官宣支持。

在芯片領(lǐng)域,繼英偉達(dá)、AMD、英特爾等海外芯片巨頭加入支持,國內(nèi)芯片公司天數(shù)智芯、摩爾線程接連宣布支持DeepSeek模型。

無論是被攻擊,還是被支持,DeepSeek被包圍是意料之中的事,這也是行業(yè)明星項(xiàng)目的必經(jīng)之路。也只有經(jīng)得住質(zhì)疑與對比,才能在“百模大戰(zhàn)”中站穩(wěn)腳跟。

2、靠技術(shù)創(chuàng)新,DeepSeek掀起AI風(fēng)暴

自2023年以來,大模型行業(yè)從來不缺新聞。但堪稱爆火的項(xiàng)目,沒幾個。ChatGPT、Kimi是,如今的DeepSeek也是。

某種程度上來講,和眾多追隨OpenAI的大模型不一樣,DeepSeek成了新一輪AI風(fēng)暴的發(fā)起者。

當(dāng)前,DeepSeek R1被公認(rèn)為是目前最先進(jìn)的大語言模型之一,能夠提供高質(zhì)量的語言處理能力,其在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能可比肩OpenAI o1模型正式版。

在AIME 2024數(shù)學(xué)基準(zhǔn)測試中,DeepSeek R1得分率為79.8%,OpenAI o1的得分率為79.2%;在MATH-500基準(zhǔn)測試中,DeepSeek R1得分率為97.3%,OpenAI o1的得分率為96.4%。

圖片

圖源DeepSeek微信公眾號

DeepSeek R1強(qiáng)大的推理能力,離不開DeepSeek的技術(shù)創(chuàng)新,其創(chuàng)新性的訓(xùn)練方法也給行業(yè)提供了新的思路:DeepSeek摒棄了傳統(tǒng)的監(jiān)督微調(diào)(SFT)路徑,轉(zhuǎn)而通過強(qiáng)化學(xué)習(xí)(RL)來優(yōu)化推理路徑。

普遍觀點(diǎn)認(rèn)為,大模型訓(xùn)練必須先通過大量標(biāo)注數(shù)據(jù)進(jìn)行 SFT,才能讓模型具備基礎(chǔ)能力,之后才考慮使用RL進(jìn)行能力提升。OpenAI此前的數(shù)據(jù)訓(xùn)練非常依賴人工干預(yù),耗費(fèi)了不少人力和財力。

然而,DeepSeek這項(xiàng)研究發(fā)現(xiàn),大模型可以完全依靠強(qiáng)化學(xué)習(xí)獲得強(qiáng)大的推理能力,無需任何監(jiān)督式微調(diào)。

這項(xiàng)訓(xùn)練方法,率先出現(xiàn)在實(shí)驗(yàn)性R1-Zer版本上,隨后又在DeepSeek-V3-base模型上應(yīng)用強(qiáng)化學(xué)習(xí),完全拋開了傳統(tǒng)的監(jiān)督式微調(diào)環(huán)節(jié)。

最終結(jié)果顯示,DeepSeek R1在完全沒有人工標(biāo)注數(shù)據(jù)的情況下,DeepSeek系列模型通過不斷嘗試和反饋,展現(xiàn)出了持續(xù)的自我進(jìn)化能力。

在技術(shù)創(chuàng)新方面, DeepSeek采用了創(chuàng)新的設(shè)計,如 MoE-2048 架構(gòu)。其中,每個token能激活8個專家模塊,使得模型參數(shù)的利用率大幅提升至72%,訓(xùn)練效率相較于傳統(tǒng)的Transformer架構(gòu)提高了整整3倍。

DeepSeek大模型能力已然有目共睹,更為重要的是,DeepSeek正在用創(chuàng)新性的低成本思路顛覆市場格局。

以DeepSeek R1為例,其性能與GPT o1相當(dāng),然而預(yù)訓(xùn)練成本卻僅為557.6萬美元,僅為GPT-4o的十分之一。同時,DeepSeek API服務(wù)定價遠(yuǎn)低于OpenAI,以輸出為例,輸出每百萬tokens 16元(約2.2美元),GPT o1輸出每百萬tokens 60美元。

站在整個行業(yè)視角,DeepSeek在提供更便宜、更好用的深度推理模型的同時,踐行開源理念,讓深度推理模型不再是一個黑匣子,給行業(yè)也帶來了新的啟發(fā)

這兩年,開源和閉源的路線之爭是大模型行業(yè)討論的焦點(diǎn),前者以Meta為代表,后者以O(shè)penAI為代表。

此前,OpenAI推出的ChatGPT、Anthropic推出的Claude均采用閉源,并憑借頭部的影響力,將閉源路線推到領(lǐng)先位;如今,DeepSeek的成功,無疑給支持開源路線的人信心。

DeepSeek爆火后,同樣支持開源路線的Meta首席人工智能科學(xué)家Yann LeCun表示,DeepSeek的成功代表了開源人工智能模型的勝利。“開源模型正在超越專有模型。”他在LinkedIn上的一篇帖子中寫道。

實(shí)際上,像DeepSeek這樣開源更深遠(yuǎn)的意義在于,將如何構(gòu)建模型的過程通過論文的形式公開,為行業(yè)提供了極大的透明度,推動整個大模型行業(yè)的進(jìn)步。

伴隨DeepSeek R1既免費(fèi),又開源,還躋身第一梯隊(duì)的超預(yù)期表現(xiàn),直接引發(fā)了市場對大模型行業(yè)的質(zhì)疑:眾多科技巨頭投入更多算力和資金做出來的東西,和DeepSeek水平相似,“OpenAI們”真的值那么多估值嗎?

DeepSeek不僅打破了AI大模型領(lǐng)域“拼算力”的邏輯,還動搖了投資者對高科技晶片的信心:AI行業(yè)也許并不需要那么多晶片,也可以訓(xùn)練出性能好的大模型。

多方的聲音直接沖擊了美國科技股的資本表現(xiàn)。1月27日美股收盤,美國科技股大跌,其中英偉達(dá)股價下跌近17%,市值蒸發(fā)近6000億美元,規(guī)模創(chuàng)美股史上最大。

這場由DeepSeek卷起的風(fēng)暴還在繼續(xù)。從市場競爭格局來看,DeepSeek的崛起打破了原有的平衡,對傳統(tǒng)的 AI 巨頭構(gòu)成了挑戰(zhàn),促使整個行業(yè)重新審視自身的技術(shù)路線和市場策略。

3、恐慌、跟隨、降價,DeepSeek引起的蝴蝶效應(yīng)來了

今年春節(jié)之前,提起DeepSeek,大多數(shù)人還有些陌生,行業(yè)的目光也都集中在OpenAI以及一些科技巨頭身上。

沒想到,DeepSeek的橫空出世讓本就不平靜的湖水再度泛起漣漪,也順勢引發(fā)了一系列的蝴蝶效應(yīng)。

正如英偉達(dá)高級研究科學(xué)家Jim Fan評價道:“我們正生活在一個特殊的時代:一家非美國公司在真正踐行著OpenAI最初的使命——開展真正開放的前沿研究,為所有人賦能。”

有人驚嘆,也有人恐慌。

最先坐不住的莫過于OpenAI。自兩年前推出ChatGPT以來,OpenAI就是行業(yè)風(fēng)向標(biāo),OpenAI的很多思路也都被行業(yè)認(rèn)可。

比如開源路線。2月1日,奧特曼參與海外社交平臺Reddit “問我任何事” 的問答活動。活動中,奧特曼首次承認(rèn),OpenAI的閉源策略“站在了歷史錯誤的一邊”。如奧特曼所說,“我們需要找到一個不同的開源策略”,“目前的OpenAI正處于一個‘復(fù)雜而微妙’的境地,并且面對重重挑戰(zhàn)”。

比如訓(xùn)練方式。此前,OpenAI定義了大模型訓(xùn)練的四個階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎勵建模、強(qiáng)化學(xué)習(xí),F(xiàn)在,這個范式被打破了,DeepSeek已然證明可以跳過和簡化某些環(huán)節(jié)來提升模型的訓(xùn)練效率和性能。

又比如“尺度定律”。這兩年,OpenAI CEO奧特曼一直堅(jiān)稱,OpenAI的業(yè)務(wù)有三個關(guān)鍵因素推動:芯片、數(shù)據(jù)和資金。人們向他的公司投入的這三個元素越多,就像向蒸汽火車的熔爐里投入煤炭一樣,它產(chǎn)生的人工智能就越強(qiáng)大。

如今,這個理論再次被DeepSeek擊破。如果能用更便宜甚至免費(fèi)的模型來達(dá)到OpenAI的成績,那OpenAI的商業(yè)模式將受到質(zhì)疑,其市場份額也將被蠶食。

如此猛烈的沖擊,讓OpenAI沒有太多時間恐慌,OpenAI必須迅速做出跟隨式地調(diào)整

2月1日,OpenAI發(fā)布o(jì)3-mini,這是OpenAI首個開放給免費(fèi)用戶的推理模型;2月5日,OpenAI 宣布o(jì)3-mini大語言模型正式向ChatGPT用戶和開發(fā)者開放使用;2月6日,OpenAI宣布向所有用戶開放ChatGPT搜索功能,且無需注冊。

幾天之內(nèi)的“放大招”,都來自DeepSeek帶來的壓力。

據(jù)Wired報道,OpenAI提前發(fā)布o(jì)3-mini是為了應(yīng)對DeepSeek上周一發(fā)布的專注推理的大語言模型 R1。后者的發(fā)布引發(fā)了人工智能股票的大幅拋售,也讓人們對OpenAI模型的成本效益產(chǎn)生懷疑。

據(jù)OpenAI介紹,o3-mini是其最具成本效益的推理模型,在科學(xué)、數(shù)學(xué)、編程等領(lǐng)域的能力較強(qiáng),同時兼具o1-mini的低成本和低延遲特點(diǎn),o3-mini可與聯(lián)網(wǎng)搜索功能搭配使用,不過o3-mini還不支持視覺功能。

與此同時,OpenAI也在提供越來越低的API調(diào)用價格。據(jù)OpenAI介紹,自GPT-4推出以來,每個token的定價下降了95%。o3-mini輸入、輸出每百萬tokens的定價分別為0.55美元、4.4美元,仍高于DeepSeek R1。

OpenAI的恐慌與跟隨只是這場蝴蝶效應(yīng)的一個切面,DeepSeek這只蝴蝶扇動翅膀的力度很大。

1月30日,Anthropic CEO達(dá)里奧·阿莫迪發(fā)萬字長文呼吁“鎖死芯片出口”,以確保AGI只發(fā)生在美國。當(dāng)日,外媒援引消息人士的話稱,美國正在考慮對售華芯片實(shí)施額外限制的可能性,其中包括Dario建議限制的芯片 H20。

當(dāng)然,我們都清楚,技術(shù)封鎖并非保持優(yōu)勢的長期有效手段,開放與合作才更有利于AI行業(yè)的未來發(fā)展。技術(shù)封鎖或許只是這場AI戰(zhàn)役的開端,以DeepSeek為代表的中國AI企業(yè)面臨的挑戰(zhàn)還有很多。

眼下,AI世界正發(fā)生一些變化。DeepSeek帶來的變革,正在深刻地變革整個AI產(chǎn)業(yè)鏈。低成本的開發(fā)模式或許將衍生出一系列低門檻的行業(yè)創(chuàng)新規(guī)則、創(chuàng)新方式,吸引更多創(chuàng)業(yè)玩家入場。

這場由DeepSeek掀起的新“ChatGPT”時刻,仍在發(fā)生新的故事。

       原文標(biāo)題 : 被攻擊、被力挺、被跟隨,DeepSeek重新制定游戲規(guī)則

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號