哪吒、DeepSeek,2025年的兩大理想主義者

文 / 一燈
過年這陣子最火熱的話題,恐怕要數(shù)《哪吒2》和DeepSeek。
一個(gè)是中國(guó)古代神話傳說人物,另一個(gè)是AI領(lǐng)域的后起之秀。本來八竿子打不著的兩家,卻在這個(gè)春節(jié)意外地“相映成趣”。

圖源:DeepSeek官網(wǎng)
不少人這陣子可能一直有在關(guān)注DeepSeek的進(jìn)展,也包括那83個(gè)小時(shí)的保衛(wèi)戰(zhàn)。當(dāng)他們坐在電影院,看到十二金仙對(duì)龍族的爭(zhēng)議,看到“捕妖隊(duì)”抓無辜妖眾去煉丹,看到龍族退無可退后的反擊,心中或許會(huì)十分感慨:果然藝術(shù)來源于生活,而生活更加殘酷且沒有道理。
所以,盡管已經(jīng)有不少媒體報(bào)道過了DeepSeek,但《節(jié)點(diǎn)財(cái)經(jīng)》在這里還是想再講一講自己所看到的DeepSeek,以及該公司模型以外的事。
01 繞過三座山,打開AI新世界
這陣子有關(guān)DeepSeek公司和旗下AI大模型的介紹已有很多,因此這里我們不再贅述其成績(jī),就簡(jiǎn)單聊一聊它對(duì)行業(yè)的一些啟示。
首先,可以“繞過”算力,用算法彎道超車。
以往,大家普遍認(rèn)為算力是AI的核心,發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到,OpenAI興起的時(shí)候,不僅英偉達(dá)(NVIDIA)因此受益,美國(guó)也通過禁售英偉達(dá)GPU來遏制中國(guó)AI發(fā)展。
而就在大家燒錢堆算力的時(shí)候,DeepSeek選擇燒腦改算法。
MLA(多頭潛在注意力機(jī)制)技術(shù)大幅降低了長(zhǎng)文本推理成本,MoE(混合專家模型)創(chuàng)新解決了路由崩潰難題,多令牌預(yù)測(cè)(MPT)顯著提升推理速度,這三大創(chuàng)新分別針對(duì) Transformer 架構(gòu)中的不同瓶頸,成為DeepSeek能夠以小博大的關(guān)鍵所在。

DeepSeek v3架構(gòu)概覽圖,圖源:CSDN
這里舉個(gè)簡(jiǎn)單的例子,傳統(tǒng)的大模型就好比一家擁有眾多服務(wù)員和廚師的餐廳,每個(gè)服務(wù)員從頭到尾獨(dú)立負(fù)責(zé)自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當(dāng)復(fù)雜的菜品出現(xiàn)時(shí),全部廚師都圍上來討論誰能做、怎么做。
這就可能會(huì)出現(xiàn)多個(gè)服務(wù)員重復(fù)記錄相同訂單、傳菜時(shí)堵在廚房門口、廚師資源浪費(fèi)等重復(fù)勞動(dòng)和效率低下的問題。
而在DeepSeek的模型設(shè)計(jì)中,MLA技術(shù)讓所有服務(wù)員共享一個(gè)智能平板,能實(shí)時(shí)同步訂單、桌號(hào)、菜品狀態(tài)(省去重復(fù)記錄);上菜時(shí),只有負(fù)責(zé)上菜的服務(wù)員工作,其他人在需要時(shí)才會(huì)介入(按需分工)。這樣既能更快地完成任務(wù),又能保證每部分任務(wù)的完成質(zhì)量。
同時(shí),多令牌預(yù)測(cè)能讓服務(wù)員在顧客點(diǎn)主菜后,立馬建議甜點(diǎn)和飲料,提前準(zhǔn)備服務(wù),而不是等顧客一個(gè)個(gè)點(diǎn)完,從而使服務(wù)更加流暢、體驗(yàn)更好。
MoE模型則清楚每個(gè)廚師都擅長(zhǎng)的菜系,在面對(duì)復(fù)雜的菜品時(shí),模型能夠根據(jù)菜品的特點(diǎn),智能地將其分配給最合適的廚師處理,從而提高處理效率,減少不必要的資源浪費(fèi)。
這些創(chuàng)新技術(shù)與架構(gòu)的運(yùn)用,讓DeepSeek-R1的預(yù)訓(xùn)練在2048塊英偉達(dá)H800 GPU(性能受限版本)集群上就能完成,費(fèi)用只有557.6萬美元。而OpenAI等企業(yè)訓(xùn)練模型,則需要數(shù)千乃至上萬塊Nvidia A100、H100等頂級(jí)顯卡,動(dòng)輒數(shù)億美元的訓(xùn)練成本。
可見,當(dāng)AI行業(yè)普遍沉迷于“算力軍備競(jìng)賽”時(shí),DeepSeek的“出圈”證明:與其瘋狂堆服務(wù)器,不如優(yōu)化算法結(jié)構(gòu),針對(duì)技術(shù)瓶頸實(shí)施“靶向治療”,才能讓大模型甩掉"耗電怪獸"的帽子,開啟低成本高性能的新紀(jì)元。
其次,可以“繞過”通用,從垂直場(chǎng)景切入。
根據(jù)DeepSeek公布的跑分?jǐn)?shù)據(jù)顯示,DeepSeek-R1在培訓(xùn)后階段大規(guī)模使用強(qiáng)化學(xué)習(xí)技術(shù),在數(shù)學(xué)、代碼、自然語言推理和其他任務(wù)上,其性能可與OpenAI o1正式版本媲美,而價(jià)格僅為o1的3%。

圖源:DeepSeek
但這并不意味著DeepSeek-R1超越了OpenAI o1,畢竟OpenAI優(yōu)先追求的是“通用智能”,投入大量資金人力,想要的是全能通才的效果。國(guó)內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路,希望自家大模型沒有什么明顯的能力短板,快速達(dá)到可商用水平。
而DeepSeek選擇從垂直場(chǎng)景切入,先追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。這是一種能夠快速成長(zhǎng)和建立差異化優(yōu)勢(shì)的發(fā)展策略。
值得一提的是,文心一言作為扎根于中國(guó)市場(chǎng)的大語言模型,根據(jù)百度官方的介紹,在多項(xiàng)中文評(píng)測(cè)中,文心一言4.0的表現(xiàn)已經(jīng)超越了目前最強(qiáng)的GPT-4模型。這意味著在理解和生成中文內(nèi)容方面,文心一言也已成為了全球最頂尖的AI模型之一。
因此,《節(jié)點(diǎn)財(cái)經(jīng)》認(rèn)為,中國(guó)AI企業(yè)尤其是創(chuàng)業(yè)公司,不必都扎堆死磕“全能大模型”,可選擇垂直場(chǎng)景靶向爆破:這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn),又能通過構(gòu)建起數(shù)據(jù)護(hù)城河,進(jìn)而在細(xì)分領(lǐng)域闖出一片天。
最后是,可以“繞過”商業(yè),堅(jiān)持對(duì)技術(shù)求索。
這次DeepSeek之所以能引起這么大的轟動(dòng),除了模型本身表現(xiàn)優(yōu)異、開發(fā)和訓(xùn)練成本大幅降低,還有較為重要的一點(diǎn)是,DeepSeek主張免費(fèi)開源。
要知道,目前比較知名的其他大模型,無論是國(guó)內(nèi)百度的文心一言、華為的盤古大模型,還是海外的OpenAI、Llama等產(chǎn)品,都基于商業(yè)化和競(jìng)爭(zhēng)考量,要么一開始選擇了閉源路線,要么逐漸走向閉源,要么雖宣稱開源,但卻設(shè)立了不少限制,并未做到真正意義上的開源。
相比之下,DeepSeek不僅完全開放代碼,還放出了詳細(xì)的技術(shù)報(bào)告;不僅開源了自己最大的 671B R1 模型,還幫大家蒸餾量化好了 1.5B~70B 多個(gè)尺寸的模型;不僅提供所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本、論文等,還選擇了最寬松的 MIT License 協(xié)議,允許任何人免費(fèi)使用、修改、分發(fā),包括用于商業(yè)用途。
DeepSeek創(chuàng)始人梁文鋒此前談及對(duì)于開源的構(gòu)想是,DeepSeek未來可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,其他公司在 DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。“這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動(dòng)整個(gè)生態(tài)發(fā)展。”

圖源:“湛江發(fā)布”微信公眾號(hào)
在《節(jié)點(diǎn)財(cái)經(jīng)》看來,或許是因?yàn)楸晨壳|量化基金,也或許就是純粹的理想主義,至少從目前來看,DeepSeek團(tuán)隊(duì)重技術(shù)突破多過商業(yè)變現(xiàn),要行業(yè)繁榮不要壟斷優(yōu)勢(shì)。
正如英偉達(dá)高級(jí)研究科學(xué)家Jim Fan評(píng)論的那樣:“我們生活在這樣一個(gè)時(shí)代,一家非美國(guó)公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。”
02 明槍與暗箭,暴露了誰在心虛
1月28日,多位美國(guó)官員指出,DeepSeek是“偷竊”,正對(duì)其影響開展國(guó)家安全調(diào)查。隨后,部分國(guó)家和組織也開始“重點(diǎn)關(guān)注”DeepSeek:
● 愛爾蘭數(shù)據(jù)保護(hù)委員會(huì)向DeepSeek發(fā)出信函,要求其提供有關(guān)如何處理愛爾蘭公民數(shù)據(jù)的詳細(xì)信息;
● 意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)也采取了類似措施,他們認(rèn)為DeepSeek對(duì)意大利數(shù)百萬人數(shù)據(jù)造成風(fēng)險(xiǎn),DeepSeek需要在20天時(shí)間里作出回應(yīng);
● 歐洲消費(fèi)者組織還認(rèn)為,DeepSeek在保護(hù)和限制未成年人方面的做法還不夠健全,從年齡驗(yàn)證到未成年人數(shù)據(jù)處理都沒有明確的強(qiáng)制執(zhí)行方案;
......
而據(jù)彭博社報(bào)道,近期OpenAI與微軟展開了一項(xiàng)聯(lián)合調(diào)查,針對(duì)DeepSeek去年使用OpenAI API接口的賬戶進(jìn)行審查,并以涉嫌違反服務(wù)條款的模型蒸餾為由,取消了他們的訪問權(quán)限。
在國(guó)內(nèi)輿論場(chǎng),也有一些所謂的“極客”開始對(duì)DeepSeek的技術(shù)細(xì)節(jié)發(fā)起攻擊,聲稱DeepSeek涉嫌“抄襲”或“技術(shù)不透明”,并試圖通過論文和數(shù)據(jù)來證明這一點(diǎn)。
當(dāng)然,以美國(guó)為首的西方國(guó)家在意的不止DeepSeek。
華爾街日?qǐng)?bào)日前曾發(fā)布報(bào)道《It’s Not Just DeepSeek. A Guide to the Chinese AI Companies You Need to Know》,提醒美國(guó)人要注意哪些中國(guó)大模型公司,并著重指出,百度在中國(guó)最早推出面向公眾的生成式AI文心一言,如今已經(jīng)擁有4.3億用戶。

圖源:華爾街日?qǐng)?bào)
如果說這些明面上的指控是真是假還有待查證,不能認(rèn)為是西方國(guó)家在刻意抹黑、打壓、搞認(rèn)知戰(zhàn),但在1月25日~29日期間,DeepSeek服務(wù)器集群莫名受到每秒超過2.3億次DDos惡意請(qǐng)求,攻擊總量相當(dāng)于整個(gè)歐洲三天的網(wǎng)絡(luò)流量總和。

1月28日,DeepSeek官網(wǎng)顯示其線上服務(wù)受到大規(guī)模惡意攻擊 圖源:DeepSeek官網(wǎng)
據(jù)了解,為了保護(hù)DeepSeek,360安全響應(yīng)中心第一時(shí)間拉響警報(bào),鎖定攻擊特征碼;華為云啟動(dòng)流量清洗系統(tǒng),為服務(wù)器搭建防護(hù)盾;中國(guó)紅客聯(lián)盟不到12小時(shí)就確定了攻擊源頭全部來自美國(guó),并予以反擊。
與此同時(shí),網(wǎng)易雷火的游戲服務(wù)器陣列緊急轉(zhuǎn)換為流量緩沖池;大華股份用AI識(shí)別0.00017%的真實(shí)用戶,菜鳥網(wǎng)絡(luò)貢獻(xiàn)物流算法優(yōu)化帶寬,釘釘開通緊急通訊確保指揮暢通......阿里云、海康威視、泰山云、新華三等企業(yè)也都紛紛加入DeepSeek保衛(wèi)戰(zhàn),貢獻(xiàn)自己的力量。
1月29日晚8點(diǎn),經(jīng)過83個(gè)小時(shí)的鏖戰(zhàn),中國(guó)互聯(lián)網(wǎng)企業(yè)成功將攻擊流量壓制97.2%,捍衛(wèi)住了DeepSeek和中國(guó)AI產(chǎn)業(yè)尊嚴(yán)。
然而,這場(chǎng)中美AI角力下的網(wǎng)絡(luò)安全保衛(wèi)戰(zhàn)只是一個(gè)開始。據(jù)奇安信XLab實(shí)驗(yàn)室監(jiān)測(cè)發(fā)現(xiàn),1月30日凌晨,針對(duì)DeepSeek(深度求索)線上服務(wù)的攻擊烈度突然升級(jí),其攻擊指令較1月28日暴增上百倍。
并且,至少有2個(gè)Mirai變種僵尸網(wǎng)絡(luò)參與攻擊,分別為HailBot和RapperBot。此次攻擊共涉及16個(gè)C2服務(wù)器的118個(gè)C2端口,分為2個(gè)波次,分別為凌晨1點(diǎn)和凌晨2點(diǎn)。

部分攻擊指令詳情 圖源:奇安信
說好的公平競(jìng)爭(zhēng)、創(chuàng)新取勝,結(jié)果是明槍暗箭、防不勝防。
說實(shí)話,盡管DeepSeek在模型本身和創(chuàng)新路徑上確有成績(jī),但遠(yuǎn)沒有達(dá)到超越OpenAI、算法“封神”的地步。畢竟算力才是大模型可持續(xù)發(fā)展的必要條件,也是我們的短板,盡管DeepSeek找到了一些優(yōu)化算力使用的方法,但這并不意味著算力需求變得可有可無。
因此,在《節(jié)點(diǎn)財(cái)經(jīng)》看來,DeepSeek的出現(xiàn),還算不上是技術(shù)上的革命性突破,更多的是讓大家開始重新思考如今AI領(lǐng)域的基礎(chǔ)研究角度、商業(yè)層面的既有模式。但當(dāng)下,DeepSeek卻得到了全球“熱度”,無所不用其極的圍剿,不亞于當(dāng)年對(duì)付華為。
這樣的氛圍中,心虛的是誰?帶節(jié)奏的是誰?想要霸權(quán)永固的又是誰?其實(shí)不言而喻。
總結(jié)
不知是真的巧合,還是過度聯(lián)想,看《哪吒2》總覺得“封神大戰(zhàn)”就像中美角力;無量仙翁抓妖怪煉丹提升神力,代表的是美國(guó)收割全球資產(chǎn)、打壓異己;而龍族助哪吒反擊玉虛宮,則像不久前的DeepSeek保衛(wèi)戰(zhàn)。

我與DeepSeek討論了服務(wù)器被攻擊事件與《哪吒2》電影內(nèi)容,并要求其總結(jié)
DeepSeek就像是初露鋒芒的哪吒,也是純粹的理想主義者,正試圖以技術(shù)突破打破封鎖,用開源生態(tài)重構(gòu)行業(yè)規(guī)則。
未來,DeepSeek能走多遠(yuǎn)、能開源多久尚未可知,但這想要改變AI世界的想法,當(dāng)下也足以令人興奮。
畢竟,“因?yàn)槲覀兌继贻p,不知道天高地厚。”
*題圖由AI生成
原文標(biāo)題 : 哪吒、DeepSeek,2025年的兩大理想主義者

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?