久久久精品久久精品孕妇,国产精品亚洲片在线牛牛影视 ,欧美成人无码免费视频在线

哪吒、DeepSeek，2025年的兩大理想主義者

2025-02-07 14:52

節(jié)點財經(jīng)

關注

文 / 一燈

過年這陣子最火熱的話題，恐怕要數(shù)《哪吒2》和DeepSeek。

一個是中國古代神話傳說人物，另一個是AI領域的后起之秀。本來八竿子打不著的兩家，卻在這個春節(jié)意外地“相映成趣”。

圖源：DeepSeek官網(wǎng)

不少人這陣子可能一直有在關注DeepSeek的進展，也包括那83個小時的保衛(wèi)戰(zhàn)。當他們坐在電影院，看到十二金仙對龍族的爭議，看到“捕妖隊”抓無辜妖眾去煉丹，看到龍族退無可退后的反擊，心中或許會十分感慨：果然藝術來源于生活，而生活更加殘酷且沒有道理。

所以，盡管已經(jīng)有不少媒體報道過了DeepSeek，但《節(jié)點財經(jīng)》在這里還是想再講一講自己所看到的DeepSeek，以及該公司模型以外的事。

01 繞過三座山，打開AI新世界

這陣子有關DeepSeek公司和旗下AI大模型的介紹已有很多，因此這里我們不再贅述其成績，就簡單聊一聊它對行業(yè)的一些啟示。

首先，可以“繞過”算力，用算法彎道超車。

以往，大家普遍認為算力是AI的核心，發(fā)展AI就是要不斷的堆算力、堆GPU。于是我們看到，OpenAI興起的時候，不僅英偉達（NVIDIA）因此受益，美國也通過禁售英偉達GPU來遏制中國AI發(fā)展。

而就在大家燒錢堆算力的時候，DeepSeek選擇燒腦改算法。

MLA（多頭潛在注意力機制）技術大幅降低了長文本推理成本，MoE（混合專家模型）創(chuàng)新解決了路由崩潰難題，多令牌預測（MPT）顯著提升推理速度，這三大創(chuàng)新分別針對 Transformer 架構中的不同瓶頸，成為DeepSeek能夠以小博大的關鍵所在。

DeepSeek v3架構概覽圖，圖源：CSDN

這里舉個簡單的例子，傳統(tǒng)的大模型就好比一家擁有眾多服務員和廚師的餐廳，每個服務員從頭到尾獨立負責自己客人的記菜單、傳菜、結(jié)賬、清潔等工作。當復雜的菜品出現(xiàn)時，全部廚師都圍上來討論誰能做、怎么做。

這就可能會出現(xiàn)多個服務員重復記錄相同訂單、傳菜時堵在廚房門口、廚師資源浪費等重復勞動和效率低下的問題。

而在DeepSeek的模型設計中，MLA技術讓所有服務員共享一個智能平板，能實時同步訂單、桌號、菜品狀態(tài)（省去重復記錄）；上菜時，只有負責上菜的服務員工作，其他人在需要時才會介入（按需分工）。這樣既能更快地完成任務，又能保證每部分任務的完成質(zhì)量。

同時，多令牌預測能讓服務員在顧客點主菜后，立馬建議甜點和飲料，提前準備服務，而不是等顧客一個個點完，從而使服務更加流暢、體驗更好。

MoE模型則清楚每個廚師都擅長的菜系，在面對復雜的菜品時，模型能夠根據(jù)菜品的特點，智能地將其分配給最合適的廚師處理，從而提高處理效率，減少不必要的資源浪費。

這些創(chuàng)新技術與架構的運用，讓DeepSeek-R1的預訓練在2048塊英偉達H800 GPU（性能受限版本）集群上就能完成，費用只有557.6萬美元。而OpenAI等企業(yè)訓練模型，則需要數(shù)千乃至上萬塊Nvidia A100、H100等頂級顯卡，動輒數(shù)億美元的訓練成本。

可見，當AI行業(yè)普遍沉迷于“算力軍備競賽”時，DeepSeek的“出圈”證明：與其瘋狂堆服務器，不如優(yōu)化算法結(jié)構，針對技術瓶頸實施“靶向治療”，才能讓大模型甩掉"耗電怪獸"的帽子，開啟低成本高性能的新紀元。

其次，可以“繞過”通用，從垂直場景切入。

根據(jù)DeepSeek公布的跑分數(shù)據(jù)顯示，DeepSeek-R1在培訓后階段大規(guī)模使用強化學習技術，在數(shù)學、代碼、自然語言推理和其他任務上，其性能可與OpenAI o1正式版本媲美，而價格僅為o1的3%。

圖源：DeepSeek

但這并不意味著DeepSeek-R1超越了OpenAI o1，畢竟OpenAI優(yōu)先追求的是“通用智能”，投入大量資金人力，想要的是全能通才的效果。國內(nèi)企業(yè)開發(fā)AI大模型也大都沿用這一思路，希望自家大模型沒有什么明顯的能力短板，快速達到可商用水平。

而DeepSeek選擇從垂直場景切入，先追求在部分領域（如數(shù)學、代碼）的表現(xiàn)更優(yōu)，再逐步分階段完善其他領域的能力。這是一種能夠快速成長和建立差異化優(yōu)勢的發(fā)展策略。

值得一提的是，文心一言作為扎根于中國市場的大語言模型，根據(jù)百度官方的介紹，在多項中文評測中，文心一言4.0的表現(xiàn)已經(jīng)超越了目前最強的GPT-4模型。這意味著在理解和生成中文內(nèi)容方面，文心一言也已成為了全球最頂尖的AI模型之一。

因此，《節(jié)點財經(jīng)》認為，中國AI企業(yè)尤其是創(chuàng)業(yè)公司，不必都扎堆死磕“全能大模型”，可選擇垂直場景靶向爆破：這樣既能規(guī)避與通用模型的算力絞殺戰(zhàn)，又能通過構建起數(shù)據(jù)護城河，進而在細分領域闖出一片天。

最后是，可以“繞過”商業(yè)，堅持對技術求索。

這次DeepSeek之所以能引起這么大的轟動，除了模型本身表現(xiàn)優(yōu)異、開發(fā)和訓練成本大幅降低，還有較為重要的一點是，DeepSeek主張免費開源。

要知道，目前比較知名的其他大模型，無論是國內(nèi)百度的文心一言、華為的盤古大模型，還是海外的OpenAI、Llama等產(chǎn)品，都基于商業(yè)化和競爭考量，要么一開始選擇了閉源路線，要么逐漸走向閉源，要么雖宣稱開源，但卻設立了不少限制，并未做到真正意義上的開源。

相比之下，DeepSeek不僅完全開放代碼，還放出了詳細的技術報告；不僅開源了自己最大的 671B R1 模型，還幫大家蒸餾量化好了 1.5B~70B 多個尺寸的模型；不僅提供所有的訓練數(shù)據(jù)、訓練腳本、論文等，還選擇了最寬松的 MIT License 協(xié)議，允許任何人免費使用、修改、分發(fā)，包括用于商業(yè)用途。

DeepSeek創(chuàng)始人梁文鋒此前談及對于開源的構想是，DeepSeek未來可以只負責基礎模型和前沿的創(chuàng)新，其他公司在 DeepSeek的基礎上構建To B、To C的業(yè)務。“這一波浪潮里，我們的出發(fā)點，就不是趁機賺一筆，而是走到技術的前沿，去推動整個生態(tài)發(fā)展。”

圖源：“湛江發(fā)布”微信公眾號

在《節(jié)點財經(jīng)》看來，或許是因為背靠千億量化基金，也或許就是純粹的理想主義，至少從目前來看，DeepSeek團隊重技術突破多過商業(yè)變現(xiàn)，要行業(yè)繁榮不要壟斷優(yōu)勢。

正如英偉達高級研究科學家Jim Fan評論的那樣：“我們生活在這樣一個時代，一家非美國公司正在讓OpenAI的初衷得以延續(xù)，即做真正開放、為所有人賦能的前沿研究。”

02 明槍與暗箭，暴露了誰在心虛

1月28日，多位美國官員指出，DeepSeek是“偷竊”，正對其影響開展國家安全調(diào)查。隨后，部分國家和組織也開始“重點關注”DeepSeek：

● 愛爾蘭數(shù)據(jù)保護委員會向DeepSeek發(fā)出信函，要求其提供有關如何處理愛爾蘭公民數(shù)據(jù)的詳細信息；

● 意大利數(shù)據(jù)保護機構也采取了類似措施，他們認為DeepSeek對意大利數(shù)百萬人數(shù)據(jù)造成風險，DeepSeek需要在20天時間里作出回應；

● 歐洲消費者組織還認為，DeepSeek在保護和限制未成年人方面的做法還不夠健全，從年齡驗證到未成年人數(shù)據(jù)處理都沒有明確的強制執(zhí)行方案；

......

而據(jù)彭博社報道，近期OpenAI與微軟展開了一項聯(lián)合調(diào)查，針對DeepSeek去年使用OpenAI API接口的賬戶進行審查，并以涉嫌違反服務條款的模型蒸餾為由，取消了他們的訪問權限。

在國內(nèi)輿論場，也有一些所謂的“極客”開始對DeepSeek的技術細節(jié)發(fā)起攻擊，聲稱DeepSeek涉嫌“抄襲”或“技術不透明”，并試圖通過論文和數(shù)據(jù)來證明這一點。

當然，以美國為首的西方國家在意的不止DeepSeek。

華爾街日報日前曾發(fā)布報道《It’s Not Just DeepSeek. A Guide to the Chinese AI Companies You Need to Know》，提醒美國人要注意哪些中國大模型公司，并著重指出，百度在中國最早推出面向公眾的生成式AI文心一言，如今已經(jīng)擁有4.3億用戶。

圖源：華爾街日報

如果說這些明面上的指控是真是假還有待查證，不能認為是西方國家在刻意抹黑、打壓、搞認知戰(zhàn)，但在1月25日~29日期間，DeepSeek服務器集群莫名受到每秒超過2.3億次DDos惡意請求，攻擊總量相當于整個歐洲三天的網(wǎng)絡流量總和。

1月28日，DeepSeek官網(wǎng)顯示其線上服務受到大規(guī)模惡意攻擊圖源：DeepSeek官網(wǎng)

據(jù)了解，為了保護DeepSeek，360安全響應中心第一時間拉響警報，鎖定攻擊特征碼；華為云啟動流量清洗系統(tǒng)，為服務器搭建防護盾；中國紅客聯(lián)盟不到12小時就確定了攻擊源頭全部來自美國，并予以反擊。

與此同時，網(wǎng)易雷火的游戲服務器陣列緊急轉(zhuǎn)換為流量緩沖池；大華股份用AI識別0.00017%的真實用戶，菜鳥網(wǎng)絡貢獻物流算法優(yōu)化帶寬，釘釘開通緊急通訊確保指揮暢通......阿里云、�？低暋⑻┥皆�、新華三等企業(yè)也都紛紛加入DeepSeek保衛(wèi)戰(zhàn)，貢獻自己的力量。

1月29日晚8點，經(jīng)過83個小時的鏖戰(zhàn)，中國互聯(lián)網(wǎng)企業(yè)成功將攻擊流量壓制97.2%，捍衛(wèi)住了DeepSeek和中國AI產(chǎn)業(yè)尊嚴。

然而，這場中美AI角力下的網(wǎng)絡安全保衛(wèi)戰(zhàn)只是一個開始。據(jù)奇安信XLab實驗室監(jiān)測發(fā)現(xiàn)，1月30日凌晨，針對DeepSeek（深度求索）線上服務的攻擊烈度突然升級，其攻擊指令較1月28日暴增上百倍。

并且，至少有2個Mirai變種僵尸網(wǎng)絡參與攻擊，分別為HailBot和RapperBot。此次攻擊共涉及16個C2服務器的118個C2端口，分為2個波次，分別為凌晨1點和凌晨2點。