中國AI雙子星,在硅谷教OpenAI做事?
撰文 | 郝 鑫 吳先之
編輯 | 王 潘
國內(nèi)大模型圈迎來神仙打架,OpenAI一覺醒來驚呼變了天?
1月20日,DeepSeek沒有任何預(yù)兆地發(fā)布了DeepSeek-R1模型。不到兩個小時,Kimi k1.5新模型隨即發(fā)布。模型之外,還都附帶上了詳細的技術(shù)訓(xùn)練報告。
兩款推理模型,全面對標(biāo)OpenAI o1,在多項基準(zhǔn)測試中獲得了打平和超越o1的好成績。DeepSeek-R1文本推理模型出廠即開源、可商用,Kimi k1.5同時支持文本和視覺推理,同樣各項指標(biāo)拉滿,成為首個實現(xiàn)o1完整版水平的多模態(tài)模型。
中國大模型界“雙子星”一夜間卷到海外,給了硅谷“億點點”震撼。社交平臺X上多位業(yè)界和學(xué)界大佬下場轉(zhuǎn)發(fā)、點贊DeepSeek-R1與Kimi k1.5的帖子。
英偉達AI科學(xué)家Jim Fan第一時間發(fā)帖總結(jié)兩者的相同點和差異性,評價所發(fā)表的論文是“重磅”級別。
(圖源:X)
(圖源:X)
多位AI技術(shù)大V對Kimi k1.5給予肯定,有人發(fā)表評論稱“又一個重量級模型誕生了,亮點是文本和視覺的多模態(tài)推理能力,這是多模態(tài)AI領(lǐng)域的重大突破”。有人將其與OpenAI o1相比較,感嘆OpenAI是否已經(jīng)被拉下了神壇,“越來越多的模型正在打敗OpenAI o1”?
(圖源:X)
面對來自中國的“攻擂者”,擠牙膏式釋放期貨的OpenAI首席執(zhí)行官Sam Altman在個人賬號發(fā)布帖子抱怨媒體炒作AGI,讓網(wǎng)友降低期待值,“下個月不會部署AGI,也不會構(gòu)建AGI”。沒想到,反而激怒了網(wǎng)友,被諷刺“賊喊捉賊”。
AI世界正在發(fā)生一些變化,DeepSeek-R1和Kimi k1.5驗證了強化學(xué)習(xí)(RL)思路的可行性,開始挑戰(zhàn)OpenAI的絕對領(lǐng)先地位。
同時,中國本土模型挑戰(zhàn)不可能性,實現(xiàn)換道超車,也是對國內(nèi)大模型行業(yè)的一次精神鼓舞。未來,中國AI企業(yè)仍有機會打破硅谷的技術(shù)壟斷,走出中國自主技術(shù)路線。
真正的滿血o1來了
繼去年11月發(fā)布的k0-math數(shù)學(xué)模型,12月發(fā)布的k1視覺思考模型之后,連續(xù)第三個月升級,Kimi帶來了K系列強化學(xué)習(xí)模型Kimi k1.5。
按照Kimi k系列思考模型路線圖,k0到kn進化是模態(tài)和領(lǐng)域的全面拓展。k0屬于文本態(tài),聚焦于數(shù)學(xué)領(lǐng)域;k1增加了視覺態(tài),成為了OpenAI之外首個多模態(tài)版的o1,其領(lǐng)域擴展至物理、化學(xué);此次升級的k1.5仍是多模態(tài),這也是Kimi模型突出特點之一,在領(lǐng)域上則由數(shù)理化升級到代碼、通用等更加常用和廣闊的領(lǐng)域。
從基準(zhǔn)測試成績看,k1.5多模態(tài)思考模型實現(xiàn)了SOTA(state-of-the-art)級別的多模態(tài)推理和通用推理能力。
國內(nèi)外宣傳達到o1水準(zhǔn)的模型很多,但是從數(shù)據(jù)來看,目前只有Kimi和DeepSeek發(fā)布的模型才是真正滿血版的o1,其他各家發(fā)布的模型還在o1-Preview的水平——差距有30%-40%。
以O(shè)penAI o1為基準(zhǔn),其數(shù)學(xué)水平得分74.4分,編程水平得分67.2分,并且支持多模態(tài)。按此標(biāo)準(zhǔn)審視國內(nèi)已發(fā)布的推理模型,阿里QVQ、智譜GML、科大訊飛星火和階躍星辰Step系列模型與實際o1水平仍有一定距離。DeepSeek和Kimi模型在數(shù)學(xué)水平上均超過了OpenAI,編程水平接近o1水準(zhǔn)。但跟DeepSeek相比,Kimi支持多模態(tài)視覺推理,而DeepSeek只能識別文字,不支持圖片識別。
具體來看,在short-CoT(短思考)模式下,Kimi k1.5超越了其他一切模型。其數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA模型 GPT-4o和Claude 3.5 Sonnet的水平,領(lǐng)先達到550%。
在long-CoT(長思考)模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達到長思考 SOTA 模型 OpenAI o1 正式版的水平。在兩個數(shù)學(xué)水平測試(AIME 2024和MATH-500)中打敗了o1,在編程水平測試(Codeforces)中與o1打平。這應(yīng)該是全球范圍內(nèi),OpenAI之外的公司首次實現(xiàn)o1正式版的多模態(tài)推理性能。
Kimi k1.5的修煉秘籍
海內(nèi)外一起打call,實力水平經(jīng)得住考驗,Kimi是如何修煉成“最強大腦”的?
看完干貨滿滿的技術(shù)報告,可以總結(jié)歸納為一種訓(xùn)練思路、一個訓(xùn)練方案和一個訓(xùn)練框架。其中,高效推理、優(yōu)化思路貫穿其中。
受制于數(shù)據(jù)量的限制,預(yù)訓(xùn)練“大力出奇跡”的方法在現(xiàn)實訓(xùn)練中屢屢碰壁,從OpenAI o1起行業(yè)內(nèi)開始轉(zhuǎn)變訓(xùn)練范式,把更多的精力投入到強化學(xué)習(xí)上。
之前的思路可以理解為“直給”,即人類要主動去“喂”給大模型數(shù)據(jù),監(jiān)督大模型工作,介入大模型的“調(diào)教”過程。但強化學(xué)習(xí)的核心思路是,在沒有人過多干預(yù)的情況下,讓大模型自我學(xué)習(xí)和進化。
此次Kimi的新模型更新便采用了強化學(xué)習(xí)的路徑,在訓(xùn)練過程中證明,無需依賴蒙特卡洛樹搜索、價值函數(shù)、過程獎勵模型,也能讓模型取得不錯的性能。
強化學(xué)習(xí)的思路集中體現(xiàn)在了“Long2Short”訓(xùn)練方案中,這也是Kimi技術(shù)報告的亮點所在。按其官方介紹,具體的做法為,先利用較大的上下文窗口,讓模型學(xué)會長鏈?zhǔn)剿季S,再將“長模型”的推理經(jīng)驗轉(zhuǎn)移到“短模型”中,兩者進行合并,最后針對“短模型”進行強化學(xué)習(xí)微調(diào)。
圖注:越靠近左上角越好
這種做法的好處在于,可以提升token的利用率以及訓(xùn)練效率,在模型性能和效率中間尋找到最優(yōu)解。
放到行業(yè)內(nèi)來看,Kimi的“Long2Short”訓(xùn)練方案也是“模型蒸餾”的體現(xiàn)。在這里,“長模型”是老師,而“短模型”是學(xué)生,老師傳授給學(xué)生知識,利用大模型來提升小模型的性能。當(dāng)然,Kimi也采用了一些方法來提升效率,比如利用“長模型”生成的多個樣本,取最短的正解為正樣本,生成時間長的為負樣本,以此來形成對照組訓(xùn)練數(shù)據(jù)集。
為了適配強化學(xué)習(xí)訓(xùn)練,Kimi k1.5專門設(shè)計了特殊的強化學(xué)習(xí)框架,作為基座來支撐整個訓(xùn)練系統(tǒng)。
k1.5模型最高支持128k的上下文本長度,如果模型每次都要完成一次完整的思維鏈生成和推理過程,對于計算資源、內(nèi)存存儲和訓(xùn)練穩(wěn)定性都會造成影響。因此,Kimi引進了“Partial Rollouts”技術(shù),生成的鏈路切分為多個步驟,而并非畢功與一役。
底層AI infra的搭建思路,體現(xiàn)了月之暗面在長文本上的積累,如何實現(xiàn)資源最大化和高效是其一直重點解決的問題,現(xiàn)在這種思路又將延續(xù)到思維鏈生成和推理上。
中國“雙子星”終結(jié)OpenAI神話?
從Kimi和DeepSeek身上,我們或許能看出未來模型訓(xùn)練的幾種趨勢:對于強化學(xué)習(xí)訓(xùn)練的投入和資源傾斜將加大;OpenAI o1成為了下一階段大模型入場的新門檻,技術(shù)、資源跟不上意味著掉隊;上下長文本技術(shù)尤為重要,這將作為能夠生成和推理長思維鏈的基礎(chǔ);Scaling law還沒有完全失效,在一些局部,比如長上下文本依然存在并且具有潛力。
中國“雙子星”打開了OpenAI的黑箱。此前,OpenAI定義了大模型訓(xùn)練的四個階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)、獎勵建模、強化學(xué)習(xí)。現(xiàn)在,這個范式被打破了,Kimi 和DeepSeek都證明了可以跳過和簡化某些環(huán)節(jié)來提升模型的訓(xùn)練效率和性能。
Kimi和DeepSeek效應(yīng)是雙重的。走出國門,向海外AI圈特別是硅谷證明,持續(xù)的專注于聚焦就能出奇跡,中國依然具備競爭科技第一梯隊的能力。
OpenAI應(yīng)該反思,在投入如此資源和擁有高人才密度的情況下,為什么被來自中國的企業(yè)在多個方面趕超,這或許將給世界的競爭格局帶來微妙的變化。人們不禁要問,OpenAI的先發(fā)優(yōu)勢還能持續(xù)多久?不僅同一個國家有死對頭Anthropic,從其手中拿走了To B的單子,現(xiàn)在還要對來自中國的AI企業(yè)保持警惕。
在國內(nèi),新的格局似乎已經(jīng)在變動之中。DeepSeek憑借開源和超越OpenAI性能的模型受到了前所未有的關(guān)注,甚至已經(jīng)開始有人將其納入“AI 六小虎”的行列之中。
相較于以前,現(xiàn)階段的Kimi更加明確了從k0到kn的技術(shù)路線,盡管其表示“會聚焦在Kimi一個產(chǎn)品上”,但Kimi所承載的已經(jīng)遠遠超越了一個普通的AI應(yīng)用。
Kimi k1.5讓月之暗面拿下了下一階段的入場券,這也讓其在未來競爭中掌握更多的主動權(quán)。保持一定的領(lǐng)先之后,2025年新的目標(biāo)是如何活得更好。
新一輪洗牌悄悄開始,誰會先掉隊,誰又能先突出重圍?
微信號|TMTweb
公眾號|光子星球
別忘了掃碼關(guān)注我們!
原文標(biāo)題 : 中國AI雙子星,在硅谷教OpenAI做事?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?