黄色视频网站免费观看,亚洲精品天堂网,久久久久久a亚洲欧洲aⅴ

DeepSeek-R1迎來升級(jí)，性能接近Claude 4和o3 High

2025-06-03 11:03

Ai芯天下

關(guān)注

前言：

與先前的V3-0324模型類似，本次更新也是在現(xiàn)有模型基礎(chǔ)上進(jìn)行的[小版本升級(jí)]，直接回歸至推理模型的頂尖行列。

作者 | 方文三

圖片來源 | 網(wǎng) 絡(luò)

DeepSeek-R1升級(jí)，性能接近Claude 4

近日，DeepSeek宣布其R1系列推理模型進(jìn)行了小版本升級(jí)，最新版本DeepSeek-R1-0528參數(shù)量高達(dá)6850億，模型在思維深度和推理能力方面有顯著提升。

剛剛，DeepSeek公布了R1-0528在各類基準(zhǔn)測(cè)評(píng)上的具體得分情況。

R1-0528在數(shù)學(xué)、編程與通用邏輯等多個(gè)基準(zhǔn)測(cè)評(píng)中成績突出，整體表現(xiàn)接近o3與Gemini-2.5-Pro。

本次更新的主要內(nèi)容涵蓋了上下文窗口的顯著擴(kuò)展，相較于先前版本R1，API文檔的標(biāo)注容量從64K提升至128K，實(shí)際測(cè)試中[0528]版本已開放至128K。

根據(jù)最新的LiveCodeBench榜單，R1-0528僅次于OpenAI的o3、o4 mini，超越xAI Grok 3 mini與阿里Qwen 3；生成的網(wǎng)頁和交互界面更為美觀，執(zhí)行效率更高。

在LiveCodeBench上，DeepSeek-R1-0528的表現(xiàn)接近OpenAI的頂級(jí)模型，超越Claude 3.5 Sonnet與Qwen3-235B，緊隨其后的是OpenAI的O4-Mini（Medium配置）。

社區(qū)評(píng)測(cè)顯示，0528新模型在[語言自然度]和[對(duì)話邏輯]方面有顯著改善，不再呈現(xiàn)早期模型的[天馬行空]敘述風(fēng)格。

此外，R1-0528在Thematic Generalization Benchmark（主題概括）基準(zhǔn)測(cè)試中相較于前代R1有所改進(jìn)。

該基準(zhǔn)測(cè)試衡量各種LLM如何有效地從少量的例題和反例中推斷出一個(gè)狹窄或特定的[主題]（類別/規(guī)則），然后在一系列誤導(dǎo)性候選題中檢測(cè)出哪個(gè)項(xiàng)目真正符合該主題。

該基準(zhǔn)測(cè)試的整個(gè)過程包括生成主題、創(chuàng)建例題和反例、通過[雙重檢查]步驟過濾掉低質(zhì)量數(shù)據(jù)，最后促使法學(xué)碩士(LLM)在多個(gè)干擾項(xiàng)中對(duì)真實(shí)的例子進(jìn)行評(píng)分，值越小表示性能越好，R1-0528的表現(xiàn)與Claude-4-Sonnet Thinking 64K和Gemini 2.5 Pro相媲美。

新模型升級(jí)支持128K超大上下文窗口，為處理復(fù)雜任務(wù)提供了更廣闊的空間，相較于前代，R1-0528在32K上下文窗口的文本回憶測(cè)試中表現(xiàn)出色，準(zhǔn)確率顯著提升，尤其適用于需要深度理解和精準(zhǔn)回答的場(chǎng)景。

成為開源模型領(lǐng)域中的一股強(qiáng)勁競爭力量

在Extended NYT Connections基準(zhǔn)測(cè)試中，新版本相較于原始DeepSeek R1有顯著改進(jìn)，得分從38.6分提升至49.8分，該基準(zhǔn)使用651個(gè)NYT Connections謎題來評(píng)估大型語言模型的智能性。

依據(jù)AI評(píng)測(cè)機(jī)構(gòu)Artificial Analysis的報(bào)告，新版DeepSeek R1的[智慧指數(shù)]由60分提升至68分，這一成績使其超越了xAI、Meta、Anthropic等公司的模型。

與Google Gemini 2.5 Pro并列全球第二梯隊(duì)，僅次于OpenAI的頂尖模型（例如o3及o4.mini高階版），成為開源模型領(lǐng)域中的一股強(qiáng)勁競爭力量。

評(píng)估者還指出，它在情感共鳴和文學(xué)復(fù)雜性方面的表現(xiàn)與谷歌旗艦?zāi)Ｐ虶emini 2.5 Pro非常接近。

有開發(fā)者使用DeepSeek-R1-0528與Claude-4-Sonnet進(jìn)行了編碼測(cè)試的對(duì)比，結(jié)果顯示，在相同提示下，Claude-4-sonnet生成了542行代碼；

而DeepSeek-R1-0528生成了728行，無論是球體的漫反射控制還是控制面板的美觀程度，R1-0528生成的效果都絲毫不弱。

也有開發(fā)者測(cè)試后表示，R1-0528編碼時(shí)雖然思考過程顯得有些復(fù)雜，但效果令人驚艷，能夠很好地完成Zig編程需求，并且在出錯(cuò)時(shí)能夠自我糾正。

R1-0528能夠深入理解并概括一篇論文的眾多細(xì)節(jié)，答案邏輯性強(qiáng)，全面且完整。

有開發(fā)者在插件PapersGPT中接入R1-0528進(jìn)行了測(cè)試，其分析過程和輸出速度相較于上代模型有顯著進(jìn)步。

同時(shí)，DeepSeek通過蒸餾DeepSeek-R1-0528的思維鏈后訓(xùn)練Qwen3-8B Base，得到了一個(gè)8B模型。

該模型在數(shù)學(xué)測(cè)試AIME 2024中僅次于DeepSeek-R1-0528，超越Qwen3-8B（+10.0%），與Qwen3-235B相當(dāng)。

此外，值得一提的是，DeepSeek對(duì)R1-0528版本的模型幻覺問題進(jìn)行了優(yōu)化，相較于舊版，更新后的模型在改寫潤色、總結(jié)摘要、閱讀理解等場(chǎng)景中，幻覺率降低了45～50%左右。

目前，DeepSeek-R1-0528已在網(wǎng)頁端、APP和小程序中上線，用戶開啟「深度思考」功能即可體驗(yàn)最新版本。

有開發(fā)者指出，這是[開源的巨大勝利]。然而，可能由于測(cè)試速率的限制，目前在開發(fā)者群體中公認(rèn)的編程能力最強(qiáng)的Claude-4系列模型并未出現(xiàn)在測(cè)試榜單上。

基于最新的DeepSeek-R1模型和Claude-4-Sonnet進(jìn)行測(cè)試，測(cè)試內(nèi)容是用一個(gè)橙色小球撞擊物體，從效果顯示，平面的橙色漫反射、撞擊效果方面是R1模型更勝一籌。

但有開發(fā)者對(duì)表示，這類能力看個(gè)例是不準(zhǔn)確的，或許要等評(píng)測(cè)榜單和一個(gè)月后的口碑見分曉。

除了代碼能力，有開發(fā)者總結(jié)了DeepSeek這次更新其他亮點(diǎn)，包括改進(jìn)了寫作任務(wù)，更自然、格式更好。

也有用戶反映，用最新模型寫作正常很多，沒有強(qiáng)烈的[量子力學(xué)元素]了。

結(jié)尾：

有業(yè)內(nèi)人士猜測(cè)，是否模型架構(gòu)不更新，只是增加或調(diào)整了訓(xùn)練數(shù)據(jù)，DeepSeek就不將更新定義為大版本升級(jí)，而業(yè)內(nèi)其他模型給出明顯的版本號(hào)迭代則是一種品牌營銷需求。

此次升級(jí)標(biāo)志著DeepSeek-R1正式躋身全球第一梯隊(duì)AI模型，其在中文場(chǎng)景和特定專業(yè)領(lǐng)域的突破，為國產(chǎn)大模型的差異化競爭提供了新范式。

盡管在多模態(tài)和生態(tài)整合上仍需追趕，但R1-0528已用實(shí)際表現(xiàn)證明：算法創(chuàng)新與開源協(xié)作同樣能在算力壟斷的AI戰(zhàn)場(chǎng)開辟出一條可行路徑。

部分資料參考：騰訊科技：《實(shí)測(cè)DeepSeek-R1小版本更新：三大場(chǎng)景梳理模型升級(jí)點(diǎn)和缺陷》，頭部科技：《DeepSeek更新刷榜！R1-0528改進(jìn)編碼性能，媲美o3 High和Claude 4》，硅星人Pro：《DeepSeek-R1 [小更新]：靠后訓(xùn)練改進(jìn)就能榨出如此多潛力》，：《DeepSeek上新，又一次[開源的巨大勝利]》

原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨DeepSeek-R1迎來升級(jí)，性能接近Claude 4和o3 High