国产99视频精品免视看76,成人免费无码蜜臀在线观看视频,91抖音直播视频下载

美團(tuán)最新推理模型來了：專注 Thinking，具備 SOTA 水準(zhǔn)

2025-11-17 15:53

今日，美團(tuán)發(fā)布了最新推理模型 LongCat-Flash-Thinking。

該模型是國內(nèi)首個同時具備「深度思考 + 工具調(diào)用」與「非形式化 + 形式化」推理能力相結(jié)合的大語言模型。模型總參數(shù)達(dá) 5600 億個，采用創(chuàng)新的混合專家 (MoE) 架構(gòu)，可根據(jù)上下文需求激活 18.6B～31.3B 個參數(shù)（平均～27B），優(yōu)化計算效率和性能。

據(jù)美團(tuán)官方信息表示，新模型在保持了 LongCat-Flash-Chat 速度的同時，還配備了形式推理和代理推理技術(shù)，提高了模型在數(shù)學(xué)、邏輯、編程、自動定理證明和工具使用等各種復(fù)雜任務(wù)上的推理能力。

訓(xùn)練過程

LongCat-Flash-Thinking 的開發(fā)遵循兩個階段的流程：

長期 CoT 冷啟動訓(xùn)練 ：第一階段旨在培養(yǎng)模型的基礎(chǔ)推理能力。首先，在訓(xùn)練中期采用課程學(xué)習(xí)策略來增強模型的內(nèi)在能力；然后，在推理密集型數(shù)據(jù)和代理數(shù)據(jù)上進(jìn)行 SFT 階段，為模型的高級學(xué)習(xí)做好準(zhǔn)備。
大規(guī)模強化學(xué)習(xí) ：第二階段將通過高效的強化學(xué)習(xí)框架來擴展這一潛力，該框架基于 DORA 系統(tǒng)構(gòu)建。為了應(yīng)對異步強化學(xué)習(xí)訓(xùn)練中的穩(wěn)定性挑戰(zhàn)，團(tuán)隊調(diào)整并擴展了 GRPO 算法。

為了克服傳統(tǒng)混合領(lǐng)域強化學(xué)習(xí)訓(xùn)練的不穩(wěn)定性，LongCat-Flash-Thinking 采用了領(lǐng)域并行訓(xùn)練方案，將 STEM、編碼和代理任務(wù)之間的優(yōu)化解耦。這種方法不僅可以穩(wěn)定訓(xùn)練，還能將生成的領(lǐng)域?qū)＜夷Ｐ腿诤铣梢粋€接近帕累托最優(yōu)的最終模型，該模型在所有專業(yè)領(lǐng)域都能夠表現(xiàn)出色。

LongCat-Flash-Thinking 的模型設(shè)計基于之前的 DORA 系統(tǒng)。其主要目標(biāo)是通過流式部署的方式利用多個舊版本的 Actor 模型，同時保持采樣一致性，從而優(yōu)化長尾生成。DORA 系統(tǒng)由彈性托管和多版本異步流水線兩個核心組件組成。這些組件旨在提升訓(xùn)練效率，確保每個樣本的策略一致性，并進(jìn)一步實現(xiàn)高效的鍵值緩存復(fù)用，從而在數(shù)萬臺加速器上實現(xiàn)穩(wěn)定且可擴展的訓(xùn)練。

形式推理和代理推理

除了一般推理之外，LongCat-Flash-Thinking 還強調(diào)另外兩種關(guān)鍵能力：

形式推理 ：LongCat-Flash-Thinking 可以解決復(fù)雜的形式推理任務(wù)，例如自動定理證明。為了增強模型的形式推理能力，團(tuán)隊引入了一個全新的專家迭代框架，用于精細(xì)的數(shù)據(jù)合成，包括語句形式化、迭代證明合成以及語法/一致性過濾。
代理推理 ：LongCat-Flash-Thinking 能夠自適應(yīng)地利用提供的工具來解決復(fù)雜的推理任務(wù)。為了實現(xiàn)這一目標(biāo)，我們引入了一種雙路徑推理方法，用于識別并保留真正需要工具輔助的高質(zhì)量查詢，從而促進(jìn)強大的代理能力發(fā)展。在選擇高價值查詢后，我們會基于一個多功能環(huán)境（包含 MCP 服務(wù)器以及用于單輪和多輪交互的模擬工具）合成相應(yīng)的高質(zhì)量解決方案軌跡。

能力比肩 Open AI 等頂尖模型

LongCat-Flash-Thinking 在 MMLU（大規(guī)模多任務(wù)語言）的測試中以 89.3% 的分?jǐn)?shù)超越通義千問 Qwen3-235B-A22B。在 HMMT 和 AIME 數(shù)學(xué)相關(guān)的基準(zhǔn)上取得突破性成績，超越 OpenAI o3。在代碼能力測試的 LiveCodeBench 上以 79.4 分與 GPT-5 表現(xiàn)不相上下。