黄色网站免费看A∨,日韩成人精品福利网在线观看

Thinking Machines Lab 博客提出在線蒸餾策略：小模型訓(xùn)練事半功倍

2025-11-14 17:55

剛剛，由 OpenAI 前首席技術(shù)官 Mira Murati 創(chuàng)立的 Thinking Machines Lab （簡稱TML）發(fā)布了一篇題為“在線蒸餾策略”的博客。

在線蒸餾策略（on-policy distillation）是一種將強化學(xué)習(xí) (RL) 的糾錯相關(guān)性與 SFT 的獎勵密度相結(jié)合的訓(xùn)練方法。在數(shù)學(xué)推理和聊天助手領(lǐng)域可以極低的成本超越其他方法。

該公司 CEO Mira Murati 表示，這種方法可以讓小模型具備強大的領(lǐng)域性能和持續(xù)學(xué)習(xí)能力。

值得注意的是，TML 在博客中明確表示這項新成果受到了 Qwen 團隊研究的啟發(fā)，實驗過程中也大量用到了 Qwen3 系列模型。

博客的作者是 TML 的研究者 Kevin Lu。作為 OpenAI 的前員工，他參與過 GPT-5 series、GPT-oss、o3 & o4-mini、4.1-nano & 4.1-mini、o1-mini、o3-mini 等模型的研發(fā)工作。

三個訓(xùn)練階段

LLM 能夠在特定領(lǐng)域達到專家級的表現(xiàn)，這得益于多種能力的疊加：輸入感知、知識檢索、方案選擇和可靠執(zhí)行。

這需要一系列的訓(xùn)練方法，可以將其分為三個階段：

對“學(xué)生”模型進行后期訓(xùn)練的方法可以分為兩種：

可以通過強化學(xué)習(xí)進行策略訓(xùn)練，對每個學(xué)生的部署進行評分，看其是否解決了問題。評分可以由人工完成，也可以由能夠可靠地得出正確答案的“教師”模型完成。

在線策略訓(xùn)練的優(yōu)勢在于通過使用來自自身的樣本進行訓(xùn)練，學(xué)生模型能夠以更直接的方式學(xué)會避免錯誤。

但強化學(xué)習(xí)有一個很大的缺點，它提供的反饋非常稀疏，無論使用的標記數(shù)量多少，每次訓(xùn)練都只教授固定數(shù)量的比特。

研究人員使用一種稱為“蒸餾”的機制：訓(xùn)練學(xué)生模型以匹配教師模型的輸出分布�；诮處熫壽E進行訓(xùn)練，包含中間思考步驟的生成標記的完整序列，可以在每個步驟中使用教師模型的完整下一個標記分布，或者僅對給定序列進行采樣。

在線策略蒸餾的核心思想是從學(xué)生模型中抽取軌跡樣本，并利用高績效教師對每條軌跡的每個標記進行評分。

研究人員將在線蒸餾策略應(yīng)用于已在訓(xùn)練前和訓(xùn)練中積累了一定能力的模型。結(jié)果發(fā)現(xiàn)，這是一種經(jīng)濟高效且高效的后期訓(xùn)練方法，能夠?qū)⒃诰€策略訓(xùn)練的優(yōu)勢與密集獎勵信號相結(jié)合。

團隊使用蒸餾技術(shù)在 Qwen3-8B-Base 模型中訓(xùn)練數(shù)學(xué)推理，并使用 Qwen3-32B 作為教師模型。

結(jié)果顯示，性能呈對數(shù)線性增長——初始性能提升成本低廉，但后期成本高昂。

在線蒸餾策略通過最小化反向 KL 來學(xué)習(xí)近似教師的完整分布，而不是記住單個答案。研究人員能夠從同一問題中訓(xùn)練多個樣本。

團隊針對此提示訓(xùn)練了 20 個連續(xù)步驟，每個步驟包含 256 個 rollout，總共 5120 個分級序列。

研究人員以連續(xù)的方式對同一提示進行多個步驟的訓(xùn)練，盡管只針對單個提示進行訓(xùn)練，模型仍然大致達到了教師模型的性能。

結(jié)果顯示：在線策略蒸餾同時具備離線策略蒸餾和在線策略強化學(xué)習(xí)的優(yōu)勢，在線策略訓(xùn)練的可靠性能和密集獎勵信號的成本效益。

后訓(xùn)練是達到前沿模型能力的關(guān)鍵環(huán)節(jié)。通過利用學(xué)生模型的在線策略采樣和教師模型的密集監(jiān)督，在線蒸餾策略可以以前沿高計算量強化學(xué)習(xí)運行成本的一小部分達到這些能力。

作者表示，Thinking Machines 的使命是利用 AI 模型賦能人類，這些模型將前沿性能與適應(yīng)性和個性化相結(jié)合。在線蒸餾策略是實現(xiàn)這一目標的有力工具。

參考資料：

https://thinkingmachines.ai/blog/on-policy-distillation/

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點�？帽菊靖寮�，務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞