谷歌推出全新底層架構MoR,Transformer有了替代品
前言:大語言模型(LLMs)規(guī)模龐大但效率低下的問題長期備受關注。盡管模型參數持續(xù)增長,其在長文本處理中的性能衰減、計算資源消耗等問題始終未能有效解決。谷歌DeepMind最新提出的MoR架構,可能為這一困境提供了新的解決路徑。
作者 | 方文三
圖片來源 | 網 絡
傳統(tǒng)模型的困境局限當前性能發(fā)展
長期以來,Transformer架構始終作為大型語言模型的核心架構,然而隨著研究的深入,其固有局限性亦逐漸顯現。
Transformer依賴堆疊網絡層數以增強模型性能,但該機制導致計算資源呈現平均分配特征,無論輸入token的復雜程度如何。
簡單token(如連詞、助詞)與復雜token(如專業(yè)術語、長句)均被施以同等處理流程,導致大量冗余計算產生。
此外,在處理長文本序列時,其鍵值緩存(KV緩存)機制需占用大量內存空間,進一步制約模型效率的提升。
針對上述問題,研究者們正持續(xù)探索兩個關鍵方向:其一通過權重共享機制提升參數利用效率,其二依據輸入復雜度動態(tài)分配計算資源,旨在實現自適應計算能力。
當模型規(guī)模擴展至數千億參數量級,訓練與推理成本已成為制約其廣泛落地的核心瓶頸。
傳統(tǒng)Transformer架構對所有輸入信息采用均質化計算的處理模式,被證實存在顯著資源冗余。
從理論到實踐的轉變:替代Transformer潛力
基于Transformer的這些局限性,許多非Transformer架構應運而生,如中國的RWKV、Meta的Mega、微軟亞研的 Retnet、Mamba、DeepMind團隊的Hawk和Griffin等。
它們大多在RNN的基礎上,針對Transformer的缺陷進行改進,試圖研究出更高效的模型結構。
就在最近,KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——一個名為Mixture-of-Recursions(MoR)的全新LLM模型架構,被業(yè)內認為有潛力成為“Transformer 殺手”。
MoR首次在單一框架內實現了參數共享與自適應計算的協(xié)同優(yōu)化,解決了傳統(tǒng)方法只能二者擇一的局限。
該框架將動態(tài)token級路由機制集成至參數高效的遞歸Transformer中,形成一種協(xié)同架構,有望達成“在避免大型模型成本的同時獲得其質量”的目標。
簡而言之,MoR框架能夠依據每個token的需求,動態(tài)且精確地分配所需計算資源,在避免資源浪費的同時確保任務高效完成。
MoR框架(Mixture-of-Recursions)是一個統(tǒng)一框架,其充分發(fā)掘了遞歸Transformer的能力特性,在預訓練與推理階段為每個詞元動態(tài)調整遞歸步驟。
該框架的核心在于兩個關鍵組件:輕量級路由機制與KV緩存策略。
其中,輕量級路由機制引入了端到端訓練的輕量級路由器,負責為每個詞元分配特定的遞歸深度。
這意味著模型可依據詞元所需的處理深度,決定共享參數模塊的遞歸調用頻次,從而將計算資源精確導向需求最為迫切之處。
在技術實現層面,MoR通過端到端訓練輕量級路由模塊,為每個token動態(tài)分配專屬的遞歸深度。
該機制依據每個token所需的處理深度,決定共享參數模塊對其遞歸應用的次數,從而實現計算資源的精準投放。
此種基于token的動態(tài)遞歸機制,天然支持遞歸層級的鍵值(KV)緩存。
該緩存可根據各token所分配的遞歸深度,選擇性存儲并檢索對應的鍵值對,顯著降低內存帶寬壓力,無需后處理即可提升推理吞吐量。
綜上所述,MoR在統(tǒng)一架構中同時實現了三項關鍵優(yōu)化:參數共享、計算路由與遞歸級緩存。
此外,采用KV緩存共享策略雖會輕微影響性能,但能顯著提升內存效率。
在內存資源受限的部署場景中,此種性能與資源消耗之間的權衡是可接受的。
這意味著模型能夠依據每個詞元的處理需求,精準地分配計算資源,從而規(guī)避冗余的計算消耗。
MoR既能顯著降低驗證集困惑度(Perplexity)并提升少樣本(Few-shot)準確率,亦可在同等訓練計算量與更小模型規(guī)模的前提下,相較現有模型提供更高的吞吐量。
在少樣本學習、長文本處理等任務中的表現已接近Transformer,且計算效率更具優(yōu)勢,被視作替代Transformer架構的有力競爭者。
實驗結果來看MoR的性能表現亮眼
研究團隊在1.35億至1.7億參數的多個模型規(guī)模上進行了測試。
結果表明,在相同訓練計算預算下,采用MoR架構的模型,其參數量雖較基準Transformer模型減少近一半,但在多項少樣本學習任務中的平均準確率達到43.1%,優(yōu)于基準模型的42.3%。
尤為重要的是,MoR架構具備更高的計算效率,使其能夠在相同計算預算內處理更多訓練數據,從而進一步提升模型性能。
在固定訓練數據量的對比實驗中,特定MoR配置僅需使用基準模型75%的訓練計算量,性能即超越基準模型,同時訓練時間縮短19%,峰值內存占用降低25%。
在推理性能方面,MoR架構的優(yōu)勢更為顯著。
其采用的連續(xù)深度批處理技術,可將處于不同計算階段的token組合至同一批次進行處理,因其共享相同參數塊。
該技術與模型的早期退出機制協(xié)同作用,顯著提升了處理吞吐量。
在3.6億參數規(guī)模的模型測試中,MoR-4配置在特定測試條件下實現了高達2.06倍的推理加速。
尤其值得注意的是,盡管模型參數量縮減近50%,MoR仍展現出更優(yōu)性能。
該優(yōu)勢源于其顯著提升的計算效率,從而能夠在相同FLOPs預算下處理更多訓練token。
MoR的提出意味著LLM發(fā)展邏輯的根本性變革
MoR的出現標志著AI模型從[規(guī)模擴張]向[智能計算]的演進趨勢。
其動態(tài)路由機制模擬了人類認知的[選擇性注意]特性,為開發(fā)更具生物啟發(fā)性的AI系統(tǒng)提供了新思路。
通過動態(tài)路由、參數共享與智能緩存的三重優(yōu)化機制,MoR重新定義了大模型的效率邊界。
推理速度倍增與內存占用減半的突破性進展,不僅顯著降低了部署成本,更為復雜任務處理確立了新范式。
盡管在大規(guī)模驗證與多模態(tài)擴展領域仍需深入探索,但MoR已展現出替代Transformer的實質性潛力,或將引領下一代AI模型的架構革新。
尤為重要的是,MoR為開發(fā)更具認知啟發(fā)性的AI系統(tǒng)奠定了基石。
該框架在生成過程中能夠按每個token自適應分配[思考深度]的特性,與語言模型潛在推理及內部思考機制的新興研究高度契合。
這表明MoR可作為關鍵平臺,用于探索模型如何在保持常規(guī)任務效率的同時,逐步學會對復雜問題進行更深入的思考。
結尾:
MoR延續(xù)并深化了這些研究對AI效率優(yōu)化的探索路徑,即從單一維度的優(yōu)化轉向參數、計算及內存等多維度的協(xié)同優(yōu)化。
這對于降低大語言模型的部署與應用成本具有顯著的實踐價值。
總體而言,當前階段尚難以斷言MoR能否全面取代Transformer架構,但其確實為未來語言模型的設計提供了在性能與效率層面均極具發(fā)展?jié)摿Φ难葸M方向。
部分資料參考:
炎炎星球:《谷歌DeepMind發(fā)布MoR架構,推理速度翻倍、內存減半,或成Transformer替代方案》
算家云:《Transformer霸權終結?谷歌DeepMind推出顛覆性架構:推理2倍速、參數減半》
AINLPer:《Google等提出遞歸混合框架:MoR,大幅提升LLM計算效率》
AI帝國:《Google發(fā)布MoR架構:2倍推理速度,節(jié)省50%內存》
原文標題 : 深度丨谷歌推出全新底層架構MoR,Transformer有了替代品

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯網展·深圳站
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業(yè)大會