狠狠色丁香婷婷综合视频 ,色综合久久88色综合天天

Meta 與牛津大學(xué)合作論文：從語言預(yù)訓(xùn)練中揭開 LLM 視覺先驗(yàn)的起源

2025-11-17 15:28

大型語言模型 (LLM) 盡管僅基于文本進(jìn)行訓(xùn)練，卻意外地能夠發(fā)展出豐富的視覺先驗(yàn)。這些先驗(yàn)使得模型能夠利用相對少量的多模態(tài)數(shù)據(jù)來解鎖潛在的視覺能力，從而完成視覺任務(wù)。在某些情況下，甚至無需任何圖像即可執(zhí)行視覺任務(wù)。

Meta 與牛津大學(xué)研究團(tuán)隊(duì)近日發(fā)布的一篇論文表示，LLM 的潛在視覺推理能力主要通過基于推理中心數(shù)據(jù)（例如代碼、數(shù)學(xué)、學(xué)術(shù)）的預(yù)訓(xùn)練而發(fā)展，并且會逐步擴(kuò)展。這種從語言預(yù)訓(xùn)練中獲得的推理先驗(yàn)具有可遷移性，并且普遍適用于視覺推理。

基于這個(gè)發(fā)現(xiàn)，Meta 提出了一種以數(shù)據(jù)為中心的視覺感知 LLM 預(yù)訓(xùn)練方案，并在 1T token 規(guī)模的預(yù)訓(xùn)練中進(jìn)行了驗(yàn)證。

以下是論文的主要亮點(diǎn)。

研究與發(fā)現(xiàn)

在預(yù)訓(xùn)練的過程中，團(tuán)隊(duì)僅使用了一套解碼器的 Transformer 模型，這些模型嚴(yán)格遵循 Llama-3 架構(gòu)，涵蓋五種模型規(guī)模參數(shù)。這些模型針對不同數(shù)量的 token 進(jìn)行訓(xùn)練，token 數(shù)量最多達(dá)到 1T。

這些研究探討了模型和數(shù)據(jù)規(guī)模、數(shù)據(jù)源、視覺世界和推理數(shù)據(jù)混合等基本變量的影響。

模型和數(shù)據(jù)大小的影響

研究表明，VQA 性能與模型和數(shù)據(jù)規(guī)模呈正相關(guān)。然而，這種正相關(guān)關(guān)系在所有視覺能力中并不統(tǒng)一。

模型大小和預(yù)訓(xùn)練數(shù)據(jù)大小通常都會帶來更強(qiáng)的下游多模態(tài)性能。這對于整體平均 VQA 來說是正確的。然而，仔細(xì)觀察不同的 VQA 類別會發(fā)現(xiàn)明顯的細(xì)微差別。通用 VQA 和知識 VQA 的性能表現(xiàn)出類似的擴(kuò)展趨勢，隨著模型和數(shù)據(jù)大小的增加而持續(xù)提高。與此形成鮮明對比的是，OCR 和圖表 VQA 對模型大小的敏感度遠(yuǎn)高于數(shù)據(jù)量；模型之間的性能差距明顯更大。

預(yù)訓(xùn)練數(shù)據(jù)源的影響

除此之外，特定類別的語言預(yù)訓(xùn)練數(shù)據(jù)可以增強(qiáng)最終 MLLM 中的某些視覺能力。特別是與推理和視覺世界相關(guān)的數(shù)據(jù)，可以顯著提高以視覺為中心的任務(wù)性能。

結(jié)果顯示，下游多模態(tài)性能因預(yù)訓(xùn)練數(shù)據(jù)源的不同而存在顯著差異。這種差異表明，不同類別的文本數(shù)據(jù)導(dǎo)致了截然不同且不均勻的視覺先驗(yàn)。值得注意的是，在以視覺為中心的 VQA 任務(wù)中，出色的性能與兩類數(shù)據(jù)高度相關(guān)：一類是以推理為中心（例如代碼、數(shù)學(xué)、學(xué)術(shù)）的數(shù)據(jù)，另一類是富含視覺世界描述的語料庫（例如藝術(shù)、美食）。

推理和視覺數(shù)據(jù)比例的影響

團(tuán)隊(duì)發(fā)現(xiàn)，少量有關(guān)視覺世界的數(shù)據(jù)至關(guān)重要，但其貢獻(xiàn)很快就會飽和。相反，增加預(yù)訓(xùn)練組合中以推理為中心的數(shù)據(jù)的比例會逐步增強(qiáng)視覺能力，性能提升率最高可達(dá) 75%。

增加以推理為中心的數(shù)據(jù)的比例會帶來顯著的性能提升，其優(yōu)勢在達(dá)到 75% 后趨于穩(wěn)定。這表明強(qiáng)大的推理基礎(chǔ)對于提升視覺能力至關(guān)重要。相比之下，明確描述視覺世界的數(shù)據(jù)呈現(xiàn)出收益迅速遞減的趨勢，只有少量此類數(shù)據(jù)對于建立基線至關(guān)重要。

討論和假設(shè)

Meta 還提出三個(gè)關(guān)鍵假設(shè)，分別關(guān)于感知先驗(yàn)的結(jié)構(gòu)、推理的普遍性以及數(shù)據(jù)結(jié)構(gòu)在跨模態(tài)匹配中的作用。

感知先驗(yàn)是多層次的嗎？

之前的分析表明，感知先驗(yàn)的起源是彌散的，在多樣化的數(shù)據(jù)中表現(xiàn)得最為明顯。這種先驗(yàn)是一種統(tǒng)一的能力，還是具有更細(xì)粒度的特征？

結(jié)果表明，感知先驗(yàn)確實(shí)與尺度相關(guān)。一個(gè)可能的解釋是，多樣化、非結(jié)構(gòu)化文本包含海量詞匯，這種文本豐富性迫使模型學(xué)習(xí)對細(xì)粒度視覺概念敏感的表征，而這種能力在識別大型、明顯的物體時(shí)并不那么重要。

推理能力是否是一種通用的、跨模態(tài)的技能，并且在預(yù)訓(xùn)練階段就已習(xí)得？

團(tuán)隊(duì)認(rèn)為，LLM 從文本中獲得的推理能力并不局限于語言領(lǐng)域。通過對以推理為中心的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，模型可以學(xué)習(xí)抽象的、可推廣的邏輯、結(jié)構(gòu)和組合性原則。

結(jié)果顯示，LLM 從文本中學(xué)習(xí)到的推理能力可以遷移到視覺領(lǐng)域。團(tuán)隊(duì)觀察到一個(gè)明顯的趨勢：隨著以推理為中心的數(shù)據(jù)比例的增加，模型生成的視覺推理不僅邏輯上更加合理，篇幅也顯著增加。例如，將代碼推理數(shù)據(jù)的比例從 0% 提高到 100%，邏輯合理性從 4.52% 提升到 9.52%，推理深度也增加了六倍多。

語言數(shù)據(jù)結(jié)構(gòu)是否能驅(qū)動(dòng)視覺數(shù)據(jù)的表征一致性？

團(tuán)隊(duì)提出語言數(shù)據(jù)的結(jié)構(gòu)特性可以部分驅(qū)動(dòng)與視覺數(shù)據(jù)的表征一致性的假設(shè)。

結(jié)果表明，LLMvision 對齊分?jǐn)?shù)總體呈現(xiàn)正向但非單調(diào)的趨勢。隨著結(jié)構(gòu)化推理數(shù)據(jù)比例的增加，對齊得分通常會提高，這表明從抽象結(jié)構(gòu)中學(xué)習(xí)可以形成更一致的潛在空間。然而，這種趨勢在 75% 的比例下達(dá)到峰值，然后在 100% 時(shí)下降。這可能是因?yàn)榧兇饣谕评頂?shù)據(jù)訓(xùn)練的模型學(xué)習(xí)了抽象結(jié)構(gòu)，但缺乏來自其他文本類型所需的詞匯來有效地將其映射到不同的視覺概念上，從而阻礙了最終的對齊。

參考資料：https://arxiv.org/pdf/2509.26625