訂閱
糾錯(cuò)
加入自媒體

文生圖也會(huì)“精神分裂”?北大、字節(jié)聯(lián)手揭秘:越思考越畫錯(cuò)!并行框架終結(jié)AI“左右互搏”

作者:Ye Tian、Ling Yang等

解讀:AI生成未來

亮點(diǎn)直擊

深入的基準(zhǔn)測(cè)試與分析:ParaBench,一個(gè)新的基準(zhǔn)測(cè)試,旨在系統(tǒng)性地評(píng)估“思考感知”型圖像生成與編輯任務(wù)。它不僅關(guān)注最終生成的圖像和文本的質(zhì)量,更核心的是評(píng)估兩者之間的對(duì)齊程度。

并行的多模態(tài)擴(kuò)散框架:提出了一個(gè)純粹基于離散擴(kuò)散的并行框架,用于“思考感知”型的圖像編輯與生成。該框架允許文本和圖像兩種模態(tài)在每一個(gè)去噪步驟中進(jìn)行雙向的注意力交互,從而有效緩解了自回歸(AR)順序生成流程中固有的錯(cuò)誤累積問題。

并行強(qiáng)化學(xué)習(xí)(ParaRL):引入了一種新穎的并行強(qiáng)化學(xué)習(xí)策略 ParaRL。該方法沿著整個(gè)去噪軌跡分配語義獎(jiǎng)勵(lì),而不是僅僅獎(jiǎng)勵(lì)最終結(jié)果,從而進(jìn)一步增強(qiáng)了輸出模態(tài)之間的一致性和整體性能。

全面的評(píng)估與最先進(jìn)的對(duì)齊效果:通過廣泛的實(shí)驗(yàn),本文驗(yàn)證了該框架的有效性。在 ParaBench 基準(zhǔn)測(cè)試中,與現(xiàn)有技術(shù)(SOTA)模型 Bagel 相比,本工作在“輸出對(duì)齊”指標(biāo)上取得了 6.9% 的顯著提升,同時(shí)在單模態(tài)指標(biāo)上保持了相當(dāng)?shù)男阅,?ldquo;思考感知”型圖像合成建立了一個(gè)更穩(wěn)健的范式。

解決的問題

在“思考感知”型的生成任務(wù)中,模型會(huì)先生成一步推理(即“思考過程”),然后基于這個(gè)推理來生成或編輯圖像。盡管這種方法在很多情況下能提升效果,但本文發(fā)現(xiàn)了一個(gè)關(guān)鍵的失敗模式:在某些復(fù)雜任務(wù)中,預(yù)先進(jìn)行的推理反而會(huì)導(dǎo)致最終圖像的語義保真度下降

這個(gè)問題源于現(xiàn)有方法大多采用順序、自回歸的生成流程。在這種流程中,推理文本的任何模糊、不準(zhǔn)確或錯(cuò)誤都會(huì)被傳遞并放大到后續(xù)的圖像生成階段,導(dǎo)致最終生成的圖像與用戶的核心指令產(chǎn)生偏差,F(xiàn)有的評(píng)估基準(zhǔn)只關(guān)注最終圖像,忽略了中間推理步驟的質(zhì)量及其與最終圖像的對(duì)齊性,因此無法定位和解決這一問題。

提出的方案

為了解決上述問題,提出了一個(gè)并行的多模態(tài)擴(kuò)散框架 MMaDA-Parallel,并輔以一種新穎的訓(xùn)練策略 ParaRL。

MMaDA-Parallel 框架

并行生成:與先生成文本再生成圖像的順序模式不同,該框架讓推理文本和目標(biāo)圖像在統(tǒng)一的擴(kuò)散過程中同時(shí)并行地生成。

雙向交互:在每個(gè)去噪步驟中,文本和圖像的 token 之間都可以進(jìn)行雙向的注意力交互。這意味著文本的生成可以隨時(shí)參考正在形成的圖像特征,反之亦然。這種持續(xù)的跨模態(tài)“協(xié)商”機(jī)制避免了單向的錯(cuò)誤傳播。

并行強(qiáng)化學(xué)習(xí)(ParaRL)

軌跡級(jí)優(yōu)化:傳統(tǒng)的強(qiáng)化學(xué)習(xí)只在生成過程的最后一步(即最終輸出)計(jì)算獎(jiǎng)勵(lì)。ParaRL 的創(chuàng)新之處在于,它在去噪過程的多個(gè)中間步驟都計(jì)算獎(jiǎng)勵(lì)信號(hào)。

語義對(duì)齊獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)信號(hào)直接來源于中間步驟生成的文本和圖像之間的語義對(duì)齊度(例如,通過 CLIP 分?jǐn)?shù)衡量)。通過在整個(gè)生成軌跡上持續(xù)強(qiáng)化這種對(duì)齊,模型能夠?qū)W會(huì)生成內(nèi)部一致性更強(qiáng)的多模態(tài)內(nèi)容。

應(yīng)用的技術(shù)

離散擴(kuò)散模型(Discrete Diffusion Models):框架的基礎(chǔ)。文本(通過 LLaDA tokenizer)和圖像(通過 MAGVIT-v2 quantizer)都被統(tǒng)一表示為離散的 token 序列,使得單一的擴(kuò)散模型可以同時(shí)處理兩種模態(tài)。

交錯(cuò)序列與雙向注意力(Interleaved Sequence & Bidirectional Attention):將輸入和輸出的文本與圖像 token 排列在一個(gè)單一的序列中,并使用特殊標(biāo)記(sentinels)分隔。這使得模型可以在一個(gè)統(tǒng)一的上下文中進(jìn)行全面的雙向跨模態(tài)注意力計(jì)算。

并行去噪與雙重調(diào)度器(Parallel Denoising & Dual Schedulers):在解碼(采樣)過程中,模型在一個(gè)共享的時(shí)間軸上并行去噪。但針對(duì)文本和圖像兩種模態(tài),分別采用了不同的掩碼調(diào)度器(masking schedulers)——文本采用線性揭示調(diào)度,圖像采用余弦揭示調(diào)度——以適應(yīng)它們各自的生成特性。

基于 GRPO 的強(qiáng)化學(xué)習(xí):ParaRL 的實(shí)現(xiàn)基于 Group Relative Policy Optimization (GRPO) 目標(biāo)函數(shù),并對(duì)其進(jìn)行了調(diào)整以適應(yīng)擴(kuò)散模型的非自回歸特性和軌跡級(jí)獎(jiǎng)勵(lì)的設(shè)定。獎(jiǎng)勵(lì)函數(shù)基于歸一化后的 CLIP 分?jǐn)?shù),以確保訓(xùn)練的穩(wěn)定性。

達(dá)到的效果

顯著提升跨模態(tài)對(duì)齊性:在ParaBench 基準(zhǔn)上,MMaDA-Parallel(結(jié)合 ParaRL)在所有開源模型中取得了最高的“輸出對(duì)齊”(Output Alignment)分?jǐn)?shù)(59.8%),相比之前的 SOTA 模型 Bagel(52.9%)提升了 6.9%。

保持高質(zhì)量的單模態(tài)輸出:在提升對(duì)齊性的同時(shí),模型在文本質(zhì)量和圖像質(zhì)量等單模態(tài)指標(biāo)上與 Bagel 表現(xiàn)相當(dāng),盡管 Bagel 的訓(xùn)練數(shù)據(jù)量要大得多。

驗(yàn)證了并行框架與軌跡優(yōu)化的優(yōu)越性

消融實(shí)驗(yàn)證明:

與順序生成基線相比,并行解碼能顯著提高輸出對(duì)齊性。

與只在最終輸出應(yīng)用獎(jiǎng)勵(lì)的傳統(tǒng)強(qiáng)化學(xué)習(xí)相比,本文提出的軌跡級(jí)優(yōu)化(ParaRL)能帶來更穩(wěn)定和更顯著的性能增益。圖 2:MMaDA-Parallel 支持并行、感知思維的圖像編輯和生成。與 Bagel 相比,MMaDA-Parallel 的推理質(zhì)量更高,生成的文本和圖像輸出之間的一致性也更強(qiáng)。圖 2:MMaDA-Parallel 支持并行、感知思維的圖像編輯和生成。與 Bagel 相比,MMaDA-Parallel 的推理質(zhì)量更高,生成的文本和圖像輸出之間的一致性也更強(qiáng)。MMaDA-Parallel

關(guān)于“思考感知”型合成的發(fā)現(xiàn)與基準(zhǔn)測(cè)試

為了研究預(yù)生成推理是否真正能提升性能,本文在圖像編輯任務(wù)上進(jìn)行了一項(xiàng)對(duì)照研究,因?yàn)檫@類任務(wù)比單純的圖像合成提供了更清晰的、基于指令的評(píng)估。從已有的基準(zhǔn)測(cè)試中采樣輸入,并使用 Bagel——一個(gè)支持“思考感知”型生成的先進(jìn)開源統(tǒng)一模型——在開啟和關(guān)閉“思考”功能兩種模式下生成成對(duì)的輸出。在圖 1(c) 和表 1 中報(bào)告了在 Kris-Bench上的平均編輯評(píng)估指標(biāo)。

圖 1:順序與并行思維感知圖像合成。(a) 順序生成(Bagel、GPT4o)可能存在推理模糊或錯(cuò)誤的問題。(b) 平行生成可在每個(gè)去噪步驟中調(diào)整文本和圖像,從而減少幻覺和錯(cuò)誤。(c) 定量比較顯示推理會(huì)降低某些類別的性能。(d) 較差的類別也表現(xiàn)出較弱的推理-圖像對(duì)齊,突出了加強(qiáng)跨模態(tài)對(duì)齊的必要性。圖 1:順序與并行思維感知圖像合成。(a) 順序生成(Bagel、GPT4o)可能存在推理模糊或錯(cuò)誤的問題。(b) 平行生成可在每個(gè)去噪步驟中調(diào)整文本和圖像,從而減少幻覺和錯(cuò)誤。(c) 定量比較顯示推理會(huì)降低某些類別的性能。(d) 較差的類別也表現(xiàn)出較弱的推理-圖像對(duì)齊,突出了加強(qiáng)跨模態(tài)對(duì)齊的必要性。

發(fā)現(xiàn)。雖然推理步驟在大多數(shù)任務(wù)上提升了性能,但也出現(xiàn)了一個(gè)顯著的反常趨勢(shì):在相當(dāng)一部分(約 23%)的案例中,性能反而下降了,尤其是在復(fù)雜的組合編輯任務(wù)中。更深入的分析表明,這些失敗通常源于低質(zhì)量或模糊的推理文本,這些文本誤導(dǎo)了圖像生成過程。這暴露了現(xiàn)有評(píng)估協(xié)議中的一個(gè)關(guān)鍵缺陷:它們只評(píng)估最終的圖像,卻忽略了作為另一種生成模態(tài)的中間推理的質(zhì)量。

混合模態(tài)的基準(zhǔn)測(cè)試。這一分析揭示了當(dāng)前評(píng)估范式的一個(gè)根本局限性:現(xiàn)有的基準(zhǔn)只評(píng)估圖像,忽略了推理本身的質(zhì)量及其與圖像的一致性。為了解決這一差距,本文引入了 ParaBench,這是一個(gè)專為全面評(píng)估“思考感知”型圖像合成而設(shè)計(jì)的新基準(zhǔn)。ParaBench 包含 300 個(gè)具有挑戰(zhàn)性的提示,其中 200 個(gè)用于編輯,100 個(gè)用于生成。編輯提示經(jīng)過精心策劃,用以測(cè)試廣泛的能力,不僅涵蓋常規(guī)操作(如添加、移除、替換),還包括需要推理的復(fù)雜任務(wù)。100 個(gè)生成提示則專注于復(fù)雜場(chǎng)景的開放式創(chuàng)意合成。本文使用 GPT-4.1 在六個(gè)細(xì)粒度維度上對(duì)模型在 ParaBench 上的表現(xiàn)進(jìn)行評(píng)估:對(duì)于文本輸出,評(píng)估文本質(zhì)量文本對(duì)齊;對(duì)于視覺輸出,評(píng)估圖像質(zhì)量、圖像對(duì)齊圖像一致性;最后,評(píng)估兩者間的整體輸出對(duì)齊。

為了展示 ParaBench 的診斷能力,將其應(yīng)用于一個(gè)代表性的基線模型 Bagel。雖然完整的量化結(jié)果在附錄 A 中呈現(xiàn),但表 1 通過關(guān)注兩個(gè)關(guān)鍵指標(biāo)——文本質(zhì)量輸出對(duì)齊——突顯了一個(gè)重要發(fā)現(xiàn)。結(jié)果顯示,推理步驟的質(zhì)量與最終性能之間存在明確的相關(guān)性。值得注意的是,那些表現(xiàn)下降的類別,其推理質(zhì)量和推理-圖像協(xié)同性也同樣遭受了顯著的下降。這種模式強(qiáng)烈表明,糟糕的推理不僅未能提供有益的指導(dǎo),反而主動(dòng)地誤導(dǎo)了生成過程,從而驗(yàn)證了明確提升文本與圖像生成協(xié)同性的必要性。

關(guān)于并行多模態(tài)擴(kuò)散的動(dòng)機(jī)。本文的基準(zhǔn)測(cè)試結(jié)果揭示了當(dāng)前“思考感知”型生成的一個(gè)關(guān)鍵限制:順序生成范式(即推理先于圖像合成)創(chuàng)建了一種剛性的依賴關(guān)系,這可能傳播錯(cuò)誤并限制跨模態(tài)協(xié)同。當(dāng)推理質(zhì)量下降時(shí),它會(huì)直接損害后續(xù)的圖像生成,正如在空間和時(shí)間編輯任務(wù)中觀察到的相關(guān)性能下降所證明的那樣。為了解決這個(gè)根本問題,本文提出了一個(gè)并行的統(tǒng)一多模態(tài)擴(kuò)散框架,該框架能夠同時(shí)生成推理文本和圖像,從而促進(jìn)真正的多模態(tài)協(xié)作,并消除順序方法中固有的錯(cuò)誤傳播。

基礎(chǔ)算法與架構(gòu)

離散擴(kuò)散模型已在圖像和文本生成任務(wù)中展現(xiàn)出強(qiáng)大的性能;诮y(tǒng)一的離散擴(kuò)散視角,MMaDA證明了單一的擴(kuò)散框架可以聯(lián)合建模多種模態(tài);然而,其解碼過程在不同模態(tài)間仍然是順序的。為了克服這一限制,本文提出了一個(gè)并行的多模態(tài)擴(kuò)散框架,該框架:(i) 將所有模態(tài)表示為離散的 token,(ii) 將它們排列在一個(gè)帶有雙向注意力的交錯(cuò)序列中,以及 (iii) 采用一個(gè)跨模態(tài)共享的單一掩碼預(yù)測(cè)器,從而實(shí)現(xiàn)文本和圖像的同步去噪。該框架的概覽如圖 3 所示。

圖 3:并行生成架構(gòu):在(a)訓(xùn)練期間,圖像和文本響應(yīng)被屏蔽,并使用統(tǒng)一屏蔽預(yù)測(cè)器并行預(yù)測(cè),屏蔽令牌似然目標(biāo)對(duì)其進(jìn)行了優(yōu)化。在(b)采樣期間,模型執(zhí)行并行解碼,聯(lián)合生成圖像和文本響應(yīng),從而實(shí)現(xiàn)高效的多模態(tài)響應(yīng)生成。圖 3:并行生成架構(gòu):在(a)訓(xùn)練期間,圖像和文本響應(yīng)被屏蔽,并使用統(tǒng)一屏蔽預(yù)測(cè)器并行預(yù)測(cè),屏蔽令牌似然目標(biāo)對(duì)其進(jìn)行了優(yōu)化。在(b)采樣期間,模型執(zhí)行并行解碼,聯(lián)合生成圖像和文本響應(yīng),從而實(shí)現(xiàn)高效的多模態(tài)響應(yīng)生成。

交錯(cuò)的離散序列布局。遵循 MMaDA 框架,本文在一個(gè)統(tǒng)一的離散 token 空間內(nèi)處理文本和圖像。具體來說,本文使用 LLaDA tokenizer對(duì)文本進(jìn)行分詞,并使用一個(gè)預(yù)訓(xùn)練的 MAGVIT-v2量化器將圖像編碼為離散視覺 token 網(wǎng)格。這些被 token 化的模態(tài)隨后被序列化為一個(gè)單一的交錯(cuò)序列,使用明確的分隔符(sentinels)和任務(wù)標(biāo)簽來實(shí)現(xiàn)完全的雙向跨模態(tài)注意力:

在訓(xùn)練期間,本文將輸入和輸出模板拼接成一個(gè)單一序列,允許模型在一個(gè)統(tǒng)一的上下文中從輸出關(guān)注到輸入。任務(wù) token <|task|> 根據(jù)不同場(chǎng)景被實(shí)例化為不同形式,<|thinkgen|> 用于“思考感知”型生成,<|thinkedit|> 用于“思考感知”型編輯。這種單序列設(shè)計(jì)消除了自回歸跨模態(tài)流程所引入的順序不對(duì)稱性和曝光偏差。

訓(xùn)練目標(biāo)。令表示拼接后的訓(xùn)練序列(輸入部分后跟輸出部分),其中是序列中的 token 總數(shù)。本文保持輸入部分不變,只對(duì)輸出部分施加噪聲。在一個(gè)采樣的時(shí)間步,對(duì)于輸出部分中的每個(gè) token,本文以概率將其替換為 [MASK],并以概率  保持不變;輸入部分的 token 則保持不變:

等價(jià)地,對(duì)于輸出中的位置,經(jīng)過 t步后的吸收態(tài)邊緣分布為,其中, 是 [MASK] 的 one-hot 分布。

并行擴(kuò)散模型被構(gòu)建為一個(gè)在文本和圖像 token 聯(lián)合詞匯表上的統(tǒng)一掩碼-token 預(yù)測(cè)器。令表示拼接的輸入-輸出序列中的 token 位置。由于在擴(kuò)散過程中只有輸出部分被加噪,模型會(huì)在當(dāng)前被掩碼的位置上預(yù)測(cè)真實(shí) token 。為了更好地平衡不同模態(tài)間的訓(xùn)練動(dòng)態(tài),本文使依賴于時(shí)間步的損失權(quán)重具有模態(tài)特異性:輸出圖像部分和輸出文本部分的 token 分別被賦予獨(dú)立的權(quán)重。為簡(jiǎn)潔起見,本文使用一個(gè)統(tǒng)一的、感知 token 的權(quán)重函數(shù)來表示目標(biāo)函數(shù)。本文優(yōu)化一個(gè)經(jīng)過時(shí)間步重加權(quán)的交叉熵?fù)p失:

其中是指示函數(shù),且

本文憑經(jīng)驗(yàn)發(fā)現(xiàn),對(duì)文本 token 應(yīng)用一個(gè)隨時(shí)間步變化的權(quán)重,并對(duì)圖像 token 使用一個(gè)恒定權(quán)重 ,能夠顯著穩(wěn)定圖像質(zhì)量和輸出對(duì)齊的訓(xùn)練過程。本文在圖 3(a) 中闡釋了這一過程,并在附錄 D 中包含了詳細(xì)的附加預(yù)備知識(shí)和消融研究。

使用雙重調(diào)度器的并行去噪。解碼過程沿著一個(gè)共享的擴(kuò)散時(shí)間軸進(jìn)行,如圖 3(b) 所示。本文定義了兩個(gè)模態(tài)特定的調(diào)度器,,它們指定了在步驟 t時(shí)未被掩碼 token 的目標(biāo)比例。在每個(gè)逆向步驟中:(i) 模型聯(lián)合預(yù)測(cè)所有當(dāng)前被掩碼位置的分布;(ii) 對(duì)于每個(gè)模態(tài),一部分 token 被采樣(例如,通過基于置信度的采樣),而其余位置則保留為 [MASK]。因?yàn)樽⒁饬υ谡麄(gè)序列上是雙向的,文本和圖像可以在解碼的每一步相互提供信息。在本文的實(shí)驗(yàn)中,文本調(diào)度器實(shí)現(xiàn)為一個(gè)完全線性的揭示調(diào)度,結(jié)合半自回歸的基于置信度的解碼,而圖像調(diào)度器則遵循一個(gè)余弦揭示調(diào)度,并采用全局基于置信度的解碼。

使用并行強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練

用于并行合成的監(jiān)督式微調(diào)。本文方法中的一個(gè)關(guān)鍵挑戰(zhàn)是,現(xiàn)有的生成和編輯數(shù)據(jù)集缺乏并行合成框架所需的推理軌跡。為了解決這個(gè)問題,本文首先通過聚合來自不同來源的樣本來構(gòu)建一個(gè)合適的訓(xùn)練數(shù)據(jù)集。對(duì)于每個(gè)包含輸入圖像(用于編輯任務(wù))、指令和最終輸出圖像的樣本,本文使用一個(gè)多模態(tài)大語言模型(在本文的實(shí)現(xiàn)中為 Qwen-2.5-VL)來生成相應(yīng)的推理軌跡。關(guān)于數(shù)據(jù)集構(gòu)建過程的更多細(xì)節(jié),包括來源和類別,詳見附錄 F。然后,本文使用這個(gè)數(shù)據(jù)集對(duì) MMaDA進(jìn)行監(jiān)督式微調(diào)。這個(gè)過程將其改造為一個(gè)能夠執(zhí)行“思考感知”型合成的并行變體,其中推理和生成是同時(shí)發(fā)生的。

去噪軌跡上的協(xié)同效應(yīng)。在分析微調(diào)后模型的生成結(jié)果時(shí),本文觀察到某些語義概念在中間的去噪步驟中,會(huì)同步地出現(xiàn)在文本和圖像中。如圖 5 所示,當(dāng)任務(wù)是把一件襯衫變成“鮮艷的彩虹色”時(shí),具體的顏色詞匯和它們對(duì)應(yīng)的視覺特征會(huì)在同一個(gè)時(shí)間步出現(xiàn)。這一觀察引出了一個(gè)關(guān)鍵洞見:跨模態(tài)對(duì)齊并非一個(gè)終點(diǎn)現(xiàn)象,而是在整個(gè)生成軌跡中逐步建立的。這意味著,對(duì)這些中間步驟施加監(jiān)督,而不僅僅是最終輸出,可以進(jìn)一步改善這種對(duì)齊。

圖 5:抽樣的協(xié)同作用。根據(jù)提示"將藍(lán)色襯衫換成鮮艷的彩虹色",文字和圖像中的特定顏色解碼在同一步驟中出現(xiàn)圖 5:抽樣的協(xié)同作用。根據(jù)提示"將藍(lán)色襯衫換成鮮艷的彩虹色",文字和圖像中的特定顏色解碼在同一步驟中出現(xiàn)

使用軌跡優(yōu)化的并行強(qiáng)化學(xué)習(xí);谶@一洞見,本文進(jìn)一步引入了并行強(qiáng)化學(xué)習(xí)(ParaRL),這是一種新穎的訓(xùn)練范式,它直接利用了這種中間步驟的跨模態(tài)協(xié)同效應(yīng)。ParaRL 不僅僅獎(jiǎng)勵(lì)最終的輸出,而是將在每個(gè)去噪步驟中文本和圖像 token 之間的對(duì)齊度作為密集的獎(jiǎng)勵(lì)信號(hào)。

具體來說,對(duì)于一個(gè)給定的查詢 ,生成的響應(yīng)是一條完整的軌跡 ,其中  是去噪步驟的總數(shù), 是在步驟  解碼出的 token 集合。雖然這種形式為每個(gè)中間響應(yīng)  提供了步級(jí)獎(jiǎng)勵(lì) ,但對(duì)整個(gè)密集軌跡進(jìn)行優(yōu)化在計(jì)算上是不可行的。為了使訓(xùn)練可行,本文采用了一種稀疏優(yōu)化策略。在每次在線部署(online rollout)期間,本文預(yù)先選擇采樣步數(shù)  并固定一個(gè)步索引的子集 ,并且只對(duì)時(shí)間步  計(jì)算獎(jiǎng)勵(lì)  及其對(duì)應(yīng)的標(biāo)準(zhǔn)化優(yōu)勢(shì) 。采用了一個(gè)擴(kuò)散 GRPO 目標(biāo)函數(shù),該函數(shù)能夠適應(yīng) token 級(jí)別的似然比,并在這些采樣步驟上計(jì)算優(yōu)勢(shì)值:

其中 。在這個(gè)目標(biāo)函數(shù)中,求和是在稀疏采樣的步驟  上進(jìn)行的。項(xiàng)  遍歷了在采樣步驟  的狀態(tài)  中的所有 token,而  表示在步驟  之前生成的所有 token 的完整歷史。最后, 是用于生成部署樣本的行為策略, 控制 KL 懲罰的強(qiáng)度。

軌跡獎(jiǎng)勵(lì)設(shè)計(jì)。在典型的軌跡級(jí)優(yōu)化框架中,通常需要一個(gè)訓(xùn)練良好的過程獎(jiǎng)勵(lì)模型(PRM)或價(jià)值函數(shù),因?yàn)橹虚g的部分輸出通常缺乏足夠的語義信息來進(jìn)行可靠的評(píng)估。令人驚訝的是,在本文的并行文圖生成設(shè)置中,本文發(fā)現(xiàn)中間的片段已經(jīng)具有語義意義。例如,即使是部分解碼的文本 token 通常也足以揭示語義線索,從而可以計(jì)算與同時(shí)生成的圖像內(nèi)容的對(duì)齊度,如圖 4 所示。這一觀察使本文能夠繞過對(duì)專用 PRM 的需求:本文直接使用文本和圖像之間的語義對(duì)齊作為獎(jiǎng)勵(lì)信號(hào)。

圖 4:我們提出的并行強(qiáng)化學(xué)習(xí)(ParaRL)概述。ParaRL 并非只對(duì)最終去噪輸出進(jìn)行操作,而是沿著整個(gè)去噪軌跡引入獎(jiǎng)勵(lì)信號(hào),在整個(gè)生成過程中持續(xù)強(qiáng)化語義一致性。圖 4:我們提出的并行強(qiáng)化學(xué)習(xí)(ParaRL)概述。ParaRL 并非只對(duì)最終去噪輸出進(jìn)行操作,而是沿著整個(gè)去噪軌跡引入獎(jiǎng)勵(lì)信號(hào),在整個(gè)生成過程中持續(xù)強(qiáng)化語義一致性。

與具有二元獎(jiǎng)勵(lì)的任務(wù)(如數(shù)學(xué)推理)不同,本文的跨模態(tài)對(duì)齊目標(biāo)提供了一個(gè)連續(xù)的獎(jiǎng)勵(lì)信號(hào)。然而,作為獎(jiǎng)勵(lì)來源的原始 CLIP 分?jǐn)?shù)可能表現(xiàn)出高方差和任意的尺度,這使得它在強(qiáng)化學(xué)習(xí)中直接使用時(shí)不穩(wěn)定。為了確保訓(xùn)練穩(wěn)定性,因此采用了一種受先前在連續(xù)獎(jiǎng)勵(lì) RL 工作中啟發(fā)的歸一化方案。本文首先在訓(xùn)練分布上估計(jì) CLIP 分?jǐn)?shù)的均值  和標(biāo)準(zhǔn)差 ,計(jì)算是在隨機(jī) 1% 的數(shù)據(jù)子集上進(jìn)行的。令  為在步驟  生成內(nèi)容的原始 CLIP 分?jǐn)?shù)。本文首先使用  對(duì)該分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化。然后將此標(biāo)準(zhǔn)化分?jǐn)?shù)裁剪到  范圍內(nèi),并進(jìn)行線性縮放,得到最終的獎(jiǎng)勵(lì) ,該獎(jiǎng)勵(lì)被限制在  范圍內(nèi):

在公式 3 中使用的相應(yīng)優(yōu)勢(shì)  則是通過在部署樣本上進(jìn)行標(biāo)準(zhǔn)化得到的:。

實(shí)驗(yàn)

本文在自建的 ParaBench 基準(zhǔn)上進(jìn)行了主要評(píng)估,并使用 GPT-4.1 作為“裁判”來評(píng)估六個(gè)細(xì)粒度指標(biāo)。MMaDA-Parallel 與多個(gè)業(yè)界領(lǐng)先模型進(jìn)行了比較,包括 Bagel、GPT-4o、Gemini-2.5 等。

主要結(jié)果: 如表 2 所示,MMaDA-Parallel 在所有開源模型中取得了最高的輸出對(duì)齊分?jǐn)?shù),驗(yàn)證了其并行解碼和軌跡級(jí)優(yōu)化的有效性。盡管訓(xùn)練數(shù)據(jù)量遠(yuǎn)小于 Bagel,MMaDA-Parallel 在通用的文本和圖像質(zhì)量上仍能與之匹敵。與頂尖的閉源模型(如 GPT-4o)相比,本工作顯著縮小了在對(duì)齊指標(biāo)上的差距,展示了卓越的數(shù)據(jù)效率。此外,ParaRL 階段一致地提升了輸出的文圖一致性,表明軌跡級(jí)優(yōu)化有效地加強(qiáng)了整個(gè)生成過程中的跨模態(tài)基礎(chǔ)。

關(guān)鍵貢獻(xiàn)分析: 本文通過消融實(shí)驗(yàn)回答了兩個(gè)核心研究問題:

并行解碼是否優(yōu)于順序解碼? 實(shí)驗(yàn)(表 3)表明,本文的并行框架在關(guān)鍵的對(duì)齊指標(biāo)上顯著優(yōu)于順序生成基線,驗(yàn)證了并行、交互式解碼對(duì)于減少錯(cuò)誤傳播和產(chǎn)生連貫的多模態(tài)輸出至關(guān)重要。軌跡級(jí)微調(diào)是否優(yōu)于輸出級(jí)微調(diào)? 實(shí)驗(yàn)(表 4)顯示,與僅在最終輸出計(jì)算獎(jiǎng)勵(lì)的傳統(tǒng) RL 相比,本文提出的 ParaRL(軌跡級(jí)優(yōu)化)在文圖一致性和輸出對(duì)齊方面帶來了更顯著的增益,并且訓(xùn)練動(dòng)態(tài)更穩(wěn)定。進(jìn)一步分析(表 5)發(fā)現(xiàn),在軌跡中采樣 3 個(gè)步驟()進(jìn)行獎(jiǎng)勵(lì)計(jì)算,是在性能和效率之間的最佳平衡點(diǎn)。

總結(jié)

本工作研究了一個(gè)關(guān)鍵現(xiàn)象,即順序的“思考感知”型模型在處理復(fù)雜任務(wù)時(shí),可能會(huì)反常地出現(xiàn)性能下降。本文使用自行提出的 ParaBench 基準(zhǔn)進(jìn)行了深入分析,該基準(zhǔn)獨(dú)特地評(píng)估了兩種輸出模態(tài),并發(fā)現(xiàn)性能下降與生成模態(tài)之間的對(duì)齊度不佳有很強(qiáng)的相關(guān)性。為了解決這個(gè)問題,提出了一個(gè)通過監(jiān)督式微調(diào)訓(xùn)練的并行多模態(tài)擴(kuò)散框架,并利用并行強(qiáng)化學(xué)習(xí)(ParaRL)——一種沿著整個(gè)去噪軌跡應(yīng)用獎(jiǎng)勵(lì)的新穎方法——對(duì)其進(jìn)行進(jìn)一步優(yōu)化。實(shí)驗(yàn)驗(yàn)證了本文的方法顯著改善了跨模態(tài)對(duì)齊和語義一致性,為“思考感知”型圖像合成建立了一個(gè)更加穩(wěn)健的范式。

參考文獻(xiàn)

[1] MMADA-PARALLEL: MULTIMODAL LARGE DIFFUSION LANGUAGE MODELS FOR THINKING-AWARE EDITING AND GENERATION

       原文標(biāo)題 : 文生圖也會(huì)“精神分裂”?北大、字節(jié)聯(lián)手揭秘:越思考越畫錯(cuò)!并行框架終結(jié)AI“左右互搏”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)