訂閱
糾錯
加入自媒體

新加坡國立等發(fā)布WEAVE:首個上下文交錯式跨模態(tài)理解與生成全套解決方案

作者:Wei Chow、Jiachun Pan等

解讀:AI生成未來

亮點直擊

數(shù)據(jù)集創(chuàng)新:WEAVE-100k——首個面向多輪上下文感知圖像理解與生成的大規(guī)模數(shù)據(jù)集。包含10萬個樣本、37萬輪對話和50萬張圖像,全面覆蓋圖像理解、編輯與生成三大任務(wù)。

評估體系構(gòu)建:WEAVEBench是首個面向交錯式多模態(tài)理解與生成任務(wù)的人工標注評測基準。該基準包含100個精心設(shè)計的測試案例,并創(chuàng)新性地采用混合VLM評估框架,系統(tǒng)評估多輪生成、視覺記憶與世界知識推理能力。

實證研究突破:驗證了基于WEAVE-100k的訓(xùn)練能顯著提升模型在傳統(tǒng)基準測試中的性能,并有效激發(fā)視覺記憶能力的涌現(xiàn)。WEAVEBench評估結(jié)果揭示了現(xiàn)有模型在多輪上下文感知生成方面仍存在持續(xù)性的技術(shù)局限。

總結(jié)速覽

解決的問題

核心局限:現(xiàn)有統(tǒng)一多模態(tài)模型的數(shù)據(jù)集和基準測試主要針對單輪交互,無法支撐對多輪次、上下文關(guān)聯(lián)的真實世界圖像創(chuàng)作與編輯過程的研究與評估。

提出的方案

核心方案:推出名為WEAVE的全套解決方案,這是首個面向上下文交錯式跨模態(tài)理解與生成的研究體系。

組成部分

WEAVE-100k:一個包含10萬樣本、37萬輪對話和50萬圖像的大規(guī)模數(shù)據(jù)集,覆蓋需歷史上下文推理的理解、編輯與生成任務(wù)。

WEAVEBench:一個包含100項任務(wù)(基于480張圖像)的人工標注基準測試平臺,用于系統(tǒng)評估模型能力。

應(yīng)用的技術(shù)

混合VLM評估框架:在WEAVEBench中,創(chuàng)新性地結(jié)合參考圖像及 “原圖+編輯指令” 的方式進行綜合評估。

多任務(wù)數(shù)據(jù)集構(gòu)建:在WEAVE-100k數(shù)據(jù)集中,整合了理解、編輯和生成三大任務(wù)維度,并要求模型進行歷史上下文推理。

達到的效果

能力提升:基于WEAVE-100k的訓(xùn)練能有效提升模型的視覺理解、圖像編輯及理解-生成協(xié)同能力,并促進視覺記憶這一新能力的涌現(xiàn)。

評估與發(fā)現(xiàn):WEAVEBench的評估揭示了當前先進模型在多輪上下文感知圖像生成與編輯方面仍存在持續(xù)的技術(shù)局限。

社區(qū)貢獻:為多模態(tài)社區(qū)研究上下文交錯式理解與生成提供了全新的視角和重要的基礎(chǔ)支撐。

WEAVE

為評估上下文交錯式理解與生成能力,首先介紹WEAVE-100k和WEAVEBench的數(shù)據(jù)收集流程,隨后詳述評估設(shè)置與指標,并呈現(xiàn)WEAVE的核心統(tǒng)計數(shù)據(jù)。

數(shù)據(jù)收集

WEAVE-100k 為生成具備視覺記憶能力的豐富多樣數(shù)據(jù),本文構(gòu)建了如下圖3所示的數(shù)據(jù)流水線。該流水線包含四條獨立生成路徑,并經(jīng)過多輪過濾優(yōu)化階段以確保數(shù)據(jù)準確性與質(zhì)量。為生成具有視覺記憶能力的多輪編輯數(shù)據(jù),本文實施了四種方法路徑:(i) 多圖像融合:通過融合編輯后或直接生成的圖像實現(xiàn)歷史迭代參照;(ii) 移除后復(fù)原:采用先移除/替換對象再重新添加的技術(shù),使系統(tǒng)能夠回憶先前刪除的視覺元素;(iii) 衍生想象與比較:在融合前引入推導(dǎo)替代方案或生成新圖像的衍生方法;(iv) 序列化流程:按照敘事進程或結(jié)構(gòu)化編輯操作實施序列化編輯。

WEAVEBench 由具有STEM專業(yè)研究生學(xué)歷的人員進行標注。該基準包含16個任務(wù)類別的100個測試項,既涵蓋需要視覺記憶的多輪編輯任務(wù),也包含需要世界知識(文化背景、物理現(xiàn)象與化學(xué)過程)的挑戰(zhàn)性任務(wù)。如下圖2所示,任務(wù)包括生成涉及東京塔的實例及展示對交通信號反應(yīng)的理解。所使用的圖像包含網(wǎng)絡(luò)采集內(nèi)容以及來自三個模型的合成生成圖像:Seedream 4.0、Nano Banana和 SeedEdit 3.0]。

評估設(shè)置與指標

本文采用VLM-as-judge自動評估框架。為實現(xiàn)聚焦評估,本文采用基于關(guān)鍵點的結(jié)構(gòu)化評分方法:通過混合策略指導(dǎo)VLM同時依據(jù)參考圖像及"原圖+編輯指令"組合進行評估。如下圖5所示,評估器調(diào)用不同圖像作為參照,并根據(jù)預(yù)設(shè)關(guān)鍵點進行評分。

本文的評估包含4項指標(前三項適用于編輯任務(wù),末項適用于理解任務(wù)):

關(guān)鍵點正確性 (KP):衡量編輯后圖像是否滿足指定編輯要求。

視覺一致性 (VC):確保非目標元素保持不變,保持與原始圖像的一致性(場景保留時未編輯區(qū)域完整保留;場景修改時編輯區(qū)域保持風格協(xié)調(diào)),并評估編輯對象的身份保持度。

圖像質(zhì)量 (IQ):評估生成圖像的整體質(zhì)量。

準確率 (Acc):衡量推理結(jié)果的正確性。

數(shù)據(jù)統(tǒng)計

對于WEAVE中的每個實例,本文提供文本提示、一張或多張初始圖像以及真實示例。測試集還包含正確輸出圖像必須滿足的關(guān)鍵信息。

附錄D提供了代表性數(shù)據(jù)集示例。下表4展示了訓(xùn)練集的關(guān)鍵統(tǒng)計數(shù)據(jù)。大多數(shù)實例包含超過五張圖像,每個實例平均有3.8輪對話。上圖5展示了訓(xùn)練集和測試集的類別分布,顯示出跨數(shù)據(jù)類型的相對均衡分布。

實驗

首先評估了22個模型在WEAVEBench上的表現(xiàn),發(fā)現(xiàn)當前模型在上下文交錯生成方面存在困難,且隨著內(nèi)容長度增加出現(xiàn)性能下降。隨后,本文通過微調(diào)Bagel驗證了WEAVE-100k的高質(zhì)量特性。最后進行了質(zhì)量分析并評估了評判器的有效性。

WEAVEBench

設(shè)置。 如下表2所示,本文在WEAVEBench上評估了4個LLM、7個編輯模型和11個UMM。評估在三種不同的上下文條件下進行:(1) 無上下文(無上下文信息的單輪生成),(2) 部分上下文(僅使用自生成圖像及明確提及的視覺上下文,排除其他歷史交互),(3) 完整上下文(可見所有先前交互)。對于圖像放置,本文采用兩種配置:"首次提及"(圖像出現(xiàn)在首次提及位置)和"前置集中"(所有圖像整合在輸入開頭),下表2報告了后者的結(jié)果。對于無法處理序列格式輸入的模型,本文按照先前工作[19,89]的方法實施了拼接方案。

根據(jù)表中結(jié)果,本文得出以下結(jié)論: 上下文圖像生成仍具挑戰(zhàn)性。測試模型中,表現(xiàn)最佳的編輯模型和UMM方法分別僅獲得0.68和0.767的最高分。此外觀察到顯著的領(lǐng)域偏差,創(chuàng)意圖像領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于科學(xué)和邏輯領(lǐng)域。這表明生成能力在有效整合世界知識方面仍有較大提升空間。

上下文使用至關(guān)重要 (a) 對于理解任務(wù),使用上下文信息相比無歷史上下文的基線條件帶來顯著性能提升。如下圖6(a)所示,QwenVL表現(xiàn)出163%的顯著提升,表明WEAVEBench成功將歷史信息納入模型評估。(b) 對于生成任務(wù),增加上下文內(nèi)容對不同模型類型產(chǎn)生分化效應(yīng)。開源模型隨著歷史上下文增加出現(xiàn)性能逐步下降——Qwen-Edit分別出現(xiàn)5.3%和8.6%的性能遞減。這表明受單輪編輯能力限制的開源模型,在處理擴展上下文信息時定位精度下降,因而無法有效利用上下文數(shù)據(jù)。相反,Nano等閉源模型表現(xiàn)出漸進式改進,表明其成功利用了上下文信息。(c) WEAVEBench展現(xiàn)優(yōu)異圖像質(zhì)量。如下圖6(b)所示,采用WEAVEBench真實圖像作為上下文示例使所有模型性能提升。值得注意的是,Qwen-Image-Edit表現(xiàn)出7.1%的顯著提升,這可能源于其生成能力相對nano-banana[21]固有較弱。

序列輸入優(yōu)勢。 如上圖6(c)所示,序列圖像輸入相比拼接輸入展現(xiàn)出顯著性能優(yōu)勢。該效應(yīng)在Bagel模型中尤為突出,拼接輸入導(dǎo)致10.3%的性能下降。這些發(fā)現(xiàn)凸顯了UMM作為有效編輯模型的潛力,特別是考慮到傳統(tǒng)編輯模型無法直接處理多圖像和歷史信息作為輸入。

WEAVE-100k訓(xùn)練

為驗證數(shù)據(jù)的有效性,本文在Bagel上進行實驗。在四類任務(wù)上實現(xiàn)性能提升: (i) 視覺理解。 本文的數(shù)據(jù)有效提升理解任務(wù)性能,尤其在MMMU上獲得9.8%的提升。(ii) 圖像編輯。如下表3所示,微調(diào)后的Bagel在GEditBench上總分提升4.8%。該模型在多數(shù)任務(wù)中超越基線版本,材質(zhì)變更和風格變更類別提升尤為顯著,分別達到13.4%和15.6%。(iii) 理解與生成協(xié)同。上表4顯示,微調(diào)后Bagel在RISE認知任務(wù)中實現(xiàn)顯著提升。空間推理和邏輯推理任務(wù)均呈現(xiàn)100%的性能增長,表明微調(diào)后模型能更有效利用理解能力和世界知識來增強生成過程。這些發(fā)現(xiàn)印證了WEAVE-100k方法的高質(zhì)量特性。(iv) 交錯式跨模態(tài)理解與生成。如表2所示,本文的微調(diào)模型在WEAVEBench上相比Bagel提升42.5%。在更具挑戰(zhàn)性的科學(xué)問題上表現(xiàn)提升34.6%,表明使用本數(shù)據(jù)集訓(xùn)練顯著增強了模型的交錯式跨模態(tài)理解與生成能力。

質(zhì)量分析

如下圖7所示,通過質(zhì)量結(jié)果分析本文得出以下結(jié)論:(i) 指令遵循能力仍需提升。例如圖中左側(cè)案例,OmniGen和Ovis未能正確執(zhí)行生成;右側(cè)案例第三列顯示Qwen-Image-Edit僅生成塔樓而未包含任何人像。(ii) 基于weave數(shù)據(jù)集的微調(diào)催生了視覺記憶能力。微調(diào)模型在左側(cè)案例中正確區(qū)分穿粉色和黃色衣服的主角,在右側(cè)案例中展現(xiàn)出先移除人像再重新整合的能力。

評判器使用的可靠性

為評估VLM-as-a-judge評分的可靠性,開展了專家評估研究,邀請三位人類專家對Nano-banana、Qwen-Image-Edit和SeeDream模型進行交叉評估,每個模型分析100個實例。通過計算GPT-4.1評分與專家評分之間的皮爾遜相關(guān)系數(shù),并與Claude Opus 4.1評估結(jié)果進行對比分析(上圖6)。結(jié)果表明:GPT-4.1與人類評分的相關(guān)性持續(xù)超過0.8,而Claude評估則展現(xiàn)出強大的跨VLM一致性,這說明VLM評估器的具體選擇對評估結(jié)果影響甚微。

結(jié)論

WEAVE——首個面向上下文交錯式跨模態(tài)理解與生成的綜合套件。推出了包含10萬樣本、37萬對話輪次和50萬圖像的大規(guī)模數(shù)據(jù)集WEAVE-100k,以及由100項任務(wù)(含480張圖像)構(gòu)成、配備混合VLM評判器評估框架的人工標注基準WEAVEBench。實驗表明,基于WEAVE-100k的訓(xùn)練在多個權(quán)威基準上取得顯著提升:MMMU提升9.8%,GEditBench提升4.8%,同時促進了UMM中視覺記憶能力的涌現(xiàn)。與此同時,WEAVEBench的廣泛評估揭示當前模型在多輪上下文感知生成方面仍存在困難,尤其在內(nèi)容長度增加時表現(xiàn)更為明顯。此外,這項挑戰(zhàn)性任務(wù)已被證明超出傳統(tǒng)編輯模型的能力范圍。WEAVE為上下文交錯式多模態(tài)理解與生成研究奠定了基石,并凸顯了該領(lǐng)域發(fā)展的迫切必要性。

參考文獻

[1] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

       原文標題 : 新加坡國立等發(fā)布WEAVE:首個上下文交錯式跨模態(tài)理解與生成全套解決方案

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號