訂閱
糾錯
加入自媒體

主題一致超越所有開源與商業(yè)模型!中科大&字節(jié)開源統(tǒng)一創(chuàng)新框架BindWeave

作者:Zhaoyang Li等

解讀:AI生成未來

亮點(diǎn)直擊

BindWeave:針對現(xiàn)有視頻生成技術(shù)在主題一致性方面的瓶頸,提出了一個專為主題一致性視頻生成設(shè)計的新型框架。

引入多模態(tài)大語言模型作為深度指令解析器。 使用MLLM替代傳統(tǒng)的淺層融合機(jī)制,實(shí)現(xiàn)了深度跨模態(tài)語義關(guān)聯(lián)。

構(gòu)建統(tǒng)一交織序列與隱狀態(tài)生成機(jī)制。將參考圖像與文本提示整合成統(tǒng)一序列,有效銜接高層語義解析與擴(kuò)散生成過程。

多模態(tài)條件融合機(jī)制。 形成高層推理+語義身份+底層細(xì)節(jié)的協(xié)同條件機(jī)制,全面提升生成質(zhì)量。

在opens2v上,通過主題一致性、時序自然度、文本-視頻對齊等全面評估;在主題一致性視頻生成任務(wù)中持續(xù)超越所有現(xiàn)有開源與商業(yè)模型,達(dá)到SOTA。

展示出廣泛的科研與商業(yè)應(yīng)用潛力。

總結(jié)速覽

效果一覽

單人:

多人:

人+實(shí)體:

解決的問題

1. 核心瓶頸: 現(xiàn)有視頻生成模型難以解析和理解提示詞中復(fù)雜的空間關(guān)系、時序邏輯和多主體交互。

2 .具體缺陷: 導(dǎo)致生成的視頻在主題一致性上表現(xiàn)不足,即無法在視頻中穩(wěn)定、準(zhǔn)確地保持特定主體的身份、屬性和相互關(guān)系。

提出的方案

核心框架: 提出了一個名為 BindWeave 的統(tǒng)一創(chuàng)新框架。

核心思路:多模態(tài)大語言模型(MLLM) 作為智能指令解析器,取代傳統(tǒng)的淺層融合機(jī)制,實(shí)現(xiàn)對提示詞的深度語義理解與跨模態(tài)關(guān)聯(lián)。

實(shí)現(xiàn)路徑:

構(gòu)建統(tǒng)一序列: 將參考圖像和文本提示整合成交織序列輸入MLLM。

深度解析與綁定: 利用MLLM解析復(fù)雜時空關(guān)系,將文本指令錨定到具體視覺實(shí)體,并生成編碼了主體身份和交互關(guān)系的“主題感知隱狀態(tài)”。

多條件協(xié)同生成: 將上述隱狀態(tài)與參考圖像的CLIP特征(強(qiáng)化語義錨定)和VAE特征(保留細(xì)節(jié))共同作為條件,輸入到基于擴(kuò)散Transformer(DiT) 的生成器中,指導(dǎo)視頻生成。

應(yīng)用的技術(shù)

多模態(tài)大語言模型(MLLM): 作為核心的深度跨模態(tài)推理引擎。

擴(kuò)散Transformer(DiT): 作為基礎(chǔ)的視頻生成骨干模型。

多源條件融合機(jī)制: 創(chuàng)新性地融合了三種條件信號:

MLLM輸出的隱狀態(tài)(提供高層推理和交互關(guān)系)。

CLIP圖像特征(提供語義層面的身份錨定)。

VAE圖像特征(提供像素級別的外觀細(xì)節(jié))。

基準(zhǔn)數(shù)據(jù)集: 在細(xì)粒度的 OpenS2V 基準(zhǔn)上進(jìn)行評測。

達(dá)到的效果

性能卓越:OpenS2V 基準(zhǔn)測試中,在主題一致性、時序自然度和文本-視頻對齊等關(guān)鍵指標(biāo)上均取得了優(yōu)越性能。

業(yè)界領(lǐng)先: 全面超越了現(xiàn)有的主流開源方法和商業(yè)模型,達(dá)到了最先進(jìn)的性能水平。

質(zhì)量優(yōu)異: 定性結(jié)果(圖示)表明,生成的視頻樣本具有極高的保真度主題一致性。

應(yīng)用潛力: 展現(xiàn)出在科研和商業(yè)視頻生成領(lǐng)域的巨大應(yīng)用潛力。

方法

架構(gòu)設(shè)計

本文提出的BindWeave旨在克服主題一致性視頻生成中淺層融合范式的局限性。該方法的核心原理是在生成過程開始前,通過深度推理理解多模態(tài)輸入來替代淺層的事后融合。為此,BindWeave首先利用多模態(tài)大語言模型作為智能指令解析器。該MLLM通過生成引導(dǎo)范式——具體實(shí)現(xiàn)為編碼復(fù)雜跨模態(tài)語義和時空邏輯的隱狀態(tài)序列,進(jìn)而在整個合成過程中精確指導(dǎo)擴(kuò)散Transformer。下圖2展示了BindWeave架構(gòu)的示意圖。

基于MLLM的智能指令規(guī)劃

為有效促進(jìn)文本提示與參考圖像間的跨模態(tài)聯(lián)合學(xué)習(xí),本文引入了統(tǒng)一的多模態(tài)解析策略。給定文本提示和個用戶指定的主體(每個主體對應(yīng)參考圖像),本文通過在每個文本提示后追加圖像占位符來構(gòu)建多模態(tài)序列。隨后向MLLM提供該序列及對應(yīng)的圖像列表:

其中img是MLLM內(nèi)部與第k張圖像對齊的特殊占位符標(biāo)記。這種保留文本描述與其對應(yīng)視覺主體間關(guān)鍵上下文聯(lián)系的統(tǒng)一表示,隨后被輸入到預(yù)訓(xùn)練的MLLM中。通過處理多模態(tài)輸入,MLLM生成隱狀態(tài)序列,該序列體現(xiàn)了對場景的高層推理,有效將文本指令與其特定視覺身份進(jìn)行綁定:

為使凍結(jié)MLLM與擴(kuò)散模型的特征空間對齊,這些隱狀態(tài)通過可訓(xùn)練的輕量級連接器進(jìn)行投影,從而生成特征對齊的條件:

雖然這個由MLLM衍生的條件提供了寶貴的高層跨模態(tài)推理信息,但本文認(rèn)識到擴(kuò)散模型也經(jīng)過高度優(yōu)化以解析細(xì)粒度的文本語義。為提供這種互補(bǔ)信號,本文使用T5文本編碼器對原始提示進(jìn)行獨(dú)立編碼,以生成專用的文本嵌入:

本文隨后將這兩個互補(bǔ)流進(jìn)行拼接,形成最終的關(guān)系條件信號:

這個復(fù)合信號不僅封裝了顯式的文本指令,還包含了對主體交互和時空邏輯的深度推理,為后續(xù)生成階段奠定了堅實(shí)基礎(chǔ)。

集體條件化視頻擴(kuò)散

在指令規(guī)劃過程中,本文將有用的語義信息整合到中,F(xiàn)在需要將作為條件注入DiT模塊以指導(dǎo)視頻生成。本文的生成骨干網(wǎng)絡(luò)在預(yù)訓(xùn)練時空變分自編碼器的潛在空間中運(yùn)行。為確保高保真度和一致的視頻生成,本文采用集體條件化機(jī)制來協(xié)同整合多路信息。如前文所述,本文的集體條件化機(jī)制同樣在兩個協(xié)同層級運(yùn)行:條件化時空輸入和交叉注意力機(jī)制。

為保持參考圖像的細(xì)粒度外觀細(xì)節(jié),本文設(shè)計了自適應(yīng)多參考條件化策略(如下圖3所示)。

具體而言,本文將參考圖像編碼為低級VAE特征,記為。由于主題視頻生成與圖像到視頻生成存在差異,參考圖像不被視為實(shí)際視頻幀。本文首先擴(kuò)展含噪視頻潛在表示的時間軸,用零填充個額外位置:。隨后將參考圖像的VAE特征放置在這個填充的時間位置上(其余位置為零),并沿通道維度拼接相應(yīng)的二值掩碼以強(qiáng)調(diào)主體區(qū)域。通過通道維度拼接后經(jīng)塊嵌入處理,得到DiT模塊的最終輸入:

其中和在個填充時間槽之外為零,并僅在這些槽內(nèi)攜帶參考條件。這種設(shè)計保持了原始視頻的時間完整性,同時通過通道級條件化注入了細(xì)粒度外觀和主體增強(qiáng)信息。

隨后,高層語義引導(dǎo)通過交叉注意力層注入。這涉及兩個不同的信號:來自MLLM的關(guān)系條件用于場景構(gòu)圖,以及CLIP圖像特征用于主體身份。在每個DiT塊內(nèi),演化的視頻令牌生成查詢向量。條件信號和被投影形成各自的鍵值矩陣。注意力層的最終輸出是這些信息流的求和,擴(kuò)展了公式4:

其中和分別通過線性投影層從和推導(dǎo)得出。通過以這種結(jié)構(gòu)化方式整合高層關(guān)系推理、語義身份引導(dǎo)和底層外觀細(xì)節(jié),BindWeave有效引導(dǎo)擴(kuò)散過程生成不僅視覺上忠實(shí)于主體,而且在邏輯和語義上與復(fù)雜用戶指令保持一致的頻。

訓(xùn)練與推理

訓(xùn)練設(shè)置:遵循前文所述的修正流公式,本文的模型被訓(xùn)練用于預(yù)測真實(shí)速度場。BindWeave的整體訓(xùn)練目標(biāo)可表述為模型輸出與之間的均方誤差:

本文的訓(xùn)練數(shù)據(jù)選自公開可用的500萬規(guī)模OpenS2V-5M數(shù)據(jù)集。通過一系列過濾策略,最終提煉出約100萬個高質(zhì)量視頻-文本對。隨后基于該數(shù)據(jù)采用兩階段課程學(xué)習(xí)策略進(jìn)行訓(xùn)練。所有訓(xùn)練過程均在512個xPU上開展,全局批大小為512,使用恒定學(xué)習(xí)率5e-6和AdamW優(yōu)化器。初始穩(wěn)定階段持續(xù)約1000次迭代,使用從100萬數(shù)據(jù)中精選的優(yōu)質(zhì)代表性子集。該階段對于使模型適應(yīng)主題到視頻任務(wù)的特定需求至關(guān)重要,主要側(cè)重于學(xué)習(xí)在保持主體視覺身份真實(shí)性的同時使其與文本運(yùn)動指令對齊,為后續(xù)大規(guī)模訓(xùn)練奠定堅實(shí)基礎(chǔ)。隨后訓(xùn)練轉(zhuǎn)入全面階段并持續(xù)5000次迭代,模型在此階段接觸全部100萬精選數(shù)據(jù)。第二階段使模型能在穩(wěn)定基礎(chǔ)上進(jìn)一步擴(kuò)展,通過更廣泛的高質(zhì)量樣本學(xué)習(xí),顯著提升生成能力與泛化性能。

推理設(shè)置:在推理過程中,本文的BindWeave可接受靈活數(shù)量的參考圖像(通常為1-4張),同時通過文本提示描述目標(biāo)場景與行為來引導(dǎo)生成。與Phantom方法類似,本文在推理時使用提示詞改寫器以確保文本準(zhǔn)確描述所提供的參考圖像。生成過程采用修正流軌跡執(zhí)行50步采樣,并通過尺度因子為的無分類器引導(dǎo)技術(shù)進(jìn)行指導(dǎo)。每一步的引導(dǎo)噪聲估計量計算如下:

其中是基于提示的條件噪聲預(yù)測,是無條件預(yù)測。該估計值隨后由調(diào)度器用于推導(dǎo)。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

基準(zhǔn)與評估指標(biāo):為確保公平比較,采用OpenS2V-Eval基準(zhǔn)并遵循其官方評估協(xié)議,該協(xié)議對主題到視頻生成進(jìn)行主題一致性和身份保真度的細(xì)粒度評估。該基準(zhǔn)包含七個不同類別的180個提示,涵蓋從單一主體到多主體及人-物交互的場景。為量化性能,本文報告該協(xié)議的自動化指標(biāo),所有指標(biāo)分?jǐn)?shù)越高代表結(jié)果越好。這些指標(biāo)包括衡量視覺吸引力的美學(xué)評分、時序平滑度的運(yùn)動平滑度、運(yùn)動幅度的運(yùn)動幅度以及身份保持的面部相似度。本文還使用了OpenS2V-Eval引入的三個與人類感知高度相關(guān)的指標(biāo):主題一致性的NexusScore、自然度的NaturalScore和文本-視頻相關(guān)性的GmeScore。

實(shí)現(xiàn)細(xì)節(jié):BindWeave基于DiT架構(gòu)的基礎(chǔ)視頻生成模型進(jìn)行微調(diào)。本評估不包括文本到視頻和圖像到視頻的預(yù)訓(xùn)練階段。對于核心指令規(guī)劃模塊,本文采用Qwen2.5-VL-7B作為多模態(tài)大語言模型。為使多模態(tài)控制信號與DiT條件空間對齊,本文引入了輕量級連接器來投影Qwen2.5-VL的隱狀態(tài)。具體而言,該連接器采用具有GELU激活函數(shù)的雙層MLP結(jié)構(gòu)。本文使用Adam優(yōu)化器訓(xùn)練模型,學(xué)習(xí)率為5e-6,全局批大小為512。為減輕復(fù)制粘貼偽影,本文對參考圖像應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù)。在推理過程中,本文使用50步去噪,并將無分類器引導(dǎo)尺度設(shè)置為5。

基線方法:將BindWeave與最先進(jìn)的視頻定制方法進(jìn)行比較,包括開源方法和商業(yè)產(chǎn)品。

定量結(jié)果

本文在OpenS2V-Eval基準(zhǔn)上進(jìn)行了全面比較,如下表1所示,跨多種場景提供了廣泛而嚴(yán)格的評估。遵循基準(zhǔn)協(xié)議,每種方法生成180個視頻進(jìn)行評估以確保統(tǒng)計可靠性并覆蓋所有類別。本文報告了前文所述的八項(xiàng)自動指標(biāo)以確保全面評估,從而統(tǒng)一捕捉視覺質(zhì)量、時序行為和語義對齊。如下表1所示,BindWeave在總體得分上達(dá)到了新的SOTA,其中NexusScore顯著領(lǐng)先,凸顯了其在主題一致性方面的優(yōu)勢。值得注意的是,NexusScore旨在解決先前全局幀CLIP或DINO比較的局限性,提供基于語義且抗噪聲的評估,能更好反映感知身份保真度。它通過檢測后比較策略實(shí)現(xiàn)這一目標(biāo):首先定位真實(shí)目標(biāo),裁剪相關(guān)區(qū)域以抑制背景干擾,然后在基于檢索的多模態(tài)特征空間中計算相似度,最后聚合已驗(yàn)證裁剪區(qū)域的得分以獲得可靠總結(jié)。重要的是,BindWeave在其他指標(biāo)上也保持強(qiáng)勁競爭力,包括面部相似度、美學(xué)評分、GmeScore、運(yùn)動相關(guān)指標(biāo)以及自然度,這些分別反映了其在身份保持、視覺吸引力、文本-視頻對齊、時序連貫性與運(yùn)動幅度以及跨廣泛提示和類別的整體自然度方面的優(yōu)勢。

定性結(jié)果

為清晰展示本文方法的有效性,在下圖4和下圖5中呈現(xiàn)了一些典型的主題到視頻場景,包括單人體到視頻、人-物到視頻、單物體到視頻和多實(shí)體到視頻。如下圖4左面板所示,Vidu、Pika、Kling和Hailuo等商業(yè)模型能生成視覺吸引人的視頻,但在主題一致性方面存在困難。在開源方法中,SkyReel-A2在主題一致性上相對具有競爭力,但其整體視覺美學(xué)落后于本文的BindWeave。VACE和Phantom同樣表現(xiàn)出較弱的主題一致性。在下圖4右面板中,本文的方法實(shí)現(xiàn)了顯著更優(yōu)的主題一致性、文本對齊和視覺質(zhì)量。如下圖5左面板所示,在單物體到視頻場景中,Vidu和Pika等商業(yè)模型仍表現(xiàn)出明顯的物理和語義合理性違反——本文將其總結(jié)為“常識違反”。Kling實(shí)現(xiàn)了強(qiáng)大的視覺美學(xué)但主題一致性較差。SkyReels-A2顯示出嚴(yán)重失真和同樣薄弱的主題一致性,Phantom也難以保持主題一致性。在基線方法中,VACE能較好保持主題一致性但運(yùn)動連貫性和自然度有限。相比之下,本文的BindWeave在提供強(qiáng)大主題一致性的同時,還實(shí)現(xiàn)了自然連貫的運(yùn)動。值得注意的是,在下圖5右面板所示的多對象和復(fù)雜指令設(shè)置下,Vidu和Pika等方法經(jīng)常遺漏關(guān)鍵提示,Kling表現(xiàn)出嚴(yán)重的物理不合理性,MAGREF未能保持主題一致性;其他基線方法也忽略了關(guān)鍵提示細(xì)節(jié)。相比之下,本文的結(jié)果在保持強(qiáng)大主題一致性的同時呈現(xiàn)出細(xì)粒度細(xì)節(jié)。本文將此歸因于BindWeave通過MLLM顯式整合參考圖像和文本提示的跨模態(tài)能力,能聯(lián)合解析實(shí)體、屬性和對象間關(guān)系。因此,BindWeave保留了微妙而關(guān)鍵的細(xì)節(jié),并構(gòu)建統(tǒng)一、時序一致的場景規(guī)劃以指導(dǎo)連貫生成。這種深度跨模態(tài)整合可靠地強(qiáng)化了關(guān)鍵提示元素,并為多實(shí)體交互嵌入基本物理常識,從而減少不合理結(jié)果。

消融研究

本文對結(jié)合MLLM與T5派生信號以指導(dǎo)DiT生成的控制條件化機(jī)制進(jìn)行消融實(shí)驗(yàn)。比較了僅使用T5的基線方案與本文的T5+Qwen2.5-VL組合方案。值得注意的是,僅使用MLLM的方案在訓(xùn)練過程中不穩(wěn)定且未能收斂,因此未納入定量分析。如下表2所示,T5+Qwen2.5-VL組合在美學(xué)質(zhì)量、運(yùn)動表現(xiàn)、自然度及文本相關(guān)性方面均持續(xù)優(yōu)于僅T5方案。下圖6的定性對比進(jìn)一步驗(yàn)證了這一發(fā)現(xiàn):當(dāng)參考圖像存在尺度失配時,僅T5基線傾向于生成不真實(shí)的主體尺寸,且在復(fù)雜指令下經(jīng)常錯誤解析動作-對象關(guān)系,而T5+Qwen2.5-VL組合能保持準(zhǔn)確 grounding 并執(zhí)行預(yù)期交互。本文將這些提升歸因于互補(bǔ)條件化機(jī)制——MLLM提供多模態(tài)的身份與關(guān)系感知線索以消除主體歧義并提升時序連貫性,而T5則提供精確的語言 grounding 以穩(wěn)定優(yōu)化過程。兩者的拼接為DiT產(chǎn)生了更豐富可靠的控制信號。

結(jié)論

BindWeave——一個新穎的主題一致性視頻生成框架,通過顯式跨模態(tài)整合技術(shù)在單主體與多主體場景中生成具備一致性、文本對齊且視覺吸引力的視頻。通過采用MLLM深度融合參考圖像與文本提示信息以促進(jìn)聯(lián)合學(xué)習(xí),BindWeave有效建模實(shí)體身份、屬性及關(guān)系,從而實(shí)現(xiàn)細(xì)粒度 grounding 與強(qiáng)健的主體保持能力。實(shí)證結(jié)果表明,BindWeave已完整掌握跨模態(tài)融合知識,能夠生成高保真度的主題一致性視頻。在OpenS2V基準(zhǔn)測試中,BindWeave實(shí)現(xiàn)了最先進(jìn)的性能表現(xiàn),超越現(xiàn)有開源方案與商業(yè)模型,充分彰顯其技術(shù)優(yōu)勢。總體而言,BindWeave為主題視頻生成任務(wù)提供了全新視角,并為未來在一致性、真實(shí)感與可控性方面的突破指明了方向。

參考文獻(xiàn)

[1] BINDWEAVE: SUBJECT-CONSISTENT VIDEO GENERATION VIA CROSS-MODAL INTEGRATION

原文標(biāo)題 : 主題一致超越所有開源與商業(yè)模型!中科大&字節(jié)開源統(tǒng)一創(chuàng)新框架BindWeave

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號