訂閱
糾錯(cuò)
加入自媒體

告別文字想象!快手可靈團(tuán)隊(duì)開源VANS:實(shí)現(xiàn)從“語言描述”到“動(dòng)態(tài)演示”跨越,多項(xiàng)SOTA

作者:Junhao Cheng等

解讀:AI生成未來

亮點(diǎn)直擊

開創(chuàng)VNEP新范式:將下一代事件推理從文本描述推進(jìn)到動(dòng)態(tài)視頻演示的新階段。

提出VANS框架及核心Joint-GRPO策略:通過強(qiáng)化學(xué)習(xí)與聯(lián)合獎(jiǎng)勵(lì)機(jī)制協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型,生成兼具語義準(zhǔn)確性和視覺連貫性的視頻答案。

構(gòu)建VANS-Data-100K數(shù)據(jù)集:包含10萬組(輸入視頻,問題,輸出視頻)三元組,為VNEP任務(wù)的模型訓(xùn)練與評(píng)估提供專門數(shù)據(jù)支撐。

總結(jié)速覽

解決的問題

模態(tài)局限:下一代事件預(yù)測(cè)任務(wù)長期依賴文本描述作為答案,無法利用視頻“展示”的直觀優(yōu)勢(shì)來傳達(dá)復(fù)雜的物理世界信息。

任務(wù)挑戰(zhàn):視頻化的下一代事件預(yù)測(cè)任務(wù)要求模型同時(shí)具備多模態(tài)輸入理解、指令條件推理以及生成視覺和語義一致的視頻的能力,這對(duì)現(xiàn)有模型構(gòu)成巨大挑戰(zhàn)。

協(xié)同困難:如何讓視覺語言模型生成的描述既準(zhǔn)確又易于可視化,同時(shí)讓視頻擴(kuò)散模型生成的視頻既能忠實(shí)于描述又能契合輸入視覺上下文,二者難以有效協(xié)同。

提出的方案

新任務(wù)范式:開創(chuàng)了視頻化下一代事件預(yù)測(cè)任務(wù),將答案模態(tài)從文本升級(jí)為動(dòng)態(tài)視頻。

核心框架:提出了VANS模型,通過強(qiáng)化學(xué)習(xí)將視覺語言模型與視頻擴(kuò)散模型進(jìn)行融合。

關(guān)鍵算法:設(shè)計(jì)了聯(lián)合分組相對(duì)策略優(yōu)化作為VANS的核心訓(xùn)練策略,通過聯(lián)合獎(jiǎng)勵(lì)協(xié)同優(yōu)化兩個(gè)模型。

數(shù)據(jù)支撐:構(gòu)建了VANS-Data-100K專用數(shù)據(jù)集,為模型訓(xùn)練與評(píng)估提供支持。

應(yīng)用的技術(shù)

視覺語言模型:用于理解多模態(tài)輸入(視頻和問題)并生成中間描述。

視頻擴(kuò)散模型:用于根據(jù)視覺語言模型的描述和輸入視覺語境生成視頻。

強(qiáng)化學(xué)習(xí):特別是聯(lián)合分組相對(duì)策略優(yōu)化算法,用于對(duì)齊和協(xié)同優(yōu)化視覺語言模型與視頻擴(kuò)散模型。

共享獎(jiǎng)勵(lì)機(jī)制:驅(qū)動(dòng)聯(lián)合分組相對(duì)策略優(yōu)化過程,確保兩個(gè)模型為共同目標(biāo)(生成高質(zhì)量視頻答案)而努力。

達(dá)到的效果

突破性性能:在流程性與預(yù)測(cè)性基準(zhǔn)測(cè)試上,VANS在視頻事件預(yù)測(cè)與可視化兩方面均實(shí)現(xiàn)了突破性(state-of-the-art)性能。

高質(zhì)量輸出:生成的視頻答案兼具語義忠實(shí)性(準(zhǔn)確反映預(yù)測(cè)事件)和視覺連貫性(與輸入上下文保持一致)。

有效協(xié)同:通過聯(lián)合分組相對(duì)策略優(yōu)化,成功使視覺語言模型生成“易于可視化”的描述,并指導(dǎo)視頻擴(kuò)散模型生成“貼合描述與語境”的視頻。VANS-Data-100K

現(xiàn)有NEP數(shù)據(jù)集因視頻質(zhì)量欠佳和缺乏多樣化指令性問題,無法直接適用于VNEP任務(wù)。為彌補(bǔ)這一空白,本文構(gòu)建了VANS-Data-100K數(shù)據(jù)集,包含3萬個(gè)流程性樣本和7萬個(gè)預(yù)測(cè)性樣本。每個(gè)樣本均包含輸入視頻、問題及多模態(tài)答案(文本與視頻),專為VNEP任務(wù)定制。如下圖3所示,本文的數(shù)據(jù)構(gòu)建流程包含四個(gè)階段。

原始數(shù)據(jù)收集。 從兩個(gè)不同來源收集數(shù)據(jù)以覆蓋流程性與預(yù)測(cè)性場景:流程性數(shù)據(jù)采用COIN和YouCook2的高清視頻以確保步驟演示的清晰度;預(yù)測(cè)性數(shù)據(jù)則采集自通用場景數(shù)據(jù)集和短片,這些資源富含敘事性與因果動(dòng)態(tài)。

鏡頭分割。 將原始視頻分割為連貫片段:流程性視頻采用真實(shí)時(shí)間戳進(jìn)行分割,預(yù)測(cè)性視頻則使用鏡頭邊界檢測(cè)模型。本文過濾掉短于3秒的片段以確保動(dòng)作完整性。

片段篩選。 采用Gemini-2.5-Flash作為自動(dòng)質(zhì)量過濾器篩選最優(yōu)3-5秒片段:對(duì)于流程性數(shù)據(jù),選擇與給定字幕最匹配的片段;對(duì)于預(yù)測(cè)性數(shù)據(jù),首先生成每個(gè)片段的詳細(xì)字幕,確保所選片段兼具高質(zhì)量與語義代表性。

問答對(duì)生成。 使用Gemini-2.5-Flash基于視頻-字幕序列生成問答對(duì)。該VLM模擬多樣化問題——聚焦流程性任務(wù)的邏輯下一步驟與預(yù)測(cè)性任務(wù)的假設(shè)性場景,同時(shí)生成思維鏈推理與真實(shí)答案,并通過自檢機(jī)制確保邏輯嚴(yán)謹(jǐn)性且避免信息泄露。更多數(shù)據(jù)集細(xì)節(jié)見附錄A。

VANS

下圖4展示了VANS的整體架構(gòu)。輸入問題經(jīng)令牌化后,與輸入視頻的高級(jí)ViT視覺特征共同輸入VLM。本文要求VLM執(zhí)行基于指令的推理,生成描述預(yù)測(cè)下一事件的文本字幕,作為VDM的語義引導(dǎo)。為確保視覺一致性,VDM同時(shí)以生成的字幕和低級(jí)視覺線索為條件——后者通過VAE對(duì)n個(gè)采樣輸入幀進(jìn)行令牌化提取,隨后將這些令牌拼接至VDM的條件潛在空間。該設(shè)計(jì)在生成新場景時(shí)能保持細(xì)粒度視覺對(duì)應(yīng)關(guān)系。

此架構(gòu)存在根本性局限:VLM與VDM被獨(dú)立優(yōu)化。 VLM以文本準(zhǔn)確性為訓(xùn)練目標(biāo),但未獲知其描述是否能生成視覺合理視頻的反饋;反之,VDM需協(xié)調(diào)兩個(gè)條件信號(hào)(VLM的特定字幕與輸入視覺上下文)。雖然SFT賦予VDM基礎(chǔ)能力,但要實(shí)現(xiàn)語義準(zhǔn)確性與視覺保真度的持續(xù)穩(wěn)定表現(xiàn)仍需進(jìn)一步優(yōu)化。這種割裂導(dǎo)致語義-視覺鴻溝,使兩個(gè)模型在互不知曉對(duì)方約束與能力的情況下運(yùn)作。為此,本文提出Joint-GRPO將兩個(gè)模型協(xié)調(diào)為VNEP的有機(jī)整體。

GRPO基礎(chǔ)

GRPO是一種旨在將模型輸出與人類偏好或復(fù)雜目標(biāo)對(duì)齊的RL算法。其核心思想是通過獎(jiǎng)勵(lì)函數(shù)評(píng)估生成樣本質(zhì)量,進(jìn)而調(diào)整模型策略以增加高獎(jiǎng)勵(lì)生成概率。對(duì)于每個(gè)輸入上下文,策略模型生成一組條軌跡,每條軌跡獲得反映其質(zhì)量的獎(jiǎng)勵(lì)。GRPO計(jì)算歸一化優(yōu)勢(shì)度以衡量各軌跡相對(duì)于組平均水平的優(yōu)劣程度:

策略模型隨后通過以下GRPO目標(biāo)函數(shù)進(jìn)行優(yōu)化:

其中  表示第  條軌跡的概率比。剪切機(jī)制與KL散度項(xiàng)通過防止策略劇烈更新來確保訓(xùn)練穩(wěn)定性。

聯(lián)合GRPO

標(biāo)準(zhǔn)GRPO雖在單模型對(duì)齊中表現(xiàn)有效,但在VNEP等多模型場景中存在根本性局限:其以孤立方式優(yōu)化模型。將其分別應(yīng)用于VLM和VDM無法彌合語義-視覺鴻溝,因其未激勵(lì)模型輸出形成相互增強(qiáng)效應(yīng)。反之,對(duì)兩模型進(jìn)行單階段聯(lián)合訓(xùn)練也存在問題:當(dāng)生成視頻質(zhì)量較差時(shí),該方法難以判別是VLM的字幕還是VDM的生成過程導(dǎo)致問題,易引發(fā)獎(jiǎng)勵(lì)破解與訓(xùn)練不穩(wěn)定性,從而產(chǎn)生沖突的梯度信號(hào)。

為解決此歸因問題并實(shí)現(xiàn)有效協(xié)同引導(dǎo),提出聯(lián)合GRPO。該方法通過結(jié)構(gòu)化兩階段優(yōu)化流程,利用聯(lián)合獎(jiǎng)勵(lì)函數(shù)協(xié)調(diào)VLM與VDM。本文的核心洞見是:必須協(xié)同引導(dǎo)兩個(gè)模型,使VLM的推理實(shí)現(xiàn)視覺接地以有效指導(dǎo)VDM,同時(shí)VDM的生成需保持對(duì)VLM預(yù)測(cè)與視覺語境的忠實(shí)性。

階段1:可視化友好型VLM調(diào)優(yōu)。  首先將VLM的推理與VDM的生成結(jié)果對(duì)齊。在保持VDM凍結(jié)狀態(tài)下優(yōu)化VLM策略。對(duì)于輸入視頻與問題,從采樣個(gè)文本字幕,每個(gè)字幕由凍結(jié)的VDM生成對(duì)應(yīng)視頻。VLM的聯(lián)合獎(jiǎng)勵(lì)計(jì)算公式為:

其中 , ,  是各獎(jiǎng)勵(lì)項(xiàng)的權(quán)重系數(shù),具體定義如下:

 確保輸出符合指定指令格式:若響應(yīng)遵循"先推理后回答"模板則獎(jiǎng)勵(lì)1分,否則為0。 通過ROUGE-L衡量生成字幕與真實(shí)字幕的語義相似度。 通過CLIP相似度評(píng)估生成視頻與真實(shí)視頻的視覺連貫性。

該復(fù)合獎(jiǎng)勵(lì)旨在引導(dǎo)VLM超越單純的語言正確性。僅依賴會(huì)導(dǎo)致生成語言正確但視覺上不真實(shí)或VDM無法執(zhí)行的字幕;反之,僅使用提供的獎(jiǎng)勵(lì)則過于間接模糊,無法有效指導(dǎo)VLM的推理過程。聯(lián)合獎(jiǎng)勵(lì)引導(dǎo)VLM生成不僅語義準(zhǔn)確、且視覺合理并可供VDM執(zhí)行的字幕,此過程有效促使VLM內(nèi)化VDM的能力與約束。

階段2:上下文忠實(shí)型VDM適配。  基于階段1獲得的視覺接地字幕,本階段通過調(diào)整VDM使其在保持輸入視覺上下文一致性的同時(shí),能忠實(shí)呈現(xiàn)這些字幕,從而解決跨模態(tài)對(duì)齊挑戰(zhàn)。本文以凍結(jié)的VLM作為錨定模型優(yōu)化VDM策略。如下圖5所示,階段1優(yōu)化的"當(dāng)前改進(jìn)版"VLM生成候選錨定字幕(與真實(shí)值語義相似度過低的樣本會(huì)被丟棄并重新生成以確保質(zhì)量),所得語義接地字幕將作為VDM的條件輸入。

隨后從采樣個(gè)輸出視頻。VDM的核心任務(wù)是在語義內(nèi)容引導(dǎo)下,通過動(dòng)態(tài)關(guān)注并保留輸入視頻VAE令牌中的相關(guān)視覺元素(如身份ID、背景),生成符合要求的新場景。其獎(jiǎng)勵(lì)函數(shù)定義為:

其中 ,  為平衡系數(shù),具體定義為:

 保持與輸入視頻的視覺質(zhì)量及連貫性,使用與階段1相同的度量標(biāo)準(zhǔn)。 通過CLIPScore衡量輸出視頻與錨定字幕的語義一致性。

該聯(lián)合獎(jiǎng)勵(lì)設(shè)計(jì)旨在解決跨模態(tài)對(duì)齊的核心挑戰(zhàn): 確保輸出保持視覺合理性與連續(xù)性; 強(qiáng)制VDM嚴(yán)格遵循描述的事件,防止其忽略字幕內(nèi)容而僅對(duì)輸入視頻進(jìn)行重建或輕微修改。

通過這兩階段優(yōu)化,VLM與VDM共同演進(jìn)為協(xié)同工作的有機(jī)整體。各獎(jiǎng)勵(lì)組件的獨(dú)特互補(bǔ)作用及訓(xùn)練獎(jiǎng)勵(lì)曲線詳見附錄B。

實(shí)驗(yàn)

本文通過實(shí)驗(yàn)評(píng)估VANS的有效性,并與前沿解決方案進(jìn)行對(duì)比。

實(shí)驗(yàn)設(shè)置

基準(zhǔn)測(cè)試。 本文從數(shù)據(jù)集中采樣400個(gè)流程性樣本和400個(gè)預(yù)測(cè)性樣本構(gòu)建評(píng)估基準(zhǔn),其源視頻來自成熟基準(zhǔn)數(shù)據(jù)集,如[2,8,51,54]等,以確?煽康恼鎸(shí)文本與視頻答案。評(píng)估集與訓(xùn)練數(shù)據(jù)嚴(yán)格分離,不存在視頻或問題重疊。

評(píng)估指標(biāo)。 遵循[16]的研究,本文采用BELU@1/2/3/4和ROUGE-L 評(píng)估文本預(yù)測(cè)質(zhì)量。對(duì)于視頻,本文使用弗雷歇視頻距離(FVD)、CLIP視頻分?jǐn)?shù)(CLIP-V)↑和CLIP文本分?jǐn)?shù)(CLIP-T)來評(píng)估視覺質(zhì)量與語義對(duì)齊度。

基線模型。 由于現(xiàn)有方法均非為VNEP設(shè)計(jì),本文通過適配相關(guān)領(lǐng)域的頂尖模型建立基線,包括:(1) 視頻擴(kuò)展模型Video-GPT;(2) 由頂尖VLM(Gemini-2.5-Flash、Qwen-2.5-VL-3B及其NEP微調(diào)版TEMPURA)與VDM(Wan-2.1-1.3B、FilmWeaver)組合的級(jí)聯(lián)流程;(3) 統(tǒng)一模型Omni-Video。

實(shí)現(xiàn)細(xì)節(jié)。 本文采用Qwen2.5-VL-3B作為VLM、Wan-2.1-1.3B作為VDM初始化VANS。對(duì)于Video-GPT,本文提供輸入視頻并利用其原生視頻延續(xù)能力。對(duì)于VANS及其他基線方法,本文提供輸入視頻及對(duì)應(yīng)問題以執(zhí)行NVEP。

主要結(jié)果

定量比較。 下表1顯示VANS在所有基線模型中表現(xiàn)優(yōu)異。在流程性基準(zhǔn)測(cè)試中,VANS(聯(lián)合GRPO)獲得0.3631的ROUGE-L分?jǐn)?shù)和0.8021的CLIP-V分?jǐn)?shù),超越最強(qiáng)級(jí)聯(lián)基線(Gemini-FilmWeaver組合的0.2802和0.7102)與統(tǒng)一模型(Omni-Video的0.1075和0.6293)。更重要的是,聯(lián)合GRPO相較SFT版本帶來顯著提升(如ROUGE-L從0.2812升至0.3631,CLIP-V從0.7655升至0.8021),證明了本文聯(lián)合GRPO策略的有效性。視頻擴(kuò)展模型Video-GPT因未進(jìn)行事件推理直接生成幀,獲得最低CLIP-T分?jǐn)?shù)(0.1997)。

定性比較。 如下圖6所示,基線模型常在事件預(yù)測(cè)或視覺一致性方面出現(xiàn)錯(cuò)誤:例如Omni-Video將爭吵誤解為打斗并生成偏離輸入特征的角色;經(jīng)SFT的VANS雖推理能力提升,但仍存在兩個(gè)關(guān)鍵局限——組件級(jí)錯(cuò)誤(如案例1中VLM幻象生成"inreview"等不存在文本)和語義-視覺錯(cuò)位(案例2中指令"添加奶酪"導(dǎo)致傾倒動(dòng)作而非真實(shí)"撒粉"動(dòng)作)。采用聯(lián)合GRPO的VANS則通過精準(zhǔn)字幕"sprinkle cheese"及其符合"撒粉"動(dòng)作的可視化呈現(xiàn),增強(qiáng)了各組件能力并實(shí)現(xiàn)語義-視覺對(duì)齊。

消融實(shí)驗(yàn)

本文通過消融研究驗(yàn)證聯(lián)合GRPO的設(shè)計(jì),結(jié)果呈現(xiàn)在下表2與下圖7中。

聯(lián)合優(yōu)化 vs 孤立優(yōu)化。 聯(lián)合GRPO優(yōu)于僅對(duì)VLM或VDM單獨(dú)應(yīng)用GRPO的變體,也優(yōu)于簡單級(jí)聯(lián)獨(dú)立優(yōu)化版本的方案。這證實(shí)了聯(lián)合優(yōu)化對(duì)生成連貫字幕-視頻的必要性,其中VLM與VDM通過協(xié)同適配彌合了語義-視覺鴻溝。

分階段訓(xùn)練效果。 兩階段設(shè)計(jì)被證明至關(guān)重要:僅使用階段1會(huì)導(dǎo)致字幕和視頻出現(xiàn)語義偏離,而一體化變體則因獎(jiǎng)勵(lì)模糊性引發(fā)優(yōu)化不穩(wěn)定——難以判斷低獎(jiǎng)勵(lì)源于VLM的字幕還是VDM的視頻生成。

獎(jiǎng)勵(lì)組件分析。 進(jìn)一步消融測(cè)試驗(yàn)證了各獎(jiǎng)勵(lì)組件的貢獻(xiàn):在階段1中,移除文本保真獎(jiǎng)勵(lì)會(huì)降低字幕準(zhǔn)確性(如未能預(yù)測(cè)"移除面具"),移除視頻保真獎(jiǎng)勵(lì)則會(huì)損害視覺一致性;在階段2中,移除語義對(duì)齊獎(jiǎng)勵(lì)會(huì)導(dǎo)致靜態(tài)幀的獎(jiǎng)勵(lì)破解現(xiàn)象,移除視頻保真獎(jiǎng)勵(lì)則會(huì)降低輸出連貫性。這些發(fā)現(xiàn)驗(yàn)證了本文采用分階段優(yōu)化與平衡獎(jiǎng)勵(lì)組件的完整設(shè)計(jì)。

結(jié)論

本研究開創(chuàng)了視頻化下一代事件預(yù)測(cè)新任務(wù),將下一代事件推理從文本描述推進(jìn)至動(dòng)態(tài)視頻演示。為解決其獨(dú)特挑戰(zhàn),本文提出通過聯(lián)合GRPO(一種在聯(lián)合獎(jiǎng)勵(lì)下協(xié)調(diào)雙模型的兩階段RL策略)融合VLM與VDM的VANS框架,并構(gòu)建VANS-Data-100K數(shù)據(jù)集為此任務(wù)提供重要訓(xùn)練與評(píng)估基礎(chǔ)。在成熟基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明,VANS在事件預(yù)測(cè)準(zhǔn)確性與視頻生成質(zhì)量兩方面均達(dá)到最先進(jìn)水平。

參考文獻(xiàn)

[1] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

       原文標(biāo)題 : 告別文字想象!快手可靈團(tuán)隊(duì)開源VANS:實(shí)現(xiàn)從“語言描述”到“動(dòng)態(tài)演示”跨越,多項(xiàng)SOTA

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)