訂閱
糾錯
加入自媒體

直播革命來了!StreamDiffusionV2:140億參數(shù)實(shí)時視頻飆上58FPS!伯克利&韓松團(tuán)隊(duì)等

作者:Tianrui Feng等

解讀:AI生成未來

亮點(diǎn)直擊

StreamDiffusionV2,這是一個免訓(xùn)練的流式系統(tǒng),專為視頻擴(kuò)散模型設(shè)計(jì),用于實(shí)現(xiàn)動態(tài)交互式的視頻生成。

巧妙整合了SLO-aware批處理調(diào)度器、塊調(diào)度器、sink-token引導(dǎo)的滾動KV緩存以及運(yùn)動感知噪聲控制器等創(chuàng)新組件,同時引入可擴(kuò)展的pipeline編排機(jī)制。

該系統(tǒng)首次在多GPU環(huán)境下實(shí)現(xiàn)了實(shí)時SLO約束下的高效生成,支持從單個創(chuàng)作者到企業(yè)級平臺的廣泛應(yīng)用場景。顯著提升了視頻生成的時效性和質(zhì)量穩(wěn)定性,推動了AI驅(qū)動的直播流媒體向下一代發(fā)展。圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同,實(shí)時流視頻生成的目標(biāo)是縮短

圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同,實(shí)時流視頻生成的目標(biāo)是縮短 "到第一幀的時間",并以較低的延遲生成連續(xù)輸出

總覽

效果展示

注:從左上到右下:參考視頻、StreamDiffusion、Causvid、StreamDiffusionV2

解決的問題

現(xiàn)有視頻擴(kuò)散模型雖在離線生成中表現(xiàn)出色,但難以適應(yīng)實(shí)時直播流媒體的嚴(yán)格要求。具體而言,有以下四大挑戰(zhàn):

一是無法滿足實(shí)時SLO(如最小化首幀時間和每幀截止期限);

二是長時序生成中出現(xiàn)漂移,導(dǎo)致視覺一致性下降;

三是在高速動態(tài)場景下產(chǎn)生運(yùn)動撕裂和模糊;

四是多GPU擴(kuò)展性差,無法在異構(gòu)環(huán)境中實(shí)現(xiàn)線性FPS提升。

這些問題源于現(xiàn)有系統(tǒng)對離線批處理優(yōu)化的偏向,而忽略了在線流媒體的無限輸入和低抖動需求。本工作通過系統(tǒng)級優(yōu)化,填補(bǔ)了這一空白。

提出的方案

StreamDiffusionV2,這是一個端到端的免訓(xùn)練pipeline,將高效視頻擴(kuò)散模型轉(zhuǎn)化為實(shí)時交互式應(yīng)用。其核心在于兩層優(yōu)化:一是實(shí)時調(diào)度與質(zhì)量控制,包括SLO-aware批處理調(diào)度器(動態(tài)調(diào)整批大小以滿足截止期限)、自適應(yīng)sink和RoPE刷新(防止長時序漂移)以及運(yùn)動感知噪聲調(diào)度器(根據(jù)運(yùn)動幅度適應(yīng)去噪路徑);二是可擴(kuò)展pipeline編排,通過并行去噪步驟和網(wǎng)絡(luò)階段,實(shí)現(xiàn)跨GPU的近線性加速。此外,系統(tǒng)還融入了DiT塊調(diào)度器、Stream-VAE和異步通信重疊等輕量優(yōu)化,確保長時序流媒體的高利用率和穩(wěn)定性。

應(yīng)用的技術(shù)

StreamDiffusionV2的實(shí)現(xiàn)融合了以下關(guān)鍵技術(shù):

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler): 為了在滿足SLO的同時最大化GPU利用率,調(diào)度器根據(jù)目標(biāo)幀率  和當(dāng)前硬件負(fù)載,動態(tài)調(diào)整批大小 。調(diào)度器通過調(diào)整 ,使系統(tǒng)的工作點(diǎn)逼近硬件屋頂線模型(roofline model)的“膝點(diǎn)”,從而實(shí)現(xiàn)吞吐量最大化。

自適應(yīng)sink與RoPE刷新 (Adaptive sink and RoPE refresh): 為應(yīng)對漂移,系統(tǒng)根據(jù)新塊嵌入  與舊sink集  的余弦相似度  來決定是否更新sink token。同時,當(dāng)幀索引  超過預(yù)設(shè)閾值  時,周期性地重置RoPE相位 ,以消除累積的位置誤差。

運(yùn)動感知的噪聲調(diào)度器 (Motion-aware noise scheduler): 通過計(jì)算連續(xù)潛在幀 之間的L2范數(shù)來估計(jì)運(yùn)動強(qiáng)度 ,然后對歸一化后的運(yùn)動強(qiáng)度  使用指數(shù)移動平均(EMA)來平滑地更新當(dāng)前幀的噪聲率 ,這使得高運(yùn)動區(qū)域的去噪更保守,低運(yùn)動區(qū)域的去噪更精細(xì)。

可擴(kuò)展的pipeline編排 (Scalable pipeline orchestration): 將DiT模塊跨GPU進(jìn)行劃分,每個GPU作為一個微步(micro-step)處理其輸入,并在一個環(huán)形結(jié)構(gòu)中將結(jié)果傳遞給下一個GPU。這允許多個階段并發(fā)執(zhí)行,實(shí)現(xiàn)近線性的吞吐量加速。

系統(tǒng)級協(xié)同設(shè)計(jì): 還包括動態(tài)DiT塊調(diào)度器(根據(jù)實(shí)時耗時動態(tài)重分配模塊以平衡負(fù)載)、Stream-VAE(為流式處理優(yōu)化的低延遲VAE變體)和異步通信重疊(使用獨(dú)立的CUDA流隱藏GPU間通信延遲)。

達(dá)到的效果

StreamDiffusionV2在無需TensorRT或量化的情況下,實(shí)現(xiàn)了0.5秒內(nèi)首幀渲染,并在4個H100 GPU上以14B參數(shù)模型達(dá)到58.28 FPS,以1.3B參數(shù)模型達(dá)到64.52 FPS。即使增加去噪步驟以提升質(zhì)量,仍保持31.62 FPS(14B)和61.57 FPS(1.3B)。系統(tǒng)在不同分辨率、去噪步數(shù)和GPU規(guī)模下表現(xiàn)出色,支持從低延遲到高品質(zhì)的靈活權(quán)衡,并在CLIP分?jǐn)?shù)(98.51)和Warp Error(73.31)等指標(biāo)上超越基線,顯著改善長時序一致性和運(yùn)動處理能力。

方法

StreamDiffusionV2,這是一個無需訓(xùn)練的流式系統(tǒng),它同時實(shí)現(xiàn)了實(shí)時的效率和長時序的視覺穩(wěn)定性。從高層次來看,本工作的設(shè)計(jì)基于兩個關(guān)鍵的優(yōu)化層面:

(1)實(shí)時調(diào)度與質(zhì)量控制,它協(xié)同整合了服務(wù)等級目標(biāo)(SLO)感知的批處理、自適應(yīng)的sink與RoPE刷新、以及運(yùn)動感知的噪聲調(diào)度,以滿足每幀的截止期限,同時維持長時序的時序連貫性和視覺保真度;

(2)可擴(kuò)展的pipeline編排,它通過跨去噪步驟和網(wǎng)絡(luò)階段進(jìn)行并行化,以實(shí)現(xiàn)近線性的FPS擴(kuò)展,且不違反延遲保證。此外,還探討了數(shù)個輕量級的系統(tǒng)級優(yōu)化,包括DiT塊調(diào)度器、Stream-VAE和異步通信重疊,它們進(jìn)一步增強(qiáng)了長時間運(yùn)行的直播流的吞吐量和穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器(控制輸入大小)與pipeline協(xié)調(diào)配對,以平衡延遲和 FPS,確保每個幀在嚴(yán)格的服務(wù)限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運(yùn)動感知噪聲控制器,以減輕高速撕裂,并將自適應(yīng)匯令牌與 RoPE 刷新相結(jié)合,以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器(控制輸入大。┡cpipeline協(xié)調(diào)配對,以平衡延遲和 FPS,確保每個幀在嚴(yán)格的服務(wù)限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運(yùn)動感知噪聲控制器,以減輕高速撕裂,并將自適應(yīng)匯令牌與 RoPE 刷新相結(jié)合,以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

實(shí)時調(diào)度和質(zhì)量控制

如圖6所示,StreamDiffusionV2通過三個關(guān)鍵組件實(shí)現(xiàn)實(shí)時視頻生成:

(1)一個SLO感知的批處理調(diào)度器,它動態(tài)調(diào)整流批次的大小,以滿足每幀的截止期限,同時最大化GPU的利用率;

(2)一個自適應(yīng)的sink和RoPE刷新機(jī)制,通過周期性地重置時序錨點(diǎn)和位置偏移來緩解長時序漂移;

(3)一個運(yùn)動感知的噪聲調(diào)度器,它根據(jù)運(yùn)動的幅度來調(diào)整去噪軌跡,確保在多樣的運(yùn)動狀態(tài)下都能保持清晰度和時序穩(wěn)定性。

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler) 。為了在最大化GPU利用率的同時滿足服務(wù)等級目標(biāo)(SLO),本文提出了一個SLO感知的批處理調(diào)度器,用于動態(tài)調(diào)整批大小。給定一個目標(biāo)幀率 ,系統(tǒng)每個迭代處理  幀,其整體推理延遲取決于塊大小T 和批大小B ,記為L(T,B)。為確保實(shí)時處理,乘積B.T不能超過已從輸入流中收集的幀數(shù)。正如第3節(jié)所分析的,模型運(yùn)行在內(nèi)存受限的區(qū)域,推理延遲可以近似為:

其中A((T,B)表示激活內(nèi)存的占用,Pmodel代表模型參數(shù)的內(nèi)存體積,而"BWmm 是有效內(nèi)存帶寬,其利用因子為 ("(0<η≤1))。在使用FlashAttention時,激活項(xiàng) A(T,B) 以 O(BT) 線性擴(kuò)展,導(dǎo)致延遲 L(T,B)成比例增長。因此,實(shí)現(xiàn)的處理頻率可以表示為  f= BT/L(T,B) ,它隨著批大小  的增大而增加,因?yàn)镚PU的利用率得到了提升。當(dāng)系統(tǒng)接近屋頂線模型(圖4)的膝點(diǎn)——標(biāo)志著從內(nèi)存受限到計(jì)算受限的過渡——調(diào)度器會自適應(yīng)地收斂到一個最優(yōu)的批大小 ,從而最大化吞吐效率。

圖 4 序列并行性和pipeline編排的 Roofline 分析圖 4 序列并行性和pipeline編排的 Roofline 分析

自適應(yīng)的sink和RoPE刷新 (Adaptive sink and RoPE refresh) 。為了解決第3節(jié)中討論的漂移問題,本文引入了一種自適應(yīng)的sink token更新和RoPE刷新策略,它們共同維持了連續(xù)視頻生成過程中的長時序穩(wěn)定性。與之前的方法如Self-Forcing不同,StreamDiffusionV2根據(jù)不斷演變的提示語義動態(tài)地更新sink tokens。令  表示在塊  處的sink集。給定一個新的塊嵌入 ,系統(tǒng)會計(jì)算相似度得分  并刷新最不相似的sink:如果 ,則 ,否則 ,其中  是一個相似度閾值。在實(shí)踐中,本文發(fā)現(xiàn)  應(yīng)設(shè)置得較大,以確保持續(xù)與演變的文本對齊。為了防止因長時間序列中累積的RoPE偏移導(dǎo)致的位置漂移,本文周期性地在當(dāng)前幀索引  超過閾值  時重置RoPE相位,即,若 ,則 ,否則 。

運(yùn)動感知的噪聲調(diào)度器 (Motion-aware noise scheduler) 。為了處理直播視頻中多樣的運(yùn)動動態(tài),本文提出了一個運(yùn)動感知的噪聲調(diào)度器,它根據(jù)近期幀的估計(jì)運(yùn)動幅度,自適應(yīng)地調(diào)節(jié)去噪的噪聲率。

如圖8所示,本文使用幀間差異度量來估計(jì)連續(xù)幀之間的運(yùn)動幅度。給定連續(xù)的潛在幀 ,運(yùn)動強(qiáng)度  為:

為了在一個較短的時間窗口(k幀)內(nèi)穩(wěn)定這個測量值,本文通過一個統(tǒng)計(jì)尺度因子  將其歸一化,并裁剪到[0, 1]區(qū)間內(nèi):

歸一化后的  決定了系統(tǒng)應(yīng)該以多大的強(qiáng)度去噪當(dāng)前的塊。一個較高的 (快速運(yùn)動)對應(yīng)一個更保守的去噪計(jì)劃,而一個較低的 (慢速或靜態(tài)運(yùn)動)則允許更強(qiáng)的細(xì)化以獲得更銳利的細(xì)節(jié)。最后,本文使用指數(shù)移動平均(EMA)來平滑噪聲率 ,以確保漸進(jìn)的時序過渡:

其中  0<λ<1 控制更新率,而 Smax和Smin分別表示噪聲率的上下界。

可擴(kuò)展的pipeline編排

多pipeline編排擴(kuò)展 (Multi-pipeline orchestration extension) 。為了在多GPU平臺上提升系統(tǒng)吞吐量,本文提出了一種可擴(kuò)展的pipeline編排方案用于并行推理。具體來說,DiT的模塊被劃分到不同的設(shè)備上。如圖7所示,每個設(shè)備將其輸入序列作為一個微步(micro-step)進(jìn)行處理,并在一個環(huán)形結(jié)構(gòu)內(nèi)將結(jié)果傳輸?shù)较乱粋階段。這使得模型的連續(xù)階段能夠以pipeline并行的方式并發(fā)運(yùn)行,從而在DiT的吞吐量上實(shí)現(xiàn)近線性的加速。

圖 7 我們的pipeline-并行流-批處理架構(gòu)的詳細(xì)設(shè)計(jì)。DiT 模塊分布在多個設(shè)備上以實(shí)現(xiàn)pipeline并行,而 Stream-Batch 策略則應(yīng)用于每個階段。不同顏色表示不同的潛流,說明了通信結(jié)構(gòu),深度表示相應(yīng)的噪音水平。本文實(shí)現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

圖 7 我們的pipeline-并行流-批處理架構(gòu)的詳細(xì)設(shè)計(jì)。DiT 模塊分布在多個設(shè)備上以實(shí)現(xiàn)pipeline并行,而 Stream-Batch 策略則應(yīng)用于每個階段。不同顏色表示不同的潛流,說明了通信結(jié)構(gòu),深度表示相應(yīng)的噪音水平。本文實(shí)現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

值得注意的是,pipeline并行推理增加了階段間的通信,這與激活流量一起,使得工作負(fù)載保持在內(nèi)存受限狀態(tài)。為了應(yīng)對這一點(diǎn)并仍然滿足實(shí)時約束,本文將SLO感知的批處理機(jī)制擴(kuò)展到了多pipeline設(shè)置,并將其與批-去噪策略相結(jié)合。具體地,本文在每個微步(圖7)都會產(chǎn)生一個精細(xì)去噪的輸出,同時將n個去噪步驟視為一個有效的批次乘數(shù),從而得到一個精煉的延遲模型 。調(diào)度器會根據(jù)觀察到的端到端延遲持續(xù)調(diào)整B,以使每個流的速率滿足 ,而聚合的吞吐量則逼近帶寬的屋頂線。

高效的系統(tǒng)-算法協(xié)同設(shè)計(jì)

DiT塊調(diào)度器 (DiT block scheduler) 。靜態(tài)分區(qū)常常會產(chǎn)生不均衡的工作負(fù)載,因?yàn)榈谝粋和最后一個排名除了處理DiT塊外,還要處理VAE的編碼和解碼,如圖13(a)所示。這種不平衡會導(dǎo)致pipeline停頓和利用率降低。本文引入了一個輕量級的、在推理時運(yùn)行的DiT塊調(diào)度器,它根據(jù)測量的執(zhí)行時間動態(tài)地在設(shè)備之間重新分配模塊。該調(diào)度器會搜索一個最優(yōu)的分區(qū)方案,以最小化每個階段的延遲,如圖13(b)所示,從而顯著減少了整體的pipeline氣泡。

Stream-VAE。StreamDiffusionV2集成了一個為流式推理設(shè)計(jì)的低延遲Video-VAE變體。Stream-VAE不是編碼長序列,而是處理短的視頻塊(例如4幀),并在每個3D卷積內(nèi)部緩存中間特征,以維持時序的連貫性。

異步通信重疊 (Asynchronous communication overlap) 。為了進(jìn)一步減少同步停頓,每個GPU都維護(hù)兩個CUDA流:一個計(jì)算流和一個通信流。GPU間的傳輸是異步執(zhí)行的,與本地計(jì)算重疊以隱藏通信延遲。這種雙流設(shè)計(jì)使每個設(shè)備的計(jì)算節(jié)奏與其通信帶寬保持一致,有效地緩解了殘余的氣泡,并在多GPUpipeline中保持了高利用率。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置包括基于Wan 2.1和CausVid的模型(免訓(xùn)練),評估指標(biāo)涵蓋效率(FPS、TTFF、加速率)和質(zhì)量(CLIP分?jǐn)?shù)、Warp Error)。基線包括Ring-Attention、DeepSpeed-Ulysses、StreamDiffusion、StreamV2V和CausVid變體。實(shí)現(xiàn)細(xì)節(jié):在H100和RTX 4090 GPU上測試,使用bf16,無TensorRT或量化,支持1-4去噪步驟和不同分辨率。

效率評估,StreamDiffusionV2在TTFF上大幅優(yōu)于基線(如在30 FPS下為0.37s,CausVid高18倍,Wan2.1-1.3B高280倍)。FPS結(jié)果:在4 H100 GPU上,1.3B模型達(dá)64.52 FPS(512×512)、42.26 FPS(480p);14B模型達(dá)58.28 FPS(512×512)、39.24 FPS(480p)。即使增加步驟,性能仍穩(wěn)定。

生成質(zhì)量評估,本系統(tǒng)在CLIP分?jǐn)?shù)(98.51)和Warp Error(73.31)上領(lǐng)先基線,視覺比較顯示更好的一致性和運(yùn)動處理。消融研究確認(rèn)sink token和運(yùn)動感知噪聲控制器提升時序?qū)R。分析進(jìn)一步驗(yàn)證動態(tài)DiT塊調(diào)度器平衡負(fù)載,pipeline編排在通信和性能綁定上優(yōu)于序列并行,Stream Batch顯著提高吞吐量,尤其在多步驟下。

總結(jié)

StreamDiffusionV2,彌合了離線視頻擴(kuò)散與受實(shí)時SLO約束的直播流媒體之間的差距。本免訓(xùn)練系統(tǒng)將SLO-aware批處理/塊調(diào)度器與sink-token引導(dǎo)的滾動KV緩存、運(yùn)動感知噪聲控制器以及pipeline編排相結(jié)合,后者通過并行去噪步驟和模型層實(shí)現(xiàn)近線性FPS擴(kuò)展,而不違反延遲要求。它在異構(gòu)GPU上運(yùn)行,支持靈活步驟計(jì)數(shù),實(shí)現(xiàn)0.5 s TTFF,并在4×H100上達(dá)到58.28 FPS(14B)/ 64.52 FPS(1.3B),即使步驟增加也能維持高FPS。這些結(jié)果使最先進(jìn)的生成式直播流媒體對單個創(chuàng)作者和企業(yè)平臺都變得實(shí)用。

參考文獻(xiàn)

[1] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

       原文標(biāo)題 : 直播革命來了!StreamDiffusionV2:140億參數(shù)實(shí)時視頻飆上58FPS!伯克利&韓松團(tuán)隊(duì)等

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號