精品无码久久久久久久久软件,欧美精品激情一区二区…

直播革命來了！StreamDiffusionV2：140億參數(shù)實(shí)時視頻飆上58FPS！伯克利&韓松團(tuán)隊(duì)等

2025-11-12 14:18

作者：Tianrui Feng等

解讀：AI生成未來

亮點(diǎn)直擊

StreamDiffusionV2，這是一個免訓(xùn)練的流式系統(tǒng)，專為視頻擴(kuò)散模型設(shè)計(jì)，用于實(shí)現(xiàn)動態(tài)交互式的視頻生成。

巧妙整合了SLO-aware批處理調(diào)度器、塊調(diào)度器、sink-token引導(dǎo)的滾動KV緩存以及運(yùn)動感知噪聲控制器等創(chuàng)新組件，同時引入可擴(kuò)展的pipeline編排機(jī)制。

該系統(tǒng)首次在多GPU環(huán)境下實(shí)現(xiàn)了實(shí)時SLO約束下的高效生成，支持從單個創(chuàng)作者到企業(yè)級平臺的廣泛應(yīng)用場景。顯著提升了視頻生成的時效性和質(zhì)量穩(wěn)定性，推動了AI驅(qū)動的直播流媒體向下一代發(fā)展。圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同，實(shí)時流視頻生成的目標(biāo)是縮短

圖 1 批量視頻生成與流式視頻生成的比較。與生成大批量視頻不同，實(shí)時流視頻生成的目標(biāo)是縮短 "到第一幀的時間"，并以較低的延遲生成連續(xù)輸出

總覽

效果展示

注：從左上到右下：參考視頻、StreamDiffusion、Causvid、StreamDiffusionV2

解決的問題

現(xiàn)有視頻擴(kuò)散模型雖在離線生成中表現(xiàn)出色，但難以適應(yīng)實(shí)時直播流媒體的嚴(yán)格要求。具體而言，有以下四大挑戰(zhàn)：

一是無法滿足實(shí)時SLO（如最小化首幀時間和每幀截止期限）；

二是長時序生成中出現(xiàn)漂移，導(dǎo)致視覺一致性下降；

三是在高速動態(tài)場景下產(chǎn)生運(yùn)動撕裂和模糊；

四是多GPU擴(kuò)展性差，無法在異構(gòu)環(huán)境中實(shí)現(xiàn)線性FPS提升。

這些問題源于現(xiàn)有系統(tǒng)對離線批處理優(yōu)化的偏向，而忽略了在線流媒體的無限輸入和低抖動需求。本工作通過系統(tǒng)級優(yōu)化，填補(bǔ)了這一空白。

提出的方案

StreamDiffusionV2，這是一個端到端的免訓(xùn)練pipeline，將高效視頻擴(kuò)散模型轉(zhuǎn)化為實(shí)時交互式應(yīng)用。其核心在于兩層優(yōu)化：一是實(shí)時調(diào)度與質(zhì)量控制，包括SLO-aware批處理調(diào)度器（動態(tài)調(diào)整批大小以滿足截止期限）、自適應(yīng)sink和RoPE刷新（防止長時序漂移）以及運(yùn)動感知噪聲調(diào)度器（根據(jù)運(yùn)動幅度適應(yīng)去噪路徑）；二是可擴(kuò)展pipeline編排，通過并行去噪步驟和網(wǎng)絡(luò)階段，實(shí)現(xiàn)跨GPU的近線性加速。此外，系統(tǒng)還融入了DiT塊調(diào)度器、Stream-VAE和異步通信重疊等輕量優(yōu)化，確保長時序流媒體的高利用率和穩(wěn)定性。

應(yīng)用的技術(shù)

StreamDiffusionV2的實(shí)現(xiàn)融合了以下關(guān)鍵技術(shù)：

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler)： 為了在滿足SLO的同時最大化GPU利用率，調(diào)度器根據(jù)目標(biāo)幀率和當(dāng)前硬件負(fù)載，動態(tài)調(diào)整批大小。調(diào)度器通過調(diào)整，使系統(tǒng)的工作點(diǎn)逼近硬件屋頂線模型（roofline model）的“膝點(diǎn)”，從而實(shí)現(xiàn)吞吐量最大化。

自適應(yīng)sink與RoPE刷新 (Adaptive sink and RoPE refresh)： 為應(yīng)對漂移，系統(tǒng)根據(jù)新塊嵌入與舊sink集的余弦相似度來決定是否更新sink token。同時，當(dāng)幀索引超過預(yù)設(shè)閾值時，周期性地重置RoPE相位，以消除累積的位置誤差。

運(yùn)動感知的噪聲調(diào)度器 (Motion-aware noise scheduler)： 通過計(jì)算連續(xù)潛在幀之間的L2范數(shù)來估計(jì)運(yùn)動強(qiáng)度，然后對歸一化后的運(yùn)動強(qiáng)度使用指數(shù)移動平均（EMA）來平滑地更新當(dāng)前幀的噪聲率，這使得高運(yùn)動區(qū)域的去噪更保守，低運(yùn)動區(qū)域的去噪更精細(xì)。

可擴(kuò)展的pipeline編排 (Scalable pipeline orchestration)： 將DiT模塊跨GPU進(jìn)行劃分，每個GPU作為一個微步（micro-step）處理其輸入，并在一個環(huán)形結(jié)構(gòu)中將結(jié)果傳遞給下一個GPU。這允許多個階段并發(fā)執(zhí)行，實(shí)現(xiàn)近線性的吞吐量加速。

系統(tǒng)級協(xié)同設(shè)計(jì)： 還包括動態(tài)DiT塊調(diào)度器（根據(jù)實(shí)時耗時動態(tài)重分配模塊以平衡負(fù)載）、Stream-VAE（為流式處理優(yōu)化的低延遲VAE變體）和異步通信重疊（使用獨(dú)立的CUDA流隱藏GPU間通信延遲）。

達(dá)到的效果

StreamDiffusionV2在無需TensorRT或量化的情況下，實(shí)現(xiàn)了0.5秒內(nèi)首幀渲染，并在4個H100 GPU上以14B參數(shù)模型達(dá)到58.28 FPS，以1.3B參數(shù)模型達(dá)到64.52 FPS。即使增加去噪步驟以提升質(zhì)量，仍保持31.62 FPS（14B）和61.57 FPS（1.3B）。系統(tǒng)在不同分辨率、去噪步數(shù)和GPU規(guī)模下表現(xiàn)出色，支持從低延遲到高品質(zhì)的靈活權(quán)衡，并在CLIP分?jǐn)?shù)（98.51）和Warp Error（73.31）等指標(biāo)上超越基線，顯著改善長時序一致性和運(yùn)動處理能力。

方法

StreamDiffusionV2，這是一個無需訓(xùn)練的流式系統(tǒng)，它同時實(shí)現(xiàn)了實(shí)時的效率和長時序的視覺穩(wěn)定性。從高層次來看，本工作的設(shè)計(jì)基于兩個關(guān)鍵的優(yōu)化層面：

（1）實(shí)時調(diào)度與質(zhì)量控制，它協(xié)同整合了服務(wù)等級目標(biāo)（SLO）感知的批處理、自適應(yīng)的sink與RoPE刷新、以及運(yùn)動感知的噪聲調(diào)度，以滿足每幀的截止期限，同時維持長時序的時序連貫性和視覺保真度；

（2）可擴(kuò)展的pipeline編排，它通過跨去噪步驟和網(wǎng)絡(luò)階段進(jìn)行并行化，以實(shí)現(xiàn)近線性的FPS擴(kuò)展，且不違反延遲保證。此外，還探討了數(shù)個輕量級的系統(tǒng)級優(yōu)化，包括DiT塊調(diào)度器、Stream-VAE和異步通信重疊，它們進(jìn)一步增強(qiáng)了長時間運(yùn)行的直播流的吞吐量和穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器（控制輸入大小）與pipeline協(xié)調(diào)配對，以平衡延遲和 FPS，確保每個幀在嚴(yán)格的服務(wù)限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運(yùn)動感知噪聲控制器，以減輕高速撕裂，并將自適應(yīng)匯令牌與 RoPE 刷新相結(jié)合，以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

圖 6 StreamDiffusionV2 的pipeline概覽。(1) 效率。我們將 SLO 感知批處理調(diào)度器（控制輸入大�。┡cpipeline協(xié)調(diào)配對，以平衡延遲和 FPS，確保每個幀在嚴(yán)格的服務(wù)限制條件下滿足其截止日期和 TTFF。(2) 質(zhì)量。我們部署了運(yùn)動感知噪聲控制器，以減輕高速撕裂，并將自適應(yīng)匯令牌與 RoPE 刷新相結(jié)合，以提供高質(zhì)量的用戶交互和數(shù)小時級的流媒體穩(wěn)定性。

實(shí)時調(diào)度和質(zhì)量控制

如圖6所示，StreamDiffusionV2通過三個關(guān)鍵組件實(shí)現(xiàn)實(shí)時視頻生成：

（1）一個SLO感知的批處理調(diào)度器，它動態(tài)調(diào)整流批次的大小，以滿足每幀的截止期限，同時最大化GPU的利用率；

（2）一個自適應(yīng)的sink和RoPE刷新機(jī)制，通過周期性地重置時序錨點(diǎn)和位置偏移來緩解長時序漂移；

（3）一個運(yùn)動感知的噪聲調(diào)度器，它根據(jù)運(yùn)動的幅度來調(diào)整去噪軌跡，確保在多樣的運(yùn)動狀態(tài)下都能保持清晰度和時序穩(wěn)定性。

SLO感知的批處理調(diào)度器 (SLO-aware batching scheduler) 。為了在最大化GPU利用率的同時滿足服務(wù)等級目標(biāo)（SLO），本文提出了一個SLO感知的批處理調(diào)度器，用于動態(tài)調(diào)整批大小。給定一個目標(biāo)幀率，系統(tǒng)每個迭代處理幀，其整體推理延遲取決于塊大小T 和批大小B ，記為L(T,B)。為確保實(shí)時處理，乘積B.T不能超過已從輸入流中收集的幀數(shù)。正如第3節(jié)所分析的，模型運(yùn)行在內(nèi)存受限的區(qū)域，推理延遲可以近似為：

其中A((T,B)表示激活內(nèi)存的占用,Pmodel代表模型參數(shù)的內(nèi)存體積，而"BWmm 是有效內(nèi)存帶寬，其利用因子為（"(0<η≤1)）。在使用FlashAttention時，激活項(xiàng) A(T,B) 以 O(BT) 線性擴(kuò)展，導(dǎo)致延遲 L(T,B)成比例增長。因此，實(shí)現(xiàn)的處理頻率可以表示為 f= BT/L(T,B) ，它隨著批大小的增大而增加，因?yàn)镚PU的利用率得到了提升。當(dāng)系統(tǒng)接近屋頂線模型（圖4）的膝點(diǎn)——標(biāo)志著從內(nèi)存受限到計(jì)算受限的過渡——調(diào)度器會自適應(yīng)地收斂到一個最優(yōu)的批大小，從而最大化吞吐效率。

圖 4 序列并行性和pipeline編排的 Roofline 分析

自適應(yīng)的sink和RoPE刷新 (Adaptive sink and RoPE refresh) 。為了解決第3節(jié)中討論的漂移問題，本文引入了一種自適應(yīng)的sink token更新和RoPE刷新策略，它們共同維持了連續(xù)視頻生成過程中的長時序穩(wěn)定性。與之前的方法如Self-Forcing不同，StreamDiffusionV2根據(jù)不斷演變的提示語義動態(tài)地更新sink tokens。令表示在塊處的sink集。給定一個新的塊嵌入，系統(tǒng)會計(jì)算相似度得分并刷新最不相似的sink：如果，則，否則，其中是一個相似度閾值。在實(shí)踐中，本文發(fā)現(xiàn) 應(yīng)設(shè)置得較大，以確保持續(xù)與演變的文本對齊。為了防止因長時間序列中累積的RoPE偏移導(dǎo)致的位置漂移，本文周期性地在當(dāng)前幀索引超過閾值時重置RoPE相位，即，若，則，否則。

運(yùn)動感知的噪聲調(diào)度器 (Motion-aware noise scheduler) 。為了處理直播視頻中多樣的運(yùn)動動態(tài)，本文提出了一個運(yùn)動感知的噪聲調(diào)度器，它根據(jù)近期幀的估計(jì)運(yùn)動幅度，自適應(yīng)地調(diào)節(jié)去噪的噪聲率。

如圖8所示，本文使用幀間差異度量來估計(jì)連續(xù)幀之間的運(yùn)動幅度。給定連續(xù)的潛在幀，運(yùn)動強(qiáng)度為：

為了在一個較短的時間窗口（k幀）內(nèi)穩(wěn)定這個測量值，本文通過一個統(tǒng)計(jì)尺度因子將其歸一化，并裁剪到[0, 1]區(qū)間內(nèi)：

歸一化后的決定了系統(tǒng)應(yīng)該以多大的強(qiáng)度去噪當(dāng)前的塊。一個較高的（快速運(yùn)動）對應(yīng)一個更保守的去噪計(jì)劃，而一個較低的（慢速或靜態(tài)運(yùn)動）則允許更強(qiáng)的細(xì)化以獲得更銳利的細(xì)節(jié)。最后，本文使用指數(shù)移動平均（EMA）來平滑噪聲率，以確保漸進(jìn)的時序過渡：

其中 0<λ<1 控制更新率，而 Smax和Smin分別表示噪聲率的上下界。

可擴(kuò)展的pipeline編排

多pipeline編排擴(kuò)展 (Multi-pipeline orchestration extension) 。為了在多GPU平臺上提升系統(tǒng)吞吐量，本文提出了一種可擴(kuò)展的pipeline編排方案用于并行推理。具體來說，DiT的模塊被劃分到不同的設(shè)備上。如圖7所示，每個設(shè)備將其輸入序列作為一個微步（micro-step）進(jìn)行處理，并在一個環(huán)形結(jié)構(gòu)內(nèi)將結(jié)果傳輸?shù)较乱粋€階段。這使得模型的連續(xù)階段能夠以pipeline并行的方式并發(fā)運(yùn)行，從而在DiT的吞吐量上實(shí)現(xiàn)近線性的加速。

圖 7 我們的pipeline-并行流-批處理架構(gòu)的詳細(xì)設(shè)計(jì)。DiT 模塊分布在多個設(shè)備上以實(shí)現(xiàn)pipeline并行，而 Stream-Batch 策略則應(yīng)用于每個階段。不同顏色表示不同的潛流，說明了通信結(jié)構(gòu)，深度表示相應(yīng)的噪音水平。本文實(shí)現(xiàn)保證了在推理過程中的每個微步驟都能生成干凈的潛變量。

值得注意的是，pipeline并行推理增加了階段間的通信，這與激活流量一起，使得工作負(fù)載保持在內(nèi)存受限狀態(tài)。為了應(yīng)對這一點(diǎn)并仍然滿足實(shí)時約束，本文將SLO感知的批處理機(jī)制擴(kuò)展到了多pipeline設(shè)置，并將其與批-去噪策略相結(jié)合。具體地，本文在每個微步（圖7）都會產(chǎn)生一個精細(xì)去噪的輸出，同時將n個去噪步驟視為一個有效的批次乘數(shù)，從而得到一個精煉的延遲模型。調(diào)度器會根據(jù)觀察到的端到端延遲持續(xù)調(diào)整B，以使每個流的速率滿足，而聚合的吞吐量則逼近帶寬的屋頂線。

高效的系統(tǒng)-算法協(xié)同設(shè)計(jì)

DiT塊調(diào)度器 (DiT block scheduler) 。靜態(tài)分區(qū)常常會產(chǎn)生不均衡的工作負(fù)載，因?yàn)榈谝粋€和最后一個排名除了處理DiT塊外，還要處理VAE的編碼和解碼，如圖13(a)所示。這種不平衡會導(dǎo)致pipeline停頓和利用率降低。本文引入了一個輕量級的、在推理時運(yùn)行的DiT塊調(diào)度器，它根據(jù)測量的執(zhí)行時間動態(tài)地在設(shè)備之間重新分配模塊。該調(diào)度器會搜索一個最優(yōu)的分區(qū)方案，以最小化每個階段的延遲，如圖13(b)所示，從而顯著減少了整體的pipeline氣泡。

Stream-VAE。StreamDiffusionV2集成了一個為流式推理設(shè)計(jì)的低延遲Video-VAE變體。Stream-VAE不是編碼長序列，而是處理短的視頻塊（例如4幀），并在每個3D卷積內(nèi)部緩存中間特征，以維持時序的連貫性。

異步通信重疊 (Asynchronous communication overlap) 。為了進(jìn)一步減少同步停頓，每個GPU都維護(hù)兩個CUDA流：一個計(jì)算流和一個通信流。GPU間的傳輸是異步執(zhí)行的，與本地計(jì)算重疊以隱藏通信延遲。這種雙流設(shè)計(jì)使每個設(shè)備的計(jì)算節(jié)奏與其通信帶寬保持一致，有效地緩解了殘余的氣泡，并在多GPUpipeline中保持了高利用率。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置包括基于Wan 2.1和CausVid的模型（免訓(xùn)練），評估指標(biāo)涵蓋效率（FPS、TTFF、加速率）和質(zhì)量（CLIP分?jǐn)?shù)、Warp Error）。基線包括Ring-Attention、DeepSpeed-Ulysses、StreamDiffusion、StreamV2V和CausVid變體。實(shí)現(xiàn)細(xì)節(jié)：在H100和RTX 4090 GPU上測試，使用bf16，無TensorRT或量化，支持1-4去噪步驟和不同分辨率。

效率評估，StreamDiffusionV2在TTFF上大幅優(yōu)于基線（如在30 FPS下為0.37s，CausVid高18倍，Wan2.1-1.3B高280倍）。FPS結(jié)果：在4 H100 GPU上，1.3B模型達(dá)64.52 FPS（512×512）、42.26 FPS（480p）；14B模型達(dá)58.28 FPS（512×512）、39.24 FPS（480p）。即使增加步驟，性能仍穩(wěn)定。

生成質(zhì)量評估，本系統(tǒng)在CLIP分?jǐn)?shù)（98.51）和Warp Error（73.31）上領(lǐng)先基線，視覺比較顯示更好的一致性和運(yùn)動處理。消融研究確認(rèn)sink token和運(yùn)動感知噪聲控制器提升時序?qū)R。分析進(jìn)一步驗(yàn)證動態(tài)DiT塊調(diào)度器平衡負(fù)載，pipeline編排在通信和性能綁定上優(yōu)于序列并行，Stream Batch顯著提高吞吐量，尤其在多步驟下。

總結(jié)

StreamDiffusionV2，彌合了離線視頻擴(kuò)散與受實(shí)時SLO約束的直播流媒體之間的差距。本免訓(xùn)練系統(tǒng)將SLO-aware批處理/塊調(diào)度器與sink-token引導(dǎo)的滾動KV緩存、運(yùn)動感知噪聲控制器以及pipeline編排相結(jié)合，后者通過并行去噪步驟和模型層實(shí)現(xiàn)近線性FPS擴(kuò)展，而不違反延遲要求。它在異構(gòu)GPU上運(yùn)行，支持靈活步驟計(jì)數(shù)，實(shí)現(xiàn)0.5 s TTFF，并在4×H100上達(dá)到58.28 FPS（14B）/ 64.52 FPS（1.3B），即使步驟增加也能維持高FPS。這些結(jié)果使最先進(jìn)的生成式直播流媒體對單個創(chuàng)作者和企業(yè)平臺都變得實(shí)用。

參考文獻(xiàn)

[1] StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

原文標(biāo)題 : 直播革命來了！StreamDiffusionV2：140億參數(shù)實(shí)時視頻飆上58FPS！伯克利&韓松團(tuán)隊(duì)等