訂閱
糾錯(cuò)
加入自媒體

多模態(tài)2025:技術(shù)路線“神仙打架”,視頻生成沖上云霄

圖片

文|魏琳華

編|王一粟

一場(chǎng)大會(huì),聚集了中國多模態(tài)大模型的“半壁江山”。

智源大會(huì)2025為期兩天的論壇中,匯集了學(xué)界、創(chuàng)業(yè)公司和大廠等三方的熱門選手,關(guān)于多模態(tài)的集中討論達(dá)到了前所未有的熱度。其中,創(chuàng)業(yè)公司就有愛詩科技、生數(shù)科技、Sand.ai、智象未來、Luma AI、智譜等六家公司創(chuàng)始人、CEO分享心得;隸屬大廠隊(duì)的字節(jié)、騰訊、百度的多模態(tài)技術(shù)負(fù)責(zé)人,以及學(xué)術(shù)界的人大和MIT(麻省理工)的相關(guān)專家學(xué)者。

自回歸、擴(kuò)散、原生多模態(tài)......圍繞種種技術(shù)路線的論證和實(shí)踐分享都證明了一件事:相比碩果僅存的大語言模型戰(zhàn)場(chǎng),多模態(tài)大模型的技術(shù)路線還遠(yuǎn)遠(yuǎn)沒有收斂。

“多模態(tài)大模型已在特定場(chǎng)景啟動(dòng)落地,但尚未實(shí)現(xiàn)高度普適化。”智源研究院院長王仲遠(yuǎn)給出了這樣的判斷。他指出,根本性突破仍依賴更強(qiáng)大的基礎(chǔ)模型——若多模態(tài)模型達(dá)到足夠可用的水平,將推動(dòng)產(chǎn)業(yè)進(jìn)一步發(fā)展。

在種種空白中,多模態(tài)想要打開下半場(chǎng)的入口,顯然還有一段路要走。

多模態(tài),尚未迎來“ChatGPT時(shí)刻”

“對(duì)于多模態(tài)模型而言,現(xiàn)在定義下半場(chǎng)還為時(shí)尚早,我們連上半場(chǎng)都還沒有看到邊界在哪里。”

面對(duì)“如何看待大模型下半場(chǎng)”的問題時(shí),Sand.ai聯(lián)合創(chuàng)始人張拯給出了這樣的回答。

“慢一拍”的多模態(tài)大模型,限制了應(yīng)用端的能力表現(xiàn)。以視頻生成為例,智象未來CEO梅濤指出,目前視頻生成還處于GPT-2到GPT-3之間的階段。他將視頻創(chuàng)作的三個(gè)要素總結(jié)為敘事性、穩(wěn)定性和可控性。

敘事性,即保證視頻“做5分鐘和1小時(shí)是完整的故事”,保持IP的一致性;而在穩(wěn)定性上,需要保證畫面質(zhì)量、運(yùn)動(dòng)連貫性、時(shí)序一致性等方面的穩(wěn)定,目前表現(xiàn)較好;可控性,則是衡量視頻內(nèi)容生成的精準(zhǔn)程度,第幾秒出現(xiàn)什么鏡頭,人物做什么表情等要求非常高。但今天的大模型,還無法達(dá)到這樣的水準(zhǔn)。

現(xiàn)階段,想要提升模型生成效果,數(shù)據(jù)質(zhì)量就成了關(guān)鍵。

“我們?yōu)槭裁磿?huì)看到Google的Veo 3,很多模型做得很好、做得很逼真,如果在模型架構(gòu)上大家都趨同的話,其實(shí)真正的競(jìng)爭(zhēng)就取決于高質(zhì)量的數(shù)據(jù)。”智象未來CEO梅濤說,“其實(shí)我們并沒有產(chǎn)生所謂新的智能,只是在復(fù)制我們看到的這個(gè)世界。”

圖片

Google Veo 3模型展示

圍繞如何提升多模態(tài)大模型的能力,多家企業(yè)所踐行的技術(shù)路線并不相同。

相對(duì)于普遍采用Diffusion Transformer(Dit,即擴(kuò)散Transformer)模型的文生圖、文生視頻領(lǐng)域,多模態(tài)大模型到底是采用自回歸模型、擴(kuò)散模型還是其他方式,業(yè)內(nèi)對(duì)此沒有達(dá)成共識(shí)。

在大會(huì)現(xiàn)場(chǎng),Sand.ai CEO曹越給出了他對(duì)擴(kuò)散模型帶來的問題思考:

“技術(shù)層面,主流的Diffusion和Transformer的訓(xùn)練方案還是存在很大問題,核心問題在于可擴(kuò)展性不足。”曹越說,“在Diffusion Transformer路線上,現(xiàn)在證明生成5秒視頻可以有不錯(cuò)的效果,但隨著模型規(guī)模提升,會(huì)快速達(dá)到瓶頸。”

即使在生成機(jī)制一致的情況下,模型架構(gòu)和訓(xùn)練方式的不同也對(duì)模型生成效果帶來影響。

在Luma AI創(chuàng)始人宋佳銘看來,多模態(tài)大模型進(jìn)入下半場(chǎng)的前提,是上半場(chǎng)要先把不同模態(tài)像語言一樣統(tǒng)一處理,既要用同一個(gè)模型建模,還要保證推理足夠快。

是將多個(gè)模態(tài)拼接訓(xùn)練,還是在一開始就采用統(tǒng)一架構(gòu),把各種模態(tài)的信息丟到一起統(tǒng)一訓(xùn)練,這就是多模態(tài)和“原生多模態(tài)”兩條路線的區(qū)分。

“當(dāng)前多模態(tài)大模型的學(xué)習(xí)路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓(xùn)練到很強(qiáng)的程度,隨后再學(xué)習(xí)其他模態(tài)信息。”王仲遠(yuǎn)說,“這就如同先達(dá)到博士學(xué)位水平,再去接觸其他知識(shí)。”

然而,在上述過程中,模型的能力可能會(huì)出現(xiàn)下降。用王仲遠(yuǎn)的話說,模型的能力可能從 “博士” 水平降至 “大學(xué)” 甚至 “高中” 水平。

為了解決這個(gè)問題,智源研究院早在去年10月上線了全球首個(gè)原生多模態(tài)世界大模型Emu3,試圖將多種模態(tài)的數(shù)據(jù)統(tǒng)一在一個(gè)架構(gòu)內(nèi)。

作為原生多模態(tài)模型,Emu3采用自回歸的生成方式,基于下一個(gè)token預(yù)測(cè)范式統(tǒng)一多模態(tài)學(xué)習(xí),通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號(hào)序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,實(shí)現(xiàn)文本、圖像、視頻的任意組合理解與生成。

也就是說,你可以隨意將文字、語音和視頻丟給Emu3處理,而它也同樣能夠用這三種形式生成內(nèi)容,實(shí)現(xiàn)跨模態(tài)交互。

想要通往多模態(tài)大模型的下半場(chǎng),多模態(tài)數(shù)據(jù)形態(tài)的擴(kuò)充也是關(guān)鍵之一。MIT CSAIL何凱明組博士后研究員黎天鴻認(rèn)為,真正的“下半場(chǎng)”多模態(tài),應(yīng)該是模型能處理超越人類感官的數(shù)據(jù)。

在會(huì)議現(xiàn)場(chǎng)中,智源研究院也分享了在圖像、文字、聲音和視頻之外,多模態(tài)數(shù)據(jù)形態(tài)的擴(kuò)充——腦信號(hào)。

“悟界”大模型系列中的見微Brainμ就脫胎于Emu3的“骨架”中。基于Emu3的底層架構(gòu),智源研究院成功將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號(hào)統(tǒng)一token化,并完成了100萬單位的神經(jīng)信號(hào)預(yù)訓(xùn)練。

圖片

“腦信號(hào)數(shù)據(jù)是第一個(gè)嘗試,”王仲遠(yuǎn)說,“具身領(lǐng)域的數(shù)據(jù)有更多模態(tài),比如,3D信號(hào)、時(shí)空信號(hào)等,都可以作為一種模態(tài)進(jìn)行融合。”

可以說,做原生多模態(tài)大模型的成本高、技術(shù)實(shí)現(xiàn)困難,對(duì)于拼落地速度的企業(yè)來說,是一個(gè)冒險(xiǎn)的嘗試。作為科研機(jī)構(gòu),智源研究院在做的事情,就是先替行業(yè)蹚出一條路。

多模態(tài)生成落地拐點(diǎn),視頻模型加速商業(yè)廝殺

在學(xué)界和業(yè)界探索技術(shù)道路的同時(shí),企業(yè)端正在加速多模態(tài)大模型在行業(yè)中的落地進(jìn)程,這也是中國AI發(fā)展的鮮明特色——商業(yè)化和模型發(fā)展并駕齊驅(qū)。

字節(jié)跳動(dòng)Seed圖像&視頻生成負(fù)責(zé)人黃偉林給出兩組數(shù)據(jù)印證:2025年,就是圖像生成商業(yè)化元年。

“以效率數(shù)據(jù)為例,用戶生成100張圖的下載率在過去一年提升了3倍,如今高達(dá)60%以上,說明它已經(jīng)越過了商業(yè)化的關(guān)鍵門檻。”黃偉林說,“從用戶留存來看,比如30天留存,從原來的十幾個(gè)百分點(diǎn)提升到了40%左右。”

圖片

谷歌對(duì)多模態(tài)市場(chǎng)規(guī)模的預(yù)估

當(dāng)技術(shù)門檻逐漸降低、成本效率達(dá)到要求,AI視頻生成也迎來了市場(chǎng)增長的黃金期。

黃偉林表示,目前頭部視頻生成產(chǎn)品的年化收入(ARR)預(yù)計(jì)今年達(dá)到1億美元,明年可能增長到5到10億美元。

生數(shù)科技CEO駱怡航也認(rèn)為,今年多模態(tài)生成正處于規(guī);a(chǎn)落地的拐點(diǎn):在技術(shù)迭代迅速,效果、速度和成本提升的同時(shí),行業(yè)需求增長旺盛,視頻相關(guān)產(chǎn)業(yè)的落地節(jié)奏也在提速。

雖然當(dāng)前大模型技術(shù)路線并不收斂,但在目前應(yīng)用落地的階段,AI視頻生產(chǎn)已經(jīng)能夠協(xié)助人類完成那些本身耗時(shí)耗力、成本高的拍攝需求,并且把生成時(shí)間壓縮到極低。

張拯認(rèn)為,在不同發(fā)展階段,AI視頻生成會(huì)有完全不同的PMF。

比如,在早期階段,很多交給人都非常難拍的視頻,即使質(zhì)量很差或者需要非常多的抽卡才能抽到視頻,但是也遠(yuǎn)比搭一個(gè)景再拍內(nèi)容的成本低4~5個(gè)數(shù)量級(jí)。

張拯舉了個(gè)例子,比如拍攝在太空中的航空母艦,需要通過特效團(tuán)隊(duì)逐幀去做。但是現(xiàn)在交給模型,哪怕需要100次抽卡,最后要500元才能抽出一個(gè)片段,這個(gè)成本也比之前低很多。

在大量的應(yīng)用場(chǎng)景下,中國的多模態(tài)大模型公司們,圍繞著B端還是C端、哪條路先走的商業(yè)化路線,給出了不同的答案。

現(xiàn)階段,AI視頻在C端應(yīng)用的突出案例,就是依靠視頻生成的AI視頻特效。

曾在TikTok團(tuán)隊(duì)提供AI視頻技術(shù)支持,愛詩科技創(chuàng)始人王長虎分享了旗下產(chǎn)品PixVerse的突破里程碑,就來自于特效模版的上線。

據(jù)王長虎分享,通過特效視頻模版在抖音以及國內(nèi)外各大社交媒體上的傳播,PixVerse打響了知名度。當(dāng)月,在中國產(chǎn)品出海增速榜,PixVerse排在第二名,訪問量提升80%。他還分享了一個(gè)印象深刻的數(shù)據(jù)——今年4月,超過PixVerse MAU增長的AI產(chǎn)品只有DeepSeek。

圖片

在技術(shù)快速迭代的同時(shí),愛詩科技在商業(yè)化做出了自己的選擇——先做To C,再做To B。靠著C端帶起的聲量,愛詩科技今年將版圖放到了B端,于今年1月支持各行業(yè)的API和定制化視頻生成,涵蓋互聯(lián)網(wǎng)、營銷、電商等。

相比之下,生數(shù)科技更早聚焦視頻生成大模型如何落地產(chǎn)業(yè)端的問題。成立兩年的時(shí)間里,生數(shù)科技有1年半都在琢磨落地問題,更在行業(yè)劃分上,駱怡航給出了“八大行業(yè)、三十大場(chǎng)景”的版圖,其中,互聯(lián)網(wǎng)、廣告、電影、動(dòng)漫的應(yīng)用占到了8成。

在切入B端的思考中,生數(shù)科技強(qiáng)調(diào)的是對(duì)成本以及生產(chǎn)效率的降低。

“要想滿足技術(shù)需求,很重要的一點(diǎn)是,(AI視頻生成)生產(chǎn)效率要提升100倍,生產(chǎn)成本要降低100倍,必須要和行業(yè)深入適配,滿足行業(yè)的專業(yè)需求。”駱怡航說。

駱怡航分享,一家海外動(dòng)畫工作室和VIDU合作,打造了一個(gè)“AI動(dòng)漫”工作流,能夠批量生成創(chuàng)意,他們用兩個(gè)月時(shí)間,生產(chǎn)了50集AI動(dòng)漫短片。

當(dāng)效率和生成達(dá)到滿足商用的節(jié)點(diǎn),當(dāng)AI企業(yè)們陸續(xù)把商業(yè)化提上日程?梢灶A(yù)見的是,下半年,多模態(tài)領(lǐng)域的AI生成將在商業(yè)化上迎來更激烈的比拼。

       原文標(biāo)題 : 多模態(tài)2025:技術(shù)路線“神仙打架”,視頻生成沖上云霄

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)