訂閱
糾錯(cuò)
加入自媒體

視頻大模型“造夢(mèng)機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!

2024-06-14 13:29
雷科技
關(guān)注

比不上Sora,但你可以免費(fèi)用。

WechatIMG458.jpg

過(guò)去半年,AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。在 OpenAI 年初推出 Sora 時(shí)引發(fā)空前討論之后,號(hào)稱國(guó)內(nèi)首個(gè)自研視頻大模型的 Vidu,以及后續(xù)字節(jié)、騰訊、快手等多家國(guó)產(chǎn)廠商推出視頻生成模型,都在時(shí)不時(shí)引發(fā)外界的關(guān)注。就在前幾天,雷科技還對(duì)快手的視頻大模型「可靈」進(jìn)行了內(nèi)測(cè)體驗(yàn)。

不過(guò),這兩天 AI 生成視頻確實(shí)又火了。

一發(fā)布就火,「造夢(mèng)機(jī)器」燒遍社交網(wǎng)絡(luò)

6 月 12 日,初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine(造夢(mèng)機(jī)器),并且面向公眾開(kāi)放測(cè)試。很快,不僅官方放出的一系列樣片,社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過(guò)「造夢(mèng)機(jī)器」生成的視頻。

比如現(xiàn)代風(fēng)格的樣片,它在少女和貓的呈現(xiàn)效果上水準(zhǔn)相當(dāng)高,尤其是貓的頭部和眼部動(dòng)作。

Twitter Video.gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

還有奇幻風(fēng)格的,生成的人物或者物體也確實(shí)奇幻,甚至有些克蘇魯?shù)奈兜馈?/p>

Twitter Video 1800926036177174528.gif

圖片經(jīng)過(guò)壓縮、剪輯,圖/ Luma AI

此外,「造夢(mèng)機(jī)器」不僅支持通過(guò)文本生成視頻,也支持基于圖片和文本生成視頻,所以你還能看到從《戴珍珠耳環(huán)的少女》中跳出的少女,還有房地產(chǎn)中介可能會(huì)喜歡的「如何讓景觀圖變成景觀視頻」。

甚至,有人已經(jīng)開(kāi)始利用「造夢(mèng)機(jī)器」創(chuàng)造一個(gè)講述「一日生活」的影像故事,包括美國(guó)中學(xué)生從早起到上學(xué)再到舞會(huì)的刻畫(huà)。

不只是用戶玩得開(kāi),海外和國(guó)內(nèi)媒體也都注意到了「造夢(mèng)機(jī)器」的熱度。不過(guò)有一說(shuō)一,有些國(guó)內(nèi)媒體明顯吹過(guò)了頭,什么超越 Sora、比 Sora 更真實(shí)流暢,這些我們先稍后再談,但「造夢(mèng)機(jī)器」哪來(lái)的支持 120 秒生成視頻?

事實(shí)上,「造夢(mèng)機(jī)器」只支持生成 5 秒的視頻,官網(wǎng)說(shuō)的是生成視頻需要 120 秒,排隊(duì)等待的時(shí)間另說(shuō)。而如果單獨(dú)打開(kāi)官網(wǎng)上的樣片,也會(huì)發(fā)現(xiàn)一律都是 5 秒(除非有剪輯)。

SCR-20240613-rjsb.png

圖/ Luma AI

這個(gè)視頻時(shí)長(zhǎng),比起國(guó)產(chǎn)視頻大模型 Vidu 的 16 秒(最近又宣稱延長(zhǎng)到了 32 秒的有聲視頻)就不用說(shuō)了,更何況是將 AI 生成視頻時(shí)長(zhǎng)突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息,Sora 能夠?qū)崿F(xiàn)視頻時(shí)長(zhǎng)突破,主要功臣是其所采用的擴(kuò)散 Transformer 架構(gòu),在 Diffusion 擴(kuò)散模型的基礎(chǔ)上將 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。

「造夢(mèng)機(jī)器」呢?目前 Luma AI 公司并未透露具體的情況。

當(dāng)然,5 秒的視頻時(shí)長(zhǎng)你也不能說(shuō)太短,因?yàn)槟壳按罅康囊曨l生成模型也只能生成 5 秒的視頻,包括宣稱可以生成最長(zhǎng) 2 分鐘的快手可靈,至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時(shí)長(zhǎng)」一個(gè)維度,還得看畫(huà)面的可用性以及使用潛力。

表現(xiàn)驚艷,但內(nèi)容可靠嗎?

坦率地講,「造夢(mèng)機(jī)器」給小雷的第一印象還是挺驚艷的,首先感受下官方放出的樣片。

Dream Machine Video.gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

比如這段中,在一個(gè)氛圍透露著危險(xiǎn)的房間,一個(gè)持槍的男子小心翼翼地前進(jìn)。

除了人物主體和背景的一致性,最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射,在男子臉上,也可以看到原本詭譎的紅光在人物移動(dòng)過(guò)程中,色溫逐漸由暖轉(zhuǎn)冷,并與鄰近光源趨同,包括亮度的變化也符合基本的物理規(guī)律。

還有一段是在一間廢棄的房屋中發(fā)生了爆炸,鏡頭由遠(yuǎn)及近。雖然還是會(huì)出現(xiàn)憑空固定的白色棒狀物,但在鏡頭移動(dòng)的過(guò)程,不管是家具的不變,還是氣流變化引起的紙屑亂飛,都稱得上符合直覺(jué)。

另外「造夢(mèng)機(jī)器」也展現(xiàn)了作為動(dòng)畫(huà)創(chuàng)作工具的潛力,比如在一段視頻中,鏡頭從角色正面轉(zhuǎn)向背面,已經(jīng)很接近動(dòng)畫(huà)創(chuàng)作中的特寫(xiě)鏡頭。

Dream Machine 39.gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

但是,這些終究還是官方「嚴(yán)選」出來(lái)的。不管是文字、圖片還是視頻生成模型,官方 Demo 肯定會(huì)經(jīng)過(guò)精挑細(xì)選找出相對(duì)較好的,這一點(diǎn)大家都能理解,但從普通用戶的角度,很容易代入誤以為是模型的平均水平。

在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中,即便是在那些相當(dāng)驚艷的少數(shù)作品中,你也能看到或多或少的錯(cuò)誤。

比如@minchoi 用「造夢(mèng)機(jī)器」創(chuàng)作的美少女視頻,好幾段都完全媲美真人實(shí)拍。

SCR-20240613-rhow.png

圖/ X

不過(guò),人物的手還是存在渲染問(wèn)題,而且人物的形態(tài)還是會(huì)有一定的變化,在前面提到的《戴珍珠耳環(huán)的少女》視頻中更加明顯。

Amplify Video 180109.gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

另外,一致性的問(wèn)題還體現(xiàn)在風(fēng)格上,有的明明是 2D 動(dòng)畫(huà)風(fēng)格,慢慢就開(kāi)始往 3D 動(dòng)畫(huà)的風(fēng)格轉(zhuǎn)。

Luma DIT 視頻生成模型 (1).gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

小雷也試著用「造夢(mèng)機(jī)器」創(chuàng)作了一段視頻,Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實(shí)際效果還是比較糟糕的:人物詭異的倒退,在背后拿著傘的怪異舉動(dòng),還有飛起來(lái)的雨傘。

Luma Dream Machine video (1).gif

圖片經(jīng)過(guò)壓縮,圖/ Luma AI

不過(guò)還是有一些優(yōu)點(diǎn)的,比如路面的倒影,背景和人物的一致性。

即便如此,這些問(wèn)題說(shuō)到底還是沒(méi)有攔住廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora,「造夢(mèng)機(jī)器」至少公開(kāi)可用,還有每個(gè)月 30 次的免費(fèi)生成機(jī)會(huì)。而相比大部分可用的視頻生成模型,「造夢(mèng)機(jī)器」在一致性也有明顯的進(jìn)步。

而除了免費(fèi)用戶,「造夢(mèng)機(jī)器」目前還提供三檔付費(fèi)選項(xiàng),包括 29.99 美元的標(biāo)準(zhǔn)檔、99.99 美元的專業(yè)檔以及 499.99 美元的高級(jí)檔,區(qū)別是每個(gè)月可以生成視頻的次數(shù)。

SCR-20240613-riji.png

圖/ Luma AI

對(duì)于普通用戶來(lái)說(shuō),這些定價(jià)可能有些離譜,但對(duì)于那些開(kāi)始通過(guò)「造夢(mèng)機(jī)器」創(chuàng)作視頻在 TikTok 上賺錢的創(chuàng)作者來(lái)說(shuō),估計(jì)還在接受范圍內(nèi)。

從 AI 畫(huà)圖到 AI 視頻,大模型再次混戰(zhàn)

AI 視頻不是從「造夢(mèng)機(jī)器」開(kāi)始的,當(dāng)然也不是從 Sora 開(kāi)始的。事實(shí)上早在 2022 年,AI 繪畫(huà)已經(jīng)開(kāi)始驚艷世界的時(shí)候,AI 視頻就開(kāi)始吸引大量的關(guān)注。

首先我們需要回到 2022 年那個(gè)時(shí)間點(diǎn),彼時(shí) ChatGPT 還在醞釀(年底才發(fā)布),在大眾眼中,AI 技術(shù)發(fā)展最快速的領(lǐng)域當(dāng)屬 AI 繪畫(huà)。

2022 年 4 月,OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2,一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開(kāi)始躥紅社交網(wǎng)絡(luò),讓一眾畫(huà)師真正有了「失業(yè)」的擔(dān)憂。

ea42b258921748c2a84f7d64cce74c35.jpg

圖/ OpenAI

包括之后的 Midjourney,它們?cè)谏蓤D像方面相比之前的產(chǎn)品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚,憑借開(kāi)源的優(yōu)勢(shì),在用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E,在初期的進(jìn)步也最明顯。

事實(shí)上,當(dāng)時(shí) AI 繪畫(huà)已經(jīng)開(kāi)始「侵入」社會(huì)的方方面面,不管是獲獎(jiǎng)的《太空歌劇院》(Midjourney 生成),還是各大公司開(kāi)始嘗試通過(guò) AI 繪畫(huà)直接生成廣告、海報(bào)甚至內(nèi)容作品。

圖片可以 AI 生成,視頻還會(huì)遠(yuǎn)嗎?眾所周知,視頻本質(zhì)上就是一幀一幀的圖片組成。所以在 2022 年,谷歌和 Meta 其實(shí)就開(kāi)始了一場(chǎng)關(guān)于 AI 生成視頻的競(jìng)爭(zhēng),Meta 有 Make-A-Video,谷歌有 Imagen Video,二者都是通過(guò)文本直接生成視頻的視頻擴(kuò)散模型,底層還是 AI 繪圖那一套。

Google Meta Video Oct 10.gif

圖/ Meta

當(dāng)時(shí),AI 生成視頻時(shí)長(zhǎng)都不超過(guò) 5 秒,分辨率也很低,同時(shí)畫(huà)面變化很小,與其說(shuō)視頻,更像是讓圖片「動(dòng)一動(dòng)」。更重要的是,谷歌和 Meta 受限于大公司的身份和慣性,都沒(méi)有選擇開(kāi)放給用戶以及創(chuàng)作者使用,更多還是研究成果的展示,影響范圍也基本局限在圈內(nèi)。

相比之下,Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司就顯得更加「靈活」。在去年發(fā)布的 Gen-2 上,Runway 不僅改進(jìn)了視頻生成的質(zhì)量,還增加了 Motion Slider(運(yùn)動(dòng)滑塊)、Camera Motion (相機(jī)運(yùn)動(dòng))等功能,把更多視頻的控制權(quán)交給用戶。

去年火過(guò)一陣的 Pika 也是一款比較受關(guān)注的 AI 視頻生成工具,由于較高的畫(huà)面質(zhì)量甚至一度被稱為「視頻版 Midjourney」,同時(shí)相比 Runway Gen-2,Pika 為了確保內(nèi)容的可控性和擴(kuò)展性,還更進(jìn)一步給了創(chuàng)作者更多的控制權(quán),比如可以精細(xì)到眼部和表情的規(guī)劃生成。

此后,包括 Stable Diffusion 以及 Midjourney 也都陸續(xù)推出了生成視頻的版本,讓 AI 生成視頻進(jìn)入戰(zhàn)國(guó)時(shí)代。但不管是哪一家,就 AI 生成視頻的畫(huà)面表現(xiàn)來(lái)看其實(shí)沒(méi)有太大的差異,更多是產(chǎn)品層面的差異。

直到 Sora 帶著 Transformer 架構(gòu)出道即碾壓。

大語(yǔ)言模型,在改變 AI 視頻生成

Sora 引發(fā)的震撼和討論可謂有目共睹,甚至有人認(rèn)為 Sora 將是通往 AGI(通用人工智能)的快車道。Sora 是否能真正理解物理世界的運(yùn)行規(guī)律,我們先放在一邊不談,但可以肯定的是,Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。

SUV in the dust.gif

圖片經(jīng)過(guò)壓縮、剪輯,圖/ OpenAI

Sora 最震撼的技術(shù)突破之一在于其輸出的視頻時(shí)長(zhǎng),當(dāng)其他家普遍都只能生成數(shù)秒視頻的時(shí)候,Sora 就將時(shí)長(zhǎng)突破了 60 秒。

事實(shí)上,包括最新發(fā)布的「造夢(mèng)機(jī)器」也只能生成幾秒的視頻,一旦需要更長(zhǎng)的視頻,第二次、第三次、第 N 次生成的視頻很容易出現(xiàn)變形,導(dǎo)致前后畫(huà)面差異過(guò)大,從而無(wú)法使用。

此外,AI 生成視頻還普遍存在基于時(shí)間的連貫性問(wèn)題,但一段關(guān)于小狗的 Sora 生成視頻中,行人完全擋住畫(huà)面之后,小狗依然能保持住連貫性,主體也沒(méi)有發(fā)生明顯的變化。再有就是大家提過(guò)很多次的「模擬」,能夠很好地模擬符合物理世界規(guī)則的動(dòng)作。

而 Sora 的這些優(yōu)勢(shì)很大程度上來(lái)源于架構(gòu)上的核心區(qū)別,所以在 Sora 之后,Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合的全新技術(shù)路線很快受到了廣泛的關(guān)注,包括生數(shù)科技(聯(lián)合清華大學(xué))Vidu、愛(ài)詩(shī)科技 PixVerse、快手可靈也都采取了這一路線。

從這個(gè)角度來(lái)看,雖然 Luma AI 沒(méi)有公開(kāi)「造夢(mèng)機(jī)器」采用的架構(gòu)設(shè)計(jì),但結(jié)合在生成視頻中表現(xiàn)的一致性和邏輯表現(xiàn),很難相信「造夢(mèng)機(jī)器」是在純擴(kuò)散模型上的產(chǎn)物,大概率,也是借鑒了 Sora 將 Transformer 架構(gòu)融入擴(kuò)散模型的做法。

當(dāng)然,這也只是一種猜測(cè)。但對(duì) AI 視頻來(lái)說(shuō),這越來(lái)越成為一種必然。

來(lái)源:雷科技

       原文標(biāo)題 : 視頻大模型“造夢(mèng)機(jī)器”爆紅:瑕疵真不少,關(guān)鍵是能用!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)