韩国特黄无码视频网,亚洲精品97久久,久久综合久久久

視頻大模型“造夢(mèng)機(jī)器”爆紅：瑕疵真不少，關(guān)鍵是能用！

2024-06-14 13:29

比不上Sora，但你可以免費(fèi)用。

過(guò)去半年，AI 生成視頻一直處在斷斷續(xù)續(xù)推進(jìn)的狀態(tài)。在 OpenAI 年初推出 Sora 時(shí)引發(fā)空前討論之后，號(hào)稱國(guó)內(nèi)首個(gè)自研視頻大模型的 Vidu，以及后續(xù)字節(jié)、騰訊、快手等多家國(guó)產(chǎn)廠商推出視頻生成模型，都在時(shí)不時(shí)引發(fā)外界的關(guān)注。就在前幾天，雷科技還對(duì)快手的視頻大模型「可靈」進(jìn)行了內(nèi)測(cè)體驗(yàn)。

不過(guò)，這兩天 AI 生成視頻確實(shí)又火了。

一發(fā)布就火，「造夢(mèng)機(jī)器」燒遍社交網(wǎng)絡(luò)

6 月 12 日，初創(chuàng)公司 Luma AI 發(fā)布了新的 AI 視頻生成模型 Dream Machine（造夢(mèng)機(jī)器），并且面向公眾開(kāi)放測(cè)試。很快，不僅官方放出的一系列樣片，社交網(wǎng)絡(luò)上還出現(xiàn)了一大堆由網(wǎng)友通過(guò)「造夢(mèng)機(jī)器」生成的視頻。

比如現(xiàn)代風(fēng)格的樣片，它在少女和貓的呈現(xiàn)效果上水準(zhǔn)相當(dāng)高，尤其是貓的頭部和眼部動(dòng)作。

Twitter Video.gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

還有奇幻風(fēng)格的，生成的人物或者物體也確實(shí)奇幻，甚至有些克蘇魯?shù)奈兜馈?/p>

Twitter Video 1800926036177174528.gif

圖片經(jīng)過(guò)壓縮、剪輯，圖/ Luma AI

此外，「造夢(mèng)機(jī)器」不僅支持通過(guò)文本生成視頻，也支持基于圖片和文本生成視頻，所以你還能看到從《戴珍珠耳環(huán)的少女》中跳出的少女，還有房地產(chǎn)中介可能會(huì)喜歡的「如何讓景觀圖變成景觀視頻」。

甚至，有人已經(jīng)開(kāi)始利用「造夢(mèng)機(jī)器」創(chuàng)造一個(gè)講述「一日生活」的影像故事，包括美國(guó)中學(xué)生從早起到上學(xué)再到舞會(huì)的刻畫(huà)。

不只是用戶玩得開(kāi)，海外和國(guó)內(nèi)媒體也都注意到了「造夢(mèng)機(jī)器」的熱度。不過(guò)有一說(shuō)一，有些國(guó)內(nèi)媒體明顯吹過(guò)了頭，什么超越 Sora、比 Sora 更真實(shí)流暢，這些我們先稍后再談，但「造夢(mèng)機(jī)器」哪來(lái)的支持 120 秒生成視頻？

事實(shí)上，「造夢(mèng)機(jī)器」只支持生成 5 秒的視頻，官網(wǎng)說(shuō)的是生成視頻需要 120 秒，排隊(duì)等待的時(shí)間另說(shuō)。而如果單獨(dú)打開(kāi)官網(wǎng)上的樣片，也會(huì)發(fā)現(xiàn)一律都是 5 秒（除非有剪輯）。

圖/ Luma AI

這個(gè)視頻時(shí)長(zhǎng)，比起國(guó)產(chǎn)視頻大模型 Vidu 的 16 秒（最近又宣稱延長(zhǎng)到了 32 秒的有聲視頻）就不用說(shuō)了，更何況是將 AI 生成視頻時(shí)長(zhǎng)突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息，Sora 能夠?qū)崿F(xiàn)視頻時(shí)長(zhǎng)突破，主要功臣是其所采用的擴(kuò)散 Transformer 架構(gòu)，在 Diffusion 擴(kuò)散模型的基礎(chǔ)上將 U-Net 架構(gòu)替換成了 Transformer 架構(gòu)。

「造夢(mèng)機(jī)器」呢？目前 Luma AI 公司并未透露具體的情況。

當(dāng)然，5 秒的視頻時(shí)長(zhǎng)你也不能說(shuō)太短，因?yàn)槟壳按罅康囊曨l生成模型也只能生成 5 秒的視頻，包括宣稱可以生成最長(zhǎng) 2 分鐘的快手可靈，至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時(shí)長(zhǎng)」一個(gè)維度，還得看畫(huà)面的可用性以及使用潛力。

表現(xiàn)驚艷，但內(nèi)容可靠嗎？

坦率地講，「造夢(mèng)機(jī)器」給小雷的第一印象還是挺驚艷的，首先感受下官方放出的樣片。

Dream Machine Video.gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

比如這段中，在一個(gè)氛圍透露著危險(xiǎn)的房間，一個(gè)持槍的男子小心翼翼地前進(jìn)。

除了人物主體和背景的一致性，最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射，在男子臉上，也可以看到原本詭譎的紅光在人物移動(dòng)過(guò)程中，色溫逐漸由暖轉(zhuǎn)冷，并與鄰近光源趨同，包括亮度的變化也符合基本的物理規(guī)律。

還有一段是在一間廢棄的房屋中發(fā)生了爆炸，鏡頭由遠(yuǎn)及近。雖然還是會(huì)出現(xiàn)憑空固定的白色棒狀物，但在鏡頭移動(dòng)的過(guò)程，不管是家具的不變，還是氣流變化引起的紙屑亂飛，都稱得上符合直覺(jué)。

另外「造夢(mèng)機(jī)器」也展現(xiàn)了作為動(dòng)畫(huà)創(chuàng)作工具的潛力，比如在一段視頻中，鏡頭從角色正面轉(zhuǎn)向背面，已經(jīng)很接近動(dòng)畫(huà)創(chuàng)作中的特寫(xiě)鏡頭。

Dream Machine 39.gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

但是，這些終究還是官方「嚴(yán)選」出來(lái)的。不管是文字、圖片還是視頻生成模型，官方 Demo 肯定會(huì)經(jīng)過(guò)精挑細(xì)選找出相對(duì)較好的，這一點(diǎn)大家都能理解，但從普通用戶的角度，很容易代入誤以為是模型的平均水平。

在實(shí)際網(wǎng)友創(chuàng)作和分享的內(nèi)容中，即便是在那些相當(dāng)驚艷的少數(shù)作品中，你也能看到或多或少的錯(cuò)誤。

比如@minchoi 用「造夢(mèng)機(jī)器」創(chuàng)作的美少女視頻，好幾段都完全媲美真人實(shí)拍。

圖/ X

不過(guò)，人物的手還是存在渲染問(wèn)題，而且人物的形態(tài)還是會(huì)有一定的變化，在前面提到的《戴珍珠耳環(huán)的少女》視頻中更加明顯。

Amplify Video 180109.gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

另外，一致性的問(wèn)題還體現(xiàn)在風(fēng)格上，有的明明是 2D 動(dòng)畫(huà)風(fēng)格，慢慢就開(kāi)始往 3D 動(dòng)畫(huà)的風(fēng)格轉(zhuǎn)。

Luma DIT 視頻生成模型 (1).gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

小雷也試著用「造夢(mèng)機(jī)器」創(chuàng)作了一段視頻，Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實(shí)際效果還是比較糟糕的：人物詭異的倒退，在背后拿著傘的怪異舉動(dòng)，還有飛起來(lái)的雨傘。

Luma Dream Machine video (1).gif

圖片經(jīng)過(guò)壓縮，圖/ Luma AI

不過(guò)還是有一些優(yōu)點(diǎn)的，比如路面的倒影，背景和人物的一致性。

即便如此，這些問(wèn)題說(shuō)到底還是沒(méi)有攔住廣大網(wǎng)友的創(chuàng)作熱情。畢竟相比 Sora，「造夢(mèng)機(jī)器」至少公開(kāi)可用，還有每個(gè)月 30 次的免費(fèi)生成機(jī)會(huì)。而相比大部分可用的視頻生成模型，「造夢(mèng)機(jī)器」在一致性也有明顯的進(jìn)步。

而除了免費(fèi)用戶，「造夢(mèng)機(jī)器」目前還提供三檔付費(fèi)選項(xiàng)，包括 29.99 美元的標(biāo)準(zhǔn)檔、99.99 美元的專業(yè)檔以及 499.99 美元的高級(jí)檔，區(qū)別是每個(gè)月可以生成視頻的次數(shù)。

圖/ Luma AI

對(duì)于普通用戶來(lái)說(shuō)，這些定價(jià)可能有些離譜，但對(duì)于那些開(kāi)始通過(guò)「造夢(mèng)機(jī)器」創(chuàng)作視頻在 TikTok 上賺錢的創(chuàng)作者來(lái)說(shuō)，估計(jì)還在接受范圍內(nèi)。

從 AI 畫(huà)圖到 AI 視頻，大模型再次混戰(zhàn)

AI 視頻不是從「造夢(mèng)機(jī)器」開(kāi)始的，當(dāng)然也不是從 Sora 開(kāi)始的。事實(shí)上早在 2022 年，AI 繪畫(huà)已經(jīng)開(kāi)始驚艷世界的時(shí)候，AI 視頻就開(kāi)始吸引大量的關(guān)注。

首先我們需要回到 2022 年那個(gè)時(shí)間點(diǎn)，彼時(shí) ChatGPT 還在醞釀（年底才發(fā)布），在大眾眼中，AI 技術(shù)發(fā)展最快速的領(lǐng)域當(dāng)屬 AI 繪畫(huà)。

2022 年 4 月，OpenAI 發(fā)布了新版本的文本生成圖像程序——DALL-E 2，一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開(kāi)始躥紅社交網(wǎng)絡(luò)，讓一眾畫(huà)師真正有了「失業(yè)」的擔(dān)憂。

圖/ OpenAI

包括之后的 Midjourney，它們?cè)谏蓤D像方面相比之前的產(chǎn)品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚，憑借開(kāi)源的優(yōu)勢(shì)，在用戶關(guān)注度和使用范圍都超越了 Midjourney 和 DALL-E，在初期的進(jìn)步也最明顯。

事實(shí)上，當(dāng)時(shí) AI 繪畫(huà)已經(jīng)開(kāi)始「侵入」社會(huì)的方方面面，不管是獲獎(jiǎng)的《太空歌劇院》（Midjourney 生成），還是各大公司開(kāi)始嘗試通過(guò) AI 繪畫(huà)直接生成廣告、海報(bào)甚至內(nèi)容作品。

圖片可以 AI 生成，視頻還會(huì)遠(yuǎn)嗎？眾所周知，視頻本質(zhì)上就是一幀一幀的圖片組成。所以在 2022 年，谷歌和 Meta 其實(shí)就開(kāi)始了一場(chǎng)關(guān)于 AI 生成視頻的競(jìng)爭(zhēng)，Meta 有 Make-A-Video，谷歌有 Imagen Video，二者都是通過(guò)文本直接生成視頻的視頻擴(kuò)散模型，底層還是 AI 繪圖那一套。

Google Meta Video Oct 10.gif

圖/ Meta

當(dāng)時(shí)，AI 生成視頻時(shí)長(zhǎng)都不超過(guò) 5 秒，分辨率也很低，同時(shí)畫(huà)面變化很小，與其說(shuō)視頻，更像是讓圖片「動(dòng)一動(dòng)」。更重要的是，谷歌和 Meta 受限于大公司的身份和慣性，都沒(méi)有選擇開(kāi)放給用戶以及創(chuàng)作者使用，更多還是研究成果的展示，影響范圍也基本局限在圈內(nèi)。

相比之下，Runway、Synthesia 以及 Pika 等 AI 視頻創(chuàng)業(yè)公司就顯得更加「靈活」。在去年發(fā)布的 Gen-2 上，Runway 不僅改進(jìn)了視頻生成的質(zhì)量，還增加了 Motion Slider（運(yùn)動(dòng)滑塊）、Camera Motion （相機(jī)運(yùn)動(dòng)）等功能，把更多視頻的控制權(quán)交給用戶。

去年火過(guò)一陣的 Pika 也是一款比較受關(guān)注的 AI 視頻生成工具，由于較高的畫(huà)面質(zhì)量甚至一度被稱為「視頻版 Midjourney」，同時(shí)相比 Runway Gen-2，Pika 為了確保內(nèi)容的可控性和擴(kuò)展性，還更進(jìn)一步給了創(chuàng)作者更多的控制權(quán)，比如可以精細(xì)到眼部和表情的規(guī)劃生成。

此后，包括 Stable Diffusion 以及 Midjourney 也都陸續(xù)推出了生成視頻的版本，讓 AI 生成視頻進(jìn)入戰(zhàn)國(guó)時(shí)代。但不管是哪一家，就 AI 生成視頻的畫(huà)面表現(xiàn)來(lái)看其實(shí)沒(méi)有太大的差異，更多是產(chǎn)品層面的差異。

直到 Sora 帶著 Transformer 架構(gòu)出道即碾壓。

大語(yǔ)言模型，在改變 AI 視頻生成

Sora 引發(fā)的震撼和討論可謂有目共睹，甚至有人認(rèn)為 Sora 將是通往 AGI（通用人工智能）的快車道。Sora 是否能真正理解物理世界的運(yùn)行規(guī)律，我們先放在一邊不談，但可以肯定的是，Sora 徹底改變了 AI 視頻生成技術(shù)的發(fā)展路線。

SUV in the dust.gif

圖片經(jīng)過(guò)壓縮、剪輯，圖/ OpenAI

Sora 最震撼的技術(shù)突破之一在于其輸出的視頻時(shí)長(zhǎng)，當(dāng)其他家普遍都只能生成數(shù)秒視頻的時(shí)候，Sora 就將時(shí)長(zhǎng)突破了 60 秒。

事實(shí)上，包括最新發(fā)布的「造夢(mèng)機(jī)器」也只能生成幾秒的視頻，一旦需要更長(zhǎng)的視頻，第二次、第三次、第 N 次生成的視頻很容易出現(xiàn)變形，導(dǎo)致前后畫(huà)面差異過(guò)大，從而無(wú)法使用。

此外，AI 生成視頻還普遍存在基于時(shí)間的連貫性問(wèn)題，但一段關(guān)于小狗的 Sora 生成視頻中，行人完全擋住畫(huà)面之后，小狗依然能保持住連貫性，主體也沒(méi)有發(fā)生明顯的變化。再有就是大家提過(guò)很多次的「模擬」，能夠很好地模擬符合物理世界規(guī)則的動(dòng)作。

而 Sora 的這些優(yōu)勢(shì)很大程度上來(lái)源于架構(gòu)上的核心區(qū)別，所以在 Sora 之后，Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合的全新技術(shù)路線很快受到了廣泛的關(guān)注，包括生數(shù)科技（聯(lián)合清華大學(xué)）Vidu、愛(ài)詩(shī)科技 PixVerse、快手可靈也都采取了這一路線。

從這個(gè)角度來(lái)看，雖然 Luma AI 沒(méi)有公開(kāi)「造夢(mèng)機(jī)器」采用的架構(gòu)設(shè)計(jì)，但結(jié)合在生成視頻中表現(xiàn)的一致性和邏輯表現(xiàn)，很難相信「造夢(mèng)機(jī)器」是在純擴(kuò)散模型上的產(chǎn)物，大概率，也是借鑒了 Sora 將 Transformer 架構(gòu)融入擴(kuò)散模型的做法。

當(dāng)然，這也只是一種猜測(cè)。但對(duì) AI 視頻來(lái)說(shuō)，這越來(lái)越成為一種必然。

來(lái)源：雷科技

原文標(biāo)題 : 視頻大模型“造夢(mèng)機(jī)器”爆紅：瑕疵真不少，關(guān)鍵是能用！