訂閱
糾錯(cuò)
加入自媒體

可靈VS即夢(mèng):初探“多模態(tài)”

目前國(guó)內(nèi)兩個(gè)最火的AI生成視頻平臺(tái),非可靈和即夢(mèng)莫屬。

作為影視外行人和AI愛(ài)好者,我準(zhǔn)備組建一個(gè)純AI的“影視團(tuán)隊(duì)”,看看效果如何。

在正式開(kāi)始之前,還有一個(gè)問(wèn)題:文生圖+圖生視頻or文生視頻?

兩個(gè)平臺(tái)都具備上述功能,那么兩條路應(yīng)該走哪條?

AI給出的答案是:使用“文生圖+圖生視頻”的方法具備更高的可控性;而“文生視頻”的方法能夠讓視頻更有“動(dòng)態(tài)感”。

考慮了一下成本和效率,我還是選擇了可控性?xún)?yōu)先。

01第一步:AI編劇,編寫(xiě)劇本

想拍一部電影出來(lái),首先肯定得有編劇來(lái)寫(xiě)劇本。

我把先前公眾號(hào)上發(fā)布過(guò)的一篇文章,以PDF形式丟給了目前公認(rèn)性能強(qiáng)大的Gemini 2.5 Pro。

不得不承認(rèn),文字方面,AI當(dāng)編劇確實(shí)是綽綽有余。

分鏡頭腳本寫(xiě)得有模有樣,像我這種外行人可是完全寫(xiě)不出來(lái)。

尤其是圖生視頻指令,涵蓋了場(chǎng)景、動(dòng)作、運(yùn)鏡、風(fēng)格這些專(zhuān)業(yè)化的東西,解決了大麻煩。

02 第二步:AI畫(huà)師,繪制“分鏡圖”

前面已經(jīng)說(shuō)過(guò),采用“文生圖+圖生視頻”的方式可以提高可控性。

劇本既然已經(jīng)有了,接下來(lái)的任務(wù)就是繪制“分鏡”。

我把AI編劇寫(xiě)好的這些首幀圖片指令,統(tǒng)統(tǒng)交給了騰訊混元這個(gè)AI文生圖模型。

相比文字,AI在圖片領(lǐng)域的能力顯然有所下降。

好在混元生圖的美術(shù)功底靠得住,給出的大部分圖片質(zhì)量都不錯(cuò),基本符合預(yù)期。

當(dāng)然,也有下面這些“瑕疵品”:

例如,“一條水平的發(fā)光進(jìn)度條,位于畫(huà)面下方,滑塊在起始位置。背景是模糊的彩色光影。”

AI顯然是沒(méi)能理解指令。

7

以及,“一條高度精密的汽車(chē)生產(chǎn)線(xiàn),無(wú)數(shù)機(jī)械臂在協(xié)同工作,焊接時(shí)火花四濺,充滿(mǎn)工業(yè)美感。”

這次則是邏輯錯(cuò)誤,一群機(jī)械臂似乎正在破壞一輛完工的汽車(chē)。

29

03第三步:AI導(dǎo)演,讓圖片“動(dòng)”起來(lái)

我把前面生成的靜態(tài)圖片和圖生視頻指令分別發(fā)給本次拍攝的導(dǎo)演——可靈和即夢(mèng)。

然而,“開(kāi)機(jī)”以后不久,我就遇到了理想與現(xiàn)實(shí)的碰撞。

剛開(kāi)始,看到AI生成的幾個(gè)時(shí)長(zhǎng)5秒的視頻時(shí),我還是挺滿(mǎn)意的。

畢竟,這些動(dòng)態(tài)效果和光影變化在一個(gè)外行人眼里已經(jīng)非常驚艷,畫(huà)面也十分流暢。

不過(guò),隨著生成的視頻越來(lái)越多,導(dǎo)演就開(kāi)始露餡了,各自開(kāi)始生成一些很奇怪的東西。

問(wèn)題一:“導(dǎo)演壓根不按照劇本來(lái)”

這是最常見(jiàn)的問(wèn)題,無(wú)法容忍的“不聽(tīng)指令”。

先來(lái)看一個(gè)讓人哭笑不得的例子:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 汽車(chē)的前大燈被激活,從一條細(xì)線(xiàn)開(kāi)始,然后突然亮起,射出明亮而銳利的光束。一道微弱的能量光澤沿著車(chē)身的氣動(dòng)線(xiàn)條流動(dòng)。

運(yùn)鏡方式: 緩慢而富有戲劇性的向上搖鏡頭(Tilt Up),從前輪開(kāi)始,向上移動(dòng)到擋風(fēng)玻璃,讓汽車(chē)感覺(jué)充滿(mǎn)力量。

畫(huà)面風(fēng)格與質(zhì)感: “英雄特寫(xiě)鏡頭”。電影級(jí),精致,高級(jí)感。增加輕微的鏡頭光暈效果。

指令中寫(xiě)的明明白白,汽車(chē)的前大燈被激活,但可靈生成的視頻中卻是從車(chē)身中間射出一道光線(xiàn),多少有點(diǎn)莫名其妙。

相比之下,即夢(mèng)生成的視頻效果要好一點(diǎn)。

問(wèn)題二:“牛頓看了都得沉默”的物理和邏輯錯(cuò)誤

讓AI做物理題,它得心應(yīng)手;但讓它生成視頻,它似乎又沒(méi)完全學(xué)會(huì)現(xiàn)實(shí)世界的物理規(guī)則。

“穿模”可以算是家常便飯了,即夢(mèng)和可靈生成的視頻都存在這個(gè)問(wèn)題,比如:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 所有機(jī)器以驚人的速度和完美的協(xié)調(diào)性協(xié)同工作,展現(xiàn)出極致的效率。機(jī)械臂抓取包裹,無(wú)人車(chē)流暢地避讓和穿行。

運(yùn)鏡方式: 在倉(cāng)庫(kù)內(nèi)進(jìn)行一個(gè)長(zhǎng)距離、平滑的移動(dòng)鏡頭(長(zhǎng)鏡頭),一鏡到底地展示整個(gè)流程。

畫(huà)面風(fēng)格與質(zhì)感: 工業(yè)美學(xué),科技感,秩序感。畫(huà)面干凈,動(dòng)作流暢。

另外,物理運(yùn)動(dòng)的實(shí)現(xiàn)看起來(lái)也很不合理:

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 一顆閃亮的金色石子投入水中,激起一圈圈巨大而絢爛的彩色漣漪,漣漪擴(kuò)散的速度非?,瞬間照亮整個(gè)水面。

運(yùn)鏡方式: 俯視視角,緩慢放大(Zoom In)。

畫(huà)面風(fēng)格與質(zhì)感: 詩(shī)意,愉悅。用漣漪的爆發(fā)來(lái)象征多巴胺的瞬間釋放。

即夢(mèng)生成的視頻中,金色石子并非被投入,而是直接從水中浮現(xiàn)出來(lái):

可靈則較好地完成了指令內(nèi)容:

問(wèn)題三:短時(shí)間內(nèi)的失憶癥

AI生成的視頻有一個(gè)重大的缺陷,那就是一致性實(shí)在是太差。

短短5秒之間,一個(gè)鏡頭的主角就可能發(fā)生大幅度的變化。比如:

場(chǎng)景描述與動(dòng)作: 表盤(pán)上的分針以極快的速度平滑地旋轉(zhuǎn)一圈。剛一停下,手表屏幕上就出現(xiàn)一個(gè)柔和的、發(fā)光的脈沖動(dòng)畫(huà)。

運(yùn)鏡方式: 靜態(tài)特寫(xiě)。

畫(huà)面風(fēng)格與質(zhì)感: 現(xiàn)代,簡(jiǎn)潔,高效。脈沖動(dòng)畫(huà)干脆利落,代表“送達(dá)”的提醒。

即夢(mèng)生成的視頻,咱們暫且不談“極快的速度”和“脈沖動(dòng)畫(huà)”實(shí)現(xiàn)的如何,這表盤(pán)直接就換了個(gè)樣:

即夢(mèng)生成的視頻,咱們暫且不談“極快的速度”和“脈沖動(dòng)畫(huà)”實(shí)現(xiàn)的如何,這表盤(pán)直接就換了個(gè)樣。

可靈生成的視頻就沒(méi)有發(fā)生這個(gè)錯(cuò)誤:

如果在這么短的時(shí)間內(nèi)都無(wú)法保證一致性,整個(gè)視頻的觀感肯定是好不到哪去。

04 使用感受

對(duì)于圖生視頻的AI平臺(tái),它們確實(shí)是強(qiáng)大的工具,但目前還不是成為合格的導(dǎo)演。

先說(shuō)可靈,它的表現(xiàn)相對(duì)更好一些。

對(duì)于物理世界的模擬和動(dòng)態(tài)真實(shí)感,它完成的不錯(cuò),基本符合現(xiàn)實(shí)世界中的物理規(guī)律。

其次,可靈對(duì)于指令中概念的理解深度和藝術(shù)詮釋能力更具優(yōu)勢(shì)。不僅是字面意義,它還能在一定程度上理解文字背后的抽象概念和用戶(hù)想要表達(dá)的情緒。

而且,可靈似乎并不是一個(gè)讓做什么就做什么的死板機(jī)器。它生成的視頻中,有些畫(huà)面并未在文字中寫(xiě)明,卻能或深或淺地反映主題。

如此說(shuō)來(lái),它更傾向于一個(gè)愿意突破邊界進(jìn)行嘗試的“藝術(shù)家”。

另外,根據(jù)“影評(píng)人”Gemini 2.5 Pro的反饋,可靈具備強(qiáng)大的鏡頭語(yǔ)言掌握力,能夠成功完成“推拉變焦”、“向上搖鏡”等復(fù)雜運(yùn)鏡。

對(duì)于可靈生成抽象CG場(chǎng)景,影評(píng)人認(rèn)為在技術(shù)質(zhì)量和美學(xué)上都已經(jīng)達(dá)到專(zhuān)業(yè)水準(zhǔn)。

但是在這位“藝術(shù)家”發(fā)揮想象力的同時(shí),也帶來(lái)了一些問(wèn)題:

較低的圖像保真度和頻繁的場(chǎng)景重構(gòu)。

選擇性執(zhí)行用戶(hù)指令和跑偏的創(chuàng)意。

這就是可靈“導(dǎo)演哲學(xué)”的必然代價(jià),生成的視頻可能會(huì)與預(yù)想的畫(huà)面相差甚遠(yuǎn)。

再來(lái)說(shuō)說(shuō)即夢(mèng),相比藝術(shù)家,它更保守一些。

即夢(mèng)生成視頻的優(yōu)勢(shì)在于極高的圖像保真度和穩(wěn)定性。

每個(gè)鏡頭的主體基本不會(huì)出現(xiàn)大幅度的扭曲和變形,畫(huà)面也比較穩(wěn)定。

這就意味著,即夢(mèng)的“圖生視頻”功能,生成視頻的質(zhì)量很大程度上取決于圖的質(zhì)量。

此外,即夢(mèng)對(duì)于復(fù)雜構(gòu)圖的指令也能夠較為精準(zhǔn)的實(shí)現(xiàn),它對(duì)于指令的理解和執(zhí)行能力更為可靠。

不過(guò),即夢(mèng)的缺點(diǎn)在于難以實(shí)現(xiàn)物理上的真實(shí)感,而且缺乏一些動(dòng)態(tài)邏輯。

上面一些令人匪夷所思的場(chǎng)面大多出自它手。這也是對(duì)于概念理解深度不夠、缺乏敘事能力的一種體現(xiàn)。

除此之外,“影評(píng)人”也指出,即夢(mèng)的鏡頭語(yǔ)言理解和執(zhí)行能力較為薄弱,幾乎無(wú)法完成較為復(fù)雜的電影運(yùn)鏡,降低了視頻的表現(xiàn)力。

05 最后的一點(diǎn)想法

兩個(gè)模型生成的視頻都已經(jīng)證明,對(duì)于一般的平臺(tái)用戶(hù)而言,高難度指令往往帶來(lái)的是失敗的結(jié)果,技術(shù)的邊界尚未被突破。

技術(shù)角度來(lái)看:

AI生成視頻領(lǐng)域內(nèi),“保真”和“創(chuàng)意”這兩條核心的技術(shù)路線(xiàn)仍然存在博弈,不能兼顧。

此外,視頻時(shí)長(zhǎng)也是目前存在的一大限制。

不管是國(guó)內(nèi)還是國(guó)外的AI視頻生成平臺(tái),大多將單個(gè)視頻的時(shí)長(zhǎng)嚴(yán)格控制在5-10秒內(nèi)。

單個(gè)視頻能夠表達(dá)的內(nèi)容有限,生成長(zhǎng)時(shí)間、情節(jié)連貫的視頻對(duì)這一領(lǐng)域仍是巨大挑戰(zhàn)。

而這對(duì)于用戶(hù)來(lái)說(shuō),為編寫(xiě)提示詞增加了難度。

寫(xiě)的太細(xì)致,模型無(wú)法理解,也無(wú)法在短短幾秒內(nèi)將內(nèi)容表達(dá)完全;

寫(xiě)的太粗糙,模型生成的內(nèi)容往往與用戶(hù)的意圖相隔十萬(wàn)八千里。

成本角度來(lái)看:

通過(guò)強(qiáng)大的設(shè)備和算力進(jìn)行本地部署,再對(duì)模型進(jìn)行微調(diào),可能才是生成高質(zhì)量視頻的可靠選擇。

但,這成本可不是一般用戶(hù)承受得起的。

即便是這兩個(gè)在線(xiàn)應(yīng)用平臺(tái),會(huì)員價(jià)格也并不便宜。

單買(mǎi)積分的話(huà),即夢(mèng)上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻;

可靈上使用標(biāo)準(zhǔn)模式+5秒視頻則是2元1條視頻。

但根據(jù)我的使用經(jīng)歷來(lái)看,想要生成的視頻能達(dá)到一般短視頻的水平,肯定是需要升級(jí)配置并多次生成、不斷調(diào)試的。

而這個(gè)過(guò)程,開(kāi)銷(xiāo)肯定會(huì)不斷增長(zhǎng)。

因此,導(dǎo)演、攝像師和后期老師們大可以松一口氣。

想讓AI生成具備觀賞性的影片,我們不妨再多些耐心。

       原文標(biāo)題 : 可靈VS即夢(mèng):初探“多模態(tài)”

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)