A级毛片爱爱,亚洲一级aaa精品

可靈VS即夢(mèng)：初探“多模態(tài)”

2025-11-04 13:51

硅基星芒

關(guān)注

目前國(guó)內(nèi)兩個(gè)最火的AI生成視頻平臺(tái)，非可靈和即夢(mèng)莫屬。

作為影視外行人和AI愛(ài)好者，我準(zhǔn)備組建一個(gè)純AI的“影視團(tuán)隊(duì)”，看看效果如何。

在正式開(kāi)始之前，還有一個(gè)問(wèn)題：文生圖+圖生視頻or文生視頻？

兩個(gè)平臺(tái)都具備上述功能，那么兩條路應(yīng)該走哪條？

AI給出的答案是：使用“文生圖+圖生視頻”的方法具備更高的可控性；而“文生視頻”的方法能夠讓視頻更有“動(dòng)態(tài)感”。

考慮了一下成本和效率，我還是選擇了可控性?xún)?yōu)先。

01第一步：AI編劇，編寫(xiě)劇本

想拍一部電影出來(lái)，首先肯定得有編劇來(lái)寫(xiě)劇本。

我把先前公眾號(hào)上發(fā)布過(guò)的一篇文章，以PDF形式丟給了目前公認(rèn)性能強(qiáng)大的Gemini 2.5 Pro。

不得不承認(rèn)，文字方面，AI當(dāng)編劇確實(shí)是綽綽有余。

分鏡頭腳本寫(xiě)得有模有樣，像我這種外行人可是完全寫(xiě)不出來(lái)。

尤其是圖生視頻指令，涵蓋了場(chǎng)景、動(dòng)作、運(yùn)鏡、風(fēng)格這些專(zhuān)業(yè)化的東西，解決了大麻煩。

02 第二步：AI畫(huà)師，繪制“分鏡圖”

前面已經(jīng)說(shuō)過(guò)，采用“文生圖+圖生視頻”的方式可以提高可控性。

劇本既然已經(jīng)有了，接下來(lái)的任務(wù)就是繪制“分鏡”。

我把AI編劇寫(xiě)好的這些首幀圖片指令，統(tǒng)統(tǒng)交給了騰訊混元這個(gè)AI文生圖模型。

相比文字，AI在圖片領(lǐng)域的能力顯然有所下降。

好在混元生圖的美術(shù)功底靠得住，給出的大部分圖片質(zhì)量都不錯(cuò)，基本符合預(yù)期。

當(dāng)然，也有下面這些“瑕疵品”：

例如，“一條水平的發(fā)光進(jìn)度條，位于畫(huà)面下方，滑塊在起始位置。背景是模糊的彩色光影。”

AI顯然是沒(méi)能理解指令。

以及，“一條高度精密的汽車(chē)生產(chǎn)線(xiàn)，無(wú)數(shù)機(jī)械臂在協(xié)同工作，焊接時(shí)火花四濺，充滿(mǎn)工業(yè)美感。”

這次則是邏輯錯(cuò)誤，一群機(jī)械臂似乎正在破壞一輛完工的汽車(chē)。

03第三步：AI導(dǎo)演，讓圖片“動(dòng)”起來(lái)

我把前面生成的靜態(tài)圖片和圖生視頻指令分別發(fā)給本次拍攝的導(dǎo)演——可靈和即夢(mèng)。

然而，“開(kāi)機(jī)”以后不久，我就遇到了理想與現(xiàn)實(shí)的碰撞。

剛開(kāi)始，看到AI生成的幾個(gè)時(shí)長(zhǎng)5秒的視頻時(shí)，我還是挺滿(mǎn)意的。

畢竟，這些動(dòng)態(tài)效果和光影變化在一個(gè)外行人眼里已經(jīng)非常驚艷，畫(huà)面也十分流暢。

不過(guò)，隨著生成的視頻越來(lái)越多，導(dǎo)演就開(kāi)始露餡了，各自開(kāi)始生成一些很奇怪的東西。

問(wèn)題一：“導(dǎo)演壓根不按照劇本來(lái)”

這是最常見(jiàn)的問(wèn)題，無(wú)法容忍的“不聽(tīng)指令”。

先來(lái)看一個(gè)讓人哭笑不得的例子：

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 汽車(chē)的前大燈被激活，從一條細(xì)線(xiàn)開(kāi)始，然后突然亮起，射出明亮而銳利的光束。一道微弱的能量光澤沿著車(chē)身的氣動(dòng)線(xiàn)條流動(dòng)。

運(yùn)鏡方式: 緩慢而富有戲劇性的向上搖鏡頭（Tilt Up），從前輪開(kāi)始，向上移動(dòng)到擋風(fēng)玻璃，讓汽車(chē)感覺(jué)充滿(mǎn)力量。

畫(huà)面風(fēng)格與質(zhì)感: “英雄特寫(xiě)鏡頭”。電影級(jí)，精致，高級(jí)感。增加輕微的鏡頭光暈效果。

指令中寫(xiě)的明明白白，汽車(chē)的前大燈被激活，但可靈生成的視頻中卻是從車(chē)身中間射出一道光線(xiàn)，多少有點(diǎn)莫名其妙。

相比之下，即夢(mèng)生成的視頻效果要好一點(diǎn)。

問(wèn)題二：“牛頓看了都得沉默”的物理和邏輯錯(cuò)誤

讓AI做物理題，它得心應(yīng)手；但讓它生成視頻，它似乎又沒(méi)完全學(xué)會(huì)現(xiàn)實(shí)世界的物理規(guī)則。

“穿模”可以算是家常便飯了，即夢(mèng)和可靈生成的視頻都存在這個(gè)問(wèn)題，比如：

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 所有機(jī)器以驚人的速度和完美的協(xié)調(diào)性協(xié)同工作，展現(xiàn)出極致的效率。機(jī)械臂抓取包裹，無(wú)人車(chē)流暢地避讓和穿行。

運(yùn)鏡方式: 在倉(cāng)庫(kù)內(nèi)進(jìn)行一個(gè)長(zhǎng)距離、平滑的移動(dòng)鏡頭（長(zhǎng)鏡頭），一鏡到底地展示整個(gè)流程。

畫(huà)面風(fēng)格與質(zhì)感: 工業(yè)美學(xué)，科技感，秩序感。畫(huà)面干凈，動(dòng)作流暢。

另外，物理運(yùn)動(dòng)的實(shí)現(xiàn)看起來(lái)也很不合理：

圖生視頻指令:

場(chǎng)景描述與動(dòng)作: 一顆閃亮的金色石子投入水中，激起一圈圈巨大而絢爛的彩色漣漪，漣漪擴(kuò)散的速度非�？�，瞬間照亮整個(gè)水面。

運(yùn)鏡方式: 俯視視角，緩慢放大（Zoom In）。

畫(huà)面風(fēng)格與質(zhì)感: 詩(shī)意，愉悅。用漣漪的爆發(fā)來(lái)象征多巴胺的瞬間釋放。

即夢(mèng)生成的視頻中，金色石子并非被投入，而是直接從水中浮現(xiàn)出來(lái)：

可靈則較好地完成了指令內(nèi)容：

問(wèn)題三：短時(shí)間內(nèi)的失憶癥

AI生成的視頻有一個(gè)重大的缺陷，那就是一致性實(shí)在是太差。

短短5秒之間，一個(gè)鏡頭的主角就可能發(fā)生大幅度的變化。比如：

場(chǎng)景描述與動(dòng)作: 表盤(pán)上的分針以極快的速度平滑地旋轉(zhuǎn)一圈。剛一停下，手表屏幕上就出現(xiàn)一個(gè)柔和的、發(fā)光的脈沖動(dòng)畫(huà)。

運(yùn)鏡方式: 靜態(tài)特寫(xiě)。

畫(huà)面風(fēng)格與質(zhì)感: 現(xiàn)代，簡(jiǎn)潔，高效。脈沖動(dòng)畫(huà)干脆利落，代表“送達(dá)”的提醒。

即夢(mèng)生成的視頻，咱們暫且不談“極快的速度”和“脈沖動(dòng)畫(huà)”實(shí)現(xiàn)的如何，這表盤(pán)直接就換了個(gè)樣：

即夢(mèng)生成的視頻，咱們暫且不談“極快的速度”和“脈沖動(dòng)畫(huà)”實(shí)現(xiàn)的如何，這表盤(pán)直接就換了個(gè)樣。

可靈生成的視頻就沒(méi)有發(fā)生這個(gè)錯(cuò)誤:

如果在這么短的時(shí)間內(nèi)都無(wú)法保證一致性，整個(gè)視頻的觀感肯定是好不到哪去。

04 使用感受

對(duì)于圖生視頻的AI平臺(tái)，它們確實(shí)是強(qiáng)大的工具，但目前還不是成為合格的導(dǎo)演。

先說(shuō)可靈，它的表現(xiàn)相對(duì)更好一些。

對(duì)于物理世界的模擬和動(dòng)態(tài)真實(shí)感，它完成的不錯(cuò)，基本符合現(xiàn)實(shí)世界中的物理規(guī)律。

其次，可靈對(duì)于指令中概念的理解深度和藝術(shù)詮釋能力更具優(yōu)勢(shì)。不僅是字面意義，它還能在一定程度上理解文字背后的抽象概念和用戶(hù)想要表達(dá)的情緒。

而且，可靈似乎并不是一個(gè)讓做什么就做什么的死板機(jī)器。它生成的視頻中，有些畫(huà)面并未在文字中寫(xiě)明，卻能或深或淺地反映主題。

如此說(shuō)來(lái)，它更傾向于一個(gè)愿意突破邊界進(jìn)行嘗試的“藝術(shù)家”。

另外，根據(jù)“影評(píng)人”Gemini 2.5 Pro的反饋，可靈具備強(qiáng)大的鏡頭語(yǔ)言掌握力，能夠成功完成“推拉變焦”、“向上搖鏡”等復(fù)雜運(yùn)鏡。

對(duì)于可靈生成抽象CG場(chǎng)景，影評(píng)人認(rèn)為在技術(shù)質(zhì)量和美學(xué)上都已經(jīng)達(dá)到專(zhuān)業(yè)水準(zhǔn)。

但是在這位“藝術(shù)家”發(fā)揮想象力的同時(shí)，也帶來(lái)了一些問(wèn)題：

較低的圖像保真度和頻繁的場(chǎng)景重構(gòu)。

選擇性執(zhí)行用戶(hù)指令和跑偏的創(chuàng)意。

這就是可靈“導(dǎo)演哲學(xué)”的必然代價(jià)，生成的視頻可能會(huì)與預(yù)想的畫(huà)面相差甚遠(yuǎn)。

再來(lái)說(shuō)說(shuō)即夢(mèng)，相比藝術(shù)家，它更保守一些。

即夢(mèng)生成視頻的優(yōu)勢(shì)在于極高的圖像保真度和穩(wěn)定性。

每個(gè)鏡頭的主體基本不會(huì)出現(xiàn)大幅度的扭曲和變形，畫(huà)面也比較穩(wěn)定。

這就意味著，即夢(mèng)的“圖生視頻”功能，生成視頻的質(zhì)量很大程度上取決于圖的質(zhì)量。

此外，即夢(mèng)對(duì)于復(fù)雜構(gòu)圖的指令也能夠較為精準(zhǔn)的實(shí)現(xiàn)，它對(duì)于指令的理解和執(zhí)行能力更為可靠。

不過(guò)，即夢(mèng)的缺點(diǎn)在于難以實(shí)現(xiàn)物理上的真實(shí)感，而且缺乏一些動(dòng)態(tài)邏輯。

上面一些令人匪夷所思的場(chǎng)面大多出自它手。這也是對(duì)于概念理解深度不夠、缺乏敘事能力的一種體現(xiàn)。

除此之外，“影評(píng)人”也指出，即夢(mèng)的鏡頭語(yǔ)言理解和執(zhí)行能力較為薄弱，幾乎無(wú)法完成較為復(fù)雜的電影運(yùn)鏡，降低了視頻的表現(xiàn)力。

05 最后的一點(diǎn)想法

兩個(gè)模型生成的視頻都已經(jīng)證明，對(duì)于一般的平臺(tái)用戶(hù)而言，高難度指令往往帶來(lái)的是失敗的結(jié)果，技術(shù)的邊界尚未被突破。

技術(shù)角度來(lái)看：

AI生成視頻領(lǐng)域內(nèi)，“保真”和“創(chuàng)意”這兩條核心的技術(shù)路線(xiàn)仍然存在博弈，不能兼顧。

此外，視頻時(shí)長(zhǎng)也是目前存在的一大限制。

不管是國(guó)內(nèi)還是國(guó)外的AI視頻生成平臺(tái)，大多將單個(gè)視頻的時(shí)長(zhǎng)嚴(yán)格控制在5-10秒內(nèi)。

單個(gè)視頻能夠表達(dá)的內(nèi)容有限，生成長(zhǎng)時(shí)間、情節(jié)連貫的視頻對(duì)這一領(lǐng)域仍是巨大挑戰(zhàn)。

而這對(duì)于用戶(hù)來(lái)說(shuō)，為編寫(xiě)提示詞增加了難度。

寫(xiě)的太細(xì)致，模型無(wú)法理解，也無(wú)法在短短幾秒內(nèi)將內(nèi)容表達(dá)完全；

寫(xiě)的太粗糙，模型生成的內(nèi)容往往與用戶(hù)的意圖相隔十萬(wàn)八千里。

成本角度來(lái)看：

通過(guò)強(qiáng)大的設(shè)備和算力進(jìn)行本地部署，再對(duì)模型進(jìn)行微調(diào)，可能才是生成高質(zhì)量視頻的可靠選擇。

但，這成本可不是一般用戶(hù)承受得起的。

即便是這兩個(gè)在線(xiàn)應(yīng)用平臺(tái)，會(huì)員價(jià)格也并不便宜。

單買(mǎi)積分的話(huà)，即夢(mèng)上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻；

可靈上使用標(biāo)準(zhǔn)模式+5秒視頻則是2元1條視頻。

但根據(jù)我的使用經(jīng)歷來(lái)看，想要生成的視頻能達(dá)到一般短視頻的水平，肯定是需要升級(jí)配置并多次生成、不斷調(diào)試的。

而這個(gè)過(guò)程，開(kāi)銷(xiāo)肯定會(huì)不斷增長(zhǎng)。

因此，導(dǎo)演、攝像師和后期老師們大可以松一口氣。

想讓AI生成具備觀賞性的影片，我們不妨再多些耐心。

原文標(biāo)題 : 可靈VS即夢(mèng)：初探“多模態(tài)”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

圖片新聞