訂閱
糾錯(cuò)
加入自媒體

異軍突起的視頻AI,揭示了什么?

悄然崛起的視頻AI,標(biāo)志著AI競(jìng)爭(zhēng)進(jìn)入了下一階段。

在當(dāng)下的AI賽道上,AI聊天、繪畫(huà)一類(lèi)的應(yīng)用,早已枝繁葉茂。

然而,在此類(lèi)同質(zhì)化應(yīng)用扎堆的情況下,一類(lèi)頗有技術(shù)難度,也較少被人提及的方向,正在悄然崛起。

這就是最能調(diào)動(dòng)人感官的視頻AI領(lǐng)域。

根據(jù)twitter上的作者Will 郎瀚威統(tǒng)計(jì)的圖表,今年8—9月,各大文生圖類(lèi)AI網(wǎng)站的訪問(wèn)量均開(kāi)始呈現(xiàn)下降趨勢(shì)。

然而,就在這種情況下,國(guó)外知名視頻AI網(wǎng)站HeyGen的訪問(wèn)量上升了92%,流量躍居各大獨(dú)立AI網(wǎng)站之首。

那么,為何此前一直默默無(wú)聞的視頻AI,最近突然異軍突起,蓋過(guò)了風(fēng)頭正盛的文生圖類(lèi)AI應(yīng)用?

而在GPT-4V發(fā)布,多模態(tài)技術(shù)不斷取得突破的情況下,這一微妙的變化,又預(yù)示著什么?

01 多模態(tài)的前奏

從AI發(fā)展的大格局上來(lái)說(shuō),HeyGen的這波流量上升,或許只是多模態(tài)高歌猛進(jìn)背景下的一個(gè)插曲。

從谷歌宣布Gemini具有多模態(tài)功能的消息,到OpenAI發(fā)布GPT-4V,各個(gè)AI巨頭,似乎都將下一階段競(jìng)爭(zhēng)的焦點(diǎn)放在了多模態(tài)上。

那為何多模態(tài)成了巨頭眼中關(guān)鍵的“突破點(diǎn)”?

原因或許就在于,其具有打破“專(zhuān)業(yè)壁壘”的意義。

在多模態(tài)尚未取得突破之前,不同模態(tài)、領(lǐng)域之間,存在著巨大的鴻溝。

寫(xiě)文案,做編輯的人,即使再妙筆生花,如果缺乏相應(yīng)的美術(shù)知識(shí),以及各種專(zhuān)業(yè)的提示詞,也難以用AI畫(huà)出出色的作品。

而一個(gè)畫(huà)師如果沒(méi)有受過(guò)專(zhuān)業(yè)的寫(xiě)作訓(xùn)練,缺乏謀篇布局的思路,也難以憑借AI寫(xiě)出上乘的文章。

類(lèi)似的“壁壘”,在視頻剪輯方面,也同樣存在著。

根據(jù)知乎上一位視頻剪輯方面的從業(yè)者介紹,一個(gè)完整的視頻剪輯流程,包括了調(diào)色、整理素材、配字幕等一系列工作,要想熟練地進(jìn)行剪輯,必須掌握PR、Edius、剪映等多種剪輯軟件,同時(shí)還需熟悉各種轉(zhuǎn)場(chǎng)、調(diào)色、粒子特效等插件的使用。

如果想讓視頻呈現(xiàn)更豐富的效果,還要掌握b-roll轉(zhuǎn)場(chǎng)、字幕遮罩、坡度變速等復(fù)雜的操作。

此外,素材的搜集和整理,也是剪輯工作中的一大“苦活”,倘若題材較為冷門(mén),素材就會(huì)很不好找。有時(shí)盡管遇到了好的素材,也可能由于版權(quán)問(wèn)題難以使用。

正是由于上述原因,視頻剪輯,注定不是一個(gè)簡(jiǎn)單的、易于掌握的技能。

以國(guó)內(nèi)知名網(wǎng)站B站為例,據(jù)一位B站上百萬(wàn)粉絲的UP主團(tuán)隊(duì)透露,為了保證視頻更新的效率、質(zhì)量,這些賬號(hào)往往會(huì)配備數(shù)名較為熟練的剪輯人員,輪番進(jìn)行剪輯。

那么,倘若有一種智能化的AI剪輯應(yīng)用,能根據(jù)創(chuàng)作者想表達(dá)的思路,自動(dòng)、高效地完成整個(gè)視頻的制作,視頻制作領(lǐng)域,又會(huì)發(fā)生怎樣的顛覆呢?

實(shí)際上,這樣的技術(shù)早已出現(xiàn)。

下面這兩張圖片,分別來(lái)自兩段不同的視頻片段。

你能分辨出哪個(gè)是真人,哪個(gè)是AI生成的嗎?

答案是:這兩個(gè)視頻都是100%由AI生成的人像視頻。

而它們均出自此前提到的HeyGen之手。

在HeyGen上,用戶只需要用上傳一段2分鐘的小視頻,就能達(dá)到和真人一樣的效果,即使是像手勢(shì)、面容和口型這種“細(xì)微肢體語(yǔ)言”也能調(diào)整。

而這類(lèi)效果的實(shí)現(xiàn),正是當(dāng)下多模態(tài)技術(shù)發(fā)力的開(kāi)端。

02 視頻AI之力

上面所有這些視頻都出自HeyGen的Joshua Avatar 2.0,一款A(yù)I人像視頻的工具,主打的就是一個(gè)超逼真。

而實(shí)現(xiàn)這樣真實(shí)的視頻效果,步驟也非常簡(jiǎn)單,只需完成選形象—寫(xiě)文本—輸出三個(gè)步驟即可。

如果要論HeyGen與其他同類(lèi)視頻AI應(yīng)用最大的區(qū)別,就是它可以利用現(xiàn)有數(shù)據(jù)來(lái)創(chuàng)造全新和從未有過(guò)的內(nèi)容。

以往的類(lèi)似應(yīng)用,例如D-ID,雖然也能讓用戶從照片或者AI形象中生成視頻,但是這樣的技術(shù),更多是基于復(fù)制或處理已有的內(nèi)容的AI技術(shù)。

這些技術(shù)雖然也可以制作視頻,但是需要用戶提供自己的照片或錄音,或者從D-ID提供的一些固定的AI形象中選擇。這樣就需要用戶花費(fèi)更多的時(shí)間和精力來(lái)準(zhǔn)備和上傳素材,也限制了用戶的選擇和定制空間。

而相較之下,HeyGen的技術(shù)則可以讓用戶從文本中直接生成視頻,并使用多種不同的AI形象和聲音。

目前,HeyGen提供超過(guò)100+數(shù)字人素材和模板,廣告、電商、新聞等一應(yīng)俱全,也可以自己編輯PPT生成。

同時(shí),HeyGen還支持300+不同音色和40+語(yǔ)言,以及視頻翻譯功能。用戶可以一鍵將視頻無(wú)縫地翻譯成其他語(yǔ)言,這對(duì)于跨國(guó)和多語(yǔ)言的溝通非常有用。

通過(guò)這種定制化的、排列組合的方式,HeyGen可以快速、精簡(jiǎn)地制作出各種適用于多種場(chǎng)景的視頻。

而這樣的高自由度,也讓HeyGen使許多不精通視頻剪輯的人,打破了以往“技能邊界”,可以恣意地用視頻表達(dá)自己的想法。

除了HeyGen之外,在視頻AI領(lǐng)域,許多正在蓄勢(shì)待發(fā)的類(lèi)似應(yīng)用,也已經(jīng)在悄然崛起。

例如能直接將腳本轉(zhuǎn)化成視頻的Pictory.AI就是其中之一。

Pictory 允許用戶僅通過(guò)幾次點(diǎn)擊,就能將腳本轉(zhuǎn)化為配有逼真的AI語(yǔ)音、匹配的素材和音樂(lè)的專(zhuān)業(yè)質(zhì)量視頻。

具體來(lái)說(shuō),在制作視頻時(shí),用戶可以從Pictory 提供的多種模板中選擇一種,來(lái)設(shè)置視頻的樣式。

之后,Pictory 會(huì)根據(jù)用戶輸入的文本和選擇的模板和比例,自動(dòng)地生成一個(gè)故事板。故事板是一個(gè)由多個(gè)場(chǎng)景組成的視頻序列,每個(gè)場(chǎng)景包含了文字、圖片、AI語(yǔ)音和一段音樂(lè)。

最后,用戶可以在故事板上預(yù)覽視頻的效果,并進(jìn)行一些編輯和調(diào)整。

如此一來(lái),團(tuán)隊(duì)不需要昂貴的攝影師、剪輯師,也能制作出專(zhuān)業(yè)的、高質(zhì)量的視頻。

同樣地,用3D CGI角色替換真人演員的Wonder Studio,也是旨在提高視頻制作效率的AI應(yīng)用之一。

Wonder Studio 是一個(gè)基于網(wǎng)頁(yè)的視頻平臺(tái),它可以讓用戶輕松地將任意的計(jì)算機(jī)生成的角色(CGI character)添加到任何場(chǎng)景中,使用AI技術(shù)來(lái)實(shí)現(xiàn)無(wú)縫的融合。

用戶只需要拍攝自己想要的場(chǎng)景,并上傳到網(wǎng)站上,Wonder Studio 的AI引擎就會(huì)自動(dòng)分析場(chǎng)景中的演員的表演,包括他們的動(dòng)作和面部表情,并將這些信息轉(zhuǎn)換成運(yùn)動(dòng)數(shù)據(jù),然后用這些數(shù)據(jù)來(lái)驅(qū)動(dòng)用戶選擇的CGI角色。

這樣,用戶就可以完美地用3D CGI角色替換真人演員,無(wú)需使用復(fù)雜的3D軟件或者昂貴的制作設(shè)備,例如動(dòng)作捕捉服。

03 趨勢(shì)及國(guó)內(nèi)現(xiàn)狀

從以上視頻AI的技術(shù)特點(diǎn)中,我們至少可以總結(jié)出目前視頻AI技術(shù)的兩大趨勢(shì):

1、制作流程極大簡(jiǎn)化

利用生成式AI技術(shù),人們能夠以自動(dòng)化、智能化的方式,將文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)重新組合,來(lái)創(chuàng)造全新和從未有過(guò)的內(nèi)容,在降低成本的同時(shí),也打破了各個(gè)模態(tài)(或?qū)I(yè))之間的“技術(shù)壁壘”。

而這一壁壘的打破,正是生成式AI走向通用化、普及化的關(guān)鍵。

2、內(nèi)容的多樣性和定制性

利用多模態(tài)AI的技術(shù),人們能夠處理和關(guān)聯(lián)多種信息模態(tài),從而在內(nèi)容創(chuàng)作過(guò)程中,更好地表達(dá)自己的個(gè)性和風(fēng)格,并適應(yīng)不同的場(chǎng)合和目的。

這是以往受限于已有素材的單一模態(tài)技術(shù)難以實(shí)現(xiàn)的。

在上述兩大趨勢(shì)中,目前國(guó)內(nèi)的視頻AI應(yīng)用,只勉強(qiáng)做到了“簡(jiǎn)化”這一步。

雖然國(guó)內(nèi)目前也有一些與HeyGen類(lèi)似的AI視頻應(yīng)用,例如騰訊智影、一幀秒創(chuàng)、萬(wàn)彩微影等。這些應(yīng)用也利用了AI技術(shù)來(lái)簡(jiǎn)化視頻創(chuàng)作過(guò)程,并提供了文本配音、文章轉(zhuǎn)視頻、數(shù)字人播報(bào)等功能。

然而,在具體的生成效果方面,國(guó)內(nèi)應(yīng)用的視頻清晰度、素材豐富度,以及定制化功能方面,仍與HeyGen等應(yīng)用有著較大差距。

騰訊智影的數(shù)字人視頻,可選素材比較有限

從總體上來(lái)說(shuō),這類(lèi)應(yīng)用仍舊只能在平臺(tái)提供的素材庫(kù)內(nèi),選擇有限的元素進(jìn)行創(chuàng)作,并且在某些類(lèi)別(如數(shù)字人視頻)上,國(guó)產(chǎn)應(yīng)用生成的視頻,也未達(dá)到HeyGen視頻那樣流暢、逼真的標(biāo)準(zhǔn)。

如果說(shuō),在本輪AI革命中,國(guó)內(nèi)視頻AI技術(shù)僅僅止步于“降本”這一環(huán)節(jié),從長(zhǎng)遠(yuǎn)來(lái)看,是遠(yuǎn)遠(yuǎn)不足以征服智能化時(shí)代的觀眾的。

從當(dāng)下觀眾的態(tài)度來(lái)看,AI制作的視頻仍處于一種“不受待見(jiàn)”的狀態(tài),很多觀眾仍然覺(jué)得,在視頻中使用AI技術(shù),是一種偷懶、不負(fù)責(zé),且廉價(jià)的制作方式。

究其原因,是因?yàn)楫?dāng)下國(guó)內(nèi)的部分AI技術(shù),仍未突破一種感官上的閾值,仍然讓人明顯覺(jué)察到“這不是人做的”。

于是就給人造成了一種“沒(méi)有感情”、“粗制濫造”的印象。

更有甚者,甚至將那些使用了AI技術(shù)的視頻,打上了“營(yíng)銷(xiāo)號(hào)”的標(biāo)簽。

面對(duì)這樣的環(huán)境,任何珍惜自己羽毛的視頻創(chuàng)作者,都不敢輕易使用AI技術(shù)了,因?yàn)樯卤蝗水?dāng)成“營(yíng)銷(xiāo)號(hào)”,扣上“粗制濫造”的帽子。

生成式AI的進(jìn)步,確實(shí)極大簡(jiǎn)化了視頻制作的流程,但在已經(jīng)到來(lái)的智能時(shí)代,觀眾們已經(jīng)不想再看到那些批量的、流水線式的“低劣”視頻了。

而要想摘掉這樣的“低劣”標(biāo)簽,真正地讓作品具有感情和靈魂,除了一個(gè)勁兒地“降本”之外,在個(gè)性化、擬真度,以及素材豐富性方面,國(guó)產(chǎn)視頻AI還有很長(zhǎng)的路要走。

       原文標(biāo)題 : 異軍突起的視頻AI,揭示了什么?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)