比AI視頻換臉還可怕!DeepMind新AI可生成逼真視頻
近日,DeepMind的研究人員研發(fā)了一個(gè)名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,該模型通過(guò)能夠通過(guò)學(xué)習(xí)一系列的YouTube視頻數(shù)據(jù)集,生成高度逼真且連貫的256 x 256像素視頻,最長(zhǎng)可達(dá)48幀。
目前,DVD-GAN的研究成果已于美國(guó)時(shí)間2019年7月15日發(fā)表在arxiv上,名為《在復(fù)雜數(shù)據(jù)集上的高效視頻生成(Efficient Video Generation on Complex Datasets)》。
AI造假視頻比造假圖片更難
最近,俄羅斯AI研究人員開(kāi)發(fā)的FaceApp著實(shí)大火了一把,這款應(yīng)用通過(guò)人工智能技術(shù)能夠改變用戶(hù)自拍照的年齡、外貌、發(fā)色和性別,甚至可以生成虛構(gòu)的人物照片。這直接讓人們近距離地感受了人工智能技術(shù)給我們的生活帶來(lái)的樂(lè)趣。
但是否有人想過(guò),有朝一日這些技術(shù)也能應(yīng)用在視頻領(lǐng)域呢?
如果說(shuō)BigGAN是DeepMind在圖像領(lǐng)域開(kāi)發(fā)的能夠生成高度逼真圖像的圖像生成器,那么DeepMind研究人員們開(kāi)發(fā)的DVD-GAN,就是人工智能在視頻剪輯生成領(lǐng)域的最新突破。
研究人員在論文中表示,生成自然視頻對(duì)生成式建模來(lái)說(shuō)是一個(gè)較大的挑戰(zhàn),同時(shí)還會(huì)受到數(shù)據(jù)復(fù)雜性和計(jì)算需求增加的困擾。
因此,之前業(yè)界的研究人員們?cè)谘芯恳曨l生成領(lǐng)域時(shí),幾乎都圍繞著相對(duì)簡(jiǎn)單的數(shù)據(jù)集,或者采用有限的時(shí)間信息來(lái)降低任務(wù)的復(fù)雜程度。
而這次,DeepMind的研究人員們主要針對(duì)視頻合成和視頻預(yù)測(cè)的任務(wù),將生成圖像模型的強(qiáng)大功能和逼真效果擴(kuò)展到視頻領(lǐng)域。
DVD-GAN:基于BigGAN模型結(jié)構(gòu)
研究人員們基于BigGAN的模型結(jié)構(gòu),構(gòu)建了DVD-GAN的系統(tǒng),并引入了一系列用于視頻生成的調(diào)整,使DVD-GAN能夠在Kinetics-600上進(jìn)行訓(xùn)練。
Kinetics-600是一組由50萬(wàn)段10秒高分辨率的YouTube視頻剪輯匯編而成的訓(xùn)練數(shù)據(jù)集,它最初是為識(shí)別人類(lèi)動(dòng)作而制作的,比目前其他常用的語(yǔ)料庫(kù)還大一個(gè)數(shù)量級(jí)。
同時(shí),研究人員們表示,Kinetics-600具有多樣化特征,能消除他們對(duì)過(guò)擬合(Overfitting)的擔(dān)憂(yōu)。過(guò)擬合主要是指機(jī)器學(xué)習(xí)時(shí)選擇的模型所包含的參數(shù)過(guò)多,以至出現(xiàn)這一模型對(duì)已知數(shù)據(jù)預(yù)測(cè)得很好,但對(duì)未知數(shù)據(jù)預(yù)測(cè)得很差的現(xiàn)象。
另一方面,DeepMind的研究人員們利用生成對(duì)抗以提供一個(gè)能生成動(dòng)作的學(xué)習(xí)信號(hào)。
此外,DVD-GAN還有一個(gè)單獨(dú)的Transformer模塊,它可以讓學(xué)習(xí)信息在整合AI模型中傳播。
訓(xùn)練12至96小時(shí)即可生成視頻
研究論文表明,在經(jīng)過(guò)Google第三代TPU訓(xùn)練了12至96個(gè)小時(shí)后,DVD-GAN可以成功地生成視頻,這些視頻內(nèi)容包含了物體的組成和運(yùn)動(dòng),以及各種復(fù)雜的紋理。
不足的是,DVD-GAN生成的視頻內(nèi)容有時(shí)較為“詭異”,例如生成的物體和人形奇形怪狀,甚至人體忽長(zhǎng)忽短地變化。
但研究人員指出,當(dāng)把DVD-GAN放在UCF-101(一個(gè)包含13320個(gè)人類(lèi)動(dòng)作視頻的較小數(shù)據(jù)集)上進(jìn)行評(píng)估后,DVD-GAN生成的樣本初始值最高為32.97。
DeepMind的研究人員們希望能進(jìn)一步強(qiáng)調(diào)在大型復(fù)雜視頻數(shù)據(jù)集上訓(xùn)練生成模型的好處,例如Kinetics-600。
“我們?cè)O(shè)想通過(guò)DVD-GAN在這個(gè)數(shù)據(jù)集上建立強(qiáng)大的基線(xiàn),該基線(xiàn)將被用作未來(lái)建模生成領(lǐng)域的參考點(diǎn)!毖芯咳藛T表示,“盡管在不受約束的環(huán)境下持續(xù)生成逼真的視頻還需要進(jìn)行很多工作,但我們相信DVD-GAN是我們朝這個(gè)方向邁出的重要一步!
網(wǎng)絡(luò)(GANs)來(lái)區(qū)分生成樣本和真實(shí)世界樣本,該網(wǎng)絡(luò)主要由生成器和判別器兩部分組成。
GANs曾被應(yīng)用在把文字轉(zhuǎn)換成一幕幕的場(chǎng)景故事,或生成人造星系圖像等任務(wù)中。而研究人員們這次使用的是名為BigGANs的生成對(duì)抗網(wǎng)絡(luò),該網(wǎng)絡(luò)以大批量和數(shù)百萬(wàn)個(gè)參數(shù)而得名。
值得一提的是,DVD-GAN包含兩個(gè)判別器。一個(gè)是空間判別器(Spatial Discriminator:D_S),該判別器通過(guò)隨機(jī)采樣全分辨率幀并單獨(dú)處理,以評(píng)估單個(gè)幀的內(nèi)容和結(jié)構(gòu);另一個(gè)是時(shí)間判別器(Temporal Discriminator:D_T),它可以提供一個(gè)能生成動(dòng)作的學(xué)習(xí)信號(hào)。
此外,DVD-GAN還有一個(gè)單獨(dú)的Transformer模塊,它可以讓學(xué)習(xí)信息在整合AI模型中傳播。
結(jié)語(yǔ):用AI生成高度逼真視頻的一次嘗試
不管是BigGAN還是FaceApp,以往的研究人員們?cè)谌斯ぶ悄苌蓤D像領(lǐng)域進(jìn)行了許多具有突破性的研究,但在視頻領(lǐng)域,除了AI換臉曾火了一把之外,并沒(méi)有更多的突破性進(jìn)展。
而DeepMind的研究人員們基于BigGAN架構(gòu)和Kinetics-600訓(xùn)練數(shù)據(jù)集開(kāi)發(fā)的DVD-GAN,利用計(jì)算高效的判別器分解,擴(kuò)展到時(shí)間更長(zhǎng)、分辨率更高的視頻。就目前來(lái)說(shuō),雖然這一成果還有些許不足,但這無(wú)疑是研究人員們利用AI生成高度逼真視頻的一次重要嘗試。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線(xiàn)下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線(xiàn)會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線(xiàn)自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?