訂閱
糾錯
加入自媒體

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

——生成式對抗網(wǎng)絡(luò)簡述

投稿作者:極鏈科技AI實驗室王曉平

你是否曾設(shè)想過這樣的場景:當(dāng)你坐在電腦前,一邊品嘗著清香的茶飲,一邊饒有興致地在網(wǎng)頁上瀏覽著一張張精彩的圖片,從表情豐富的清晰人臉,到色彩艷麗的旖旎風(fēng)光,還有姿態(tài)各異的動物萌寵,等等,一切都是那么的賞心悅目!然而,當(dāng)你接下來突然被告知,所有的這一切都是由計算機生成的虛擬照片時,你會否大吃一驚轉(zhuǎn)而不敢相信?畢竟,這些照片是如此的栩栩如生!現(xiàn)如今,這樣的情形已不再是夢幻,例如,thispersondoesnotexist.com就是這樣的一個虛擬人臉生成網(wǎng)站,當(dāng)用戶進入網(wǎng)站后,每一次刷新都可以得到網(wǎng)站即時生成的一張逼真的“人臉”照片,然而,正如該網(wǎng)站名所指的涵義:在現(xiàn)實中,This person does not exist!那么,這種無中生有的神奇效果究竟是如何實現(xiàn)的呢?該網(wǎng)頁同時在右下角也注明了:“Produced by a GAN (generative adversarial network)”。OK,本文的主角——生成式對抗網(wǎng)絡(luò)(GAN)正式登場。

2014年,加拿大蒙特利爾大學(xué)的Ian J. Goodfellow在《Generative Adversarial Nets》一文中正式提出了生成式對抗網(wǎng)絡(luò),其基本思想就是基于兩個模型:一個生成器和一個判別器。判別器的任務(wù)是判斷一張給定的圖片是真實的還是虛假的,而生成器的任務(wù)則是生成與真實圖片相似的圖片以盡可能騙過判別器。打個比方,生成模型類似一個假幣制造團伙,其任務(wù)是生產(chǎn)和使用假幣,而判別模型則類似金融警察,其職責(zé)是發(fā)現(xiàn)和查處假幣。原始的GAN公式如下式所示,G、D分別為生成器、判別器,x為真實數(shù)據(jù),z為噪聲數(shù)據(jù),在對值函數(shù)V進行最大、最小化約束下,生成器和判別器交替訓(xùn)練優(yōu)化,在此過程中,生成器不斷提升“造假”能力,直至判別器無法區(qū)分真幣和假幣的程度,此時GAN訓(xùn)練完成。

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

相比于其它模型,為什么GAN一經(jīng)提出就會受到如此之高的關(guān)注熱度?從本質(zhì)上說,GAN的真正強大之處在于開創(chuàng)了一種新的對抗式學(xué)習(xí)模式,大大提高了對數(shù)據(jù)分布的學(xué)習(xí)能力,甚至可在一定程度上認為它賦予了機器一種類似想象力的能力,能夠展示出諸多炫目的生成效果,也正是因為這種強大之處,GAN入選了《麻省理工科技評論》 2018 年全球十大突破性技術(shù),而近年來掀起的以其為基礎(chǔ)的各種改進或創(chuàng)新研究的熱潮也推動了GAN技術(shù)的迅速發(fā)展。下面本文就將對GAN的發(fā)展進行簡要的介紹,總體上,這一發(fā)展主要體現(xiàn)在以下幾方面:

一、圖像風(fēng)格轉(zhuǎn)換方面

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

一百多年前,當(dāng)莫奈在春光明媚的塞納河畔畫下這幅油畫時,當(dāng)時他眼前的景象究竟是怎樣的?現(xiàn)實的風(fēng)景是否如同畫作所描述的一般優(yōu)美?要想認真回答這個問題的確很難,因為目前我們還無法乘坐時光機器穿越時空去感同身受,但是,我們可以使用具有風(fēng)格轉(zhuǎn)換功能的GAN來將莫奈的油畫轉(zhuǎn)換為照片風(fēng)格,從而近似地去感受當(dāng)時的真實場景。風(fēng)格轉(zhuǎn)換的酷炫效果使得GAN大放異彩,在這方面,典型的有 pix2pix、CycleGAN、DiscoGAN、DualGAN等,其中,pix2pix解決了成對圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問題,CycleGAN、DiscoGAN、DualGAN則從訓(xùn)練集合的高度,通過定義循環(huán)損失函數(shù)解決了非成對圖像訓(xùn)練的風(fēng)格轉(zhuǎn)換問題,雖然在風(fēng)格轉(zhuǎn)換效果方面稍遜于pix2pix,但卻節(jié)省了大量的樣本準備時間,從而大大降低了將GAN投入實際應(yīng)用的門檻。

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

成對訓(xùn)練圖像(pix2pix)與非成對訓(xùn)練圖像(CycleGAN)

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

CycleGAN

在風(fēng)格轉(zhuǎn)換的實際應(yīng)用過程中,隨之也出現(xiàn)了新的問題如:無論是Pix2Pix還是CycleGAN等,都是從一個領(lǐng)域到另一個領(lǐng)域的轉(zhuǎn)換,當(dāng)有多種不同領(lǐng)域的風(fēng)格轉(zhuǎn)換需求時,就需要對每一種領(lǐng)域轉(zhuǎn)換都從頭開始訓(xùn)練一個新模型來解決,這在實際使用時無疑將相當(dāng)?shù)芈闊┖偷托Вb于此,StarGAN應(yīng)運而生,其貢獻是提出了高效的多領(lǐng)域轉(zhuǎn)換的統(tǒng)一算法框架。下圖是StarGAN的效果,在同一種模型下,可以進行多種圖像風(fēng)格轉(zhuǎn)換任務(wù),如改變頭發(fā)顏色、性別、年齡、膚色等。

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

StarGAN

二、超分辨率圖像生成方面

超分辨率是計算機視覺的一個經(jīng)典領(lǐng)域,旨在從觀測到的低分辨率圖像重建出相應(yīng)的高分辨率圖像,它在衛(wèi)星遙感圖像、圖像復(fù)原等諸多領(lǐng)域都有著重要的應(yīng)用價值,而GAN的相關(guān)研究也進一步推動了這一領(lǐng)域技術(shù)的發(fā)展。典型的有PG-GAN、BigGAN、pix2pixHD、SR-GAN等,例如,來自NVIDIA的PG-GAN論文,提出以一種漸進增大生成器和鑒別器的方式訓(xùn)練GAN,從最初的4x4低分辨率開始,隨著訓(xùn)練的進行,不斷添加新的層對越來越精細的細節(jié)進行建模,最終達到1024x1024分辨率,實現(xiàn)了效果令人驚嘆的生成圖像。

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

PG-GAN

三、生成的可解釋性方面

雖然GAN的對抗式學(xué)習(xí)機制帶來了驚艷的圖像生成效果,但是剛開始人們對于GAN的生成過程缺乏行之有效的干預(yù)手段,因此,研究者們在這方面進行了一系列努力,設(shè)法利用控制變量對生成過程進行監(jiān)督,代表性的工作有InfoGAN、CGAN等,其中,InfoGAN提出將生成器的輸入分解為不可壓縮的噪聲和具有不同意義的潛在控制變量,然后通過調(diào)節(jié)潛在控制變量來引導(dǎo)生成器生成具有不同方向、不同字體寬度的圖像。

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

InfoGAN

MIT的研究者們通過對網(wǎng)絡(luò)進行分解,并觀察特定單元在激活或關(guān)閉時對生成結(jié)果的影響來實現(xiàn)對GAN的可視化理解(如GAN DISSECTION圖),進而在此基礎(chǔ)上實現(xiàn)了高效繪畫,僅需輕松操作鼠標,GAN就可以在鼠標劃過的地方繪制或擦除樹木、草地、門、天空、云朵、磚墻、圓屋頂?shù)染拔铩?/p>

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

GAN DISSECTION

四、其它方面

除了上述方面,GAN和其它方面技術(shù)的結(jié)合也展現(xiàn)了相當(dāng)不錯的效果,例如,加州大學(xué)伯克利分校的研究人員利用姿態(tài)估計技術(shù)和GAN實現(xiàn)了不同人之間的動作遷移“do as I do”,即使你完全不會跳舞,但借助這項技術(shù),只需預(yù)先輸入一段善舞者姿態(tài)優(yōu)美的舞蹈視頻,然后再輸入你本人的隨意動作視頻,經(jīng)過姿態(tài)估計和網(wǎng)絡(luò)訓(xùn)練、視頻生成后,你立馬就可變身為生成視頻里翩翩起舞的絕對主角。所以,在GAN的助力下,不會跳舞?不存在的!

打開混淆虛擬與現(xiàn)實的潘朵拉魔盒

do as I do

其它的還有能夠?qū)崿F(xiàn)不同人之間聲音轉(zhuǎn)換的starGAN-vc,提高訓(xùn)練的穩(wěn)定性方面如WGAN、WGAN-GP、SNGAN,隱私保護方面如賓夕法尼亞大學(xué)利用AC-GAN生成的虛擬臨床數(shù)據(jù)進行共享以滿足保護參與者隱私的需求,等等。

GAN技術(shù)的迅速發(fā)展在為我們帶來諸多欣喜成果的同時,其出色的圖像生成能力也使我們難以對諸如“呈現(xiàn)在你眼前的究竟是虛擬OR現(xiàn)實?”之類的問題給出準確的答案,因此,眼見也未必為實。一旦GAN的這種能力被別有用心者利用,將會造成難以預(yù)見的負面影響,例如2017年底網(wǎng)絡(luò)上出現(xiàn)的基于GAN的換臉視頻就帶給了世人恐慌和震驚;煜摂M與現(xiàn)實之間界線的潘朵拉魔盒已經(jīng)打開,應(yīng)引導(dǎo)人們以造福學(xué)習(xí)、工作、生活為目的正確合理地使用這項技術(shù),不斷地讓魔盒帶給我們驚喜和希望!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號