圖形學(xué)+深度學(xué)習(xí):來看下神經(jīng)渲染完成的神仙操作!
現(xiàn)代計算機(jī)圖形學(xué)在合成逼真場景圖像和場景操控合成方面取得了杰出成果,然而在自動生成形狀、材質(zhì)、光照和其他場景方面還面臨著一系列挑戰(zhàn)。而計算機(jī)視覺與機(jī)器學(xué)習(xí)為這一領(lǐng)域提供了圖像合成與編輯的全新解決方案:基于深度生成模型和圖形學(xué)領(lǐng)域的光學(xué)物理知識,神經(jīng)渲染(Neural rendering )已成為計算機(jī)圖形學(xué)領(lǐng)域最為迅猛的發(fā)展方向。在多種計算理論、方法和技術(shù)的融合下,這個新領(lǐng)域出現(xiàn)了非常多的有趣應(yīng)用:包括圖像內(nèi)容編輯、場景合成、視角變化、人物編輯等等。可以預(yù)見,神經(jīng)渲染未來將會在電影工業(yè)、虛擬/增強(qiáng)現(xiàn)實和智慧城市等領(lǐng)域中發(fā)揮越來越重要的作用。
來自馬普研究所、斯坦福、慕尼黑理工、Facebook、Adobe和谷歌的研究人員對這一領(lǐng)域的發(fā)展進(jìn)行了詳盡的綜述,系統(tǒng)性地梳理神經(jīng)渲染在各個領(lǐng)域的發(fā)展。下面我們將為大家詳細(xì)呈現(xiàn)機(jī)器學(xué)習(xí)、計算機(jī)視覺與圖像學(xué)領(lǐng)域的碰撞融合。
語義圖像合成與操控
語義圖像合成與操控主要利用交互式的編輯工具來對圖像中的場景和物體進(jìn)行語義上地控制和修飾。與傳統(tǒng)方式不同,數(shù)據(jù)驅(qū)動的圖形學(xué)系統(tǒng)可以利用多張圖像區(qū)域來合成新的圖像,并基于大規(guī)模的圖像數(shù)據(jù)集來抽取典型的語義特征。這種方法可以使用戶指定場景的結(jié)構(gòu)、修改場景內(nèi)容,同時還能有效處理合成過程中產(chǎn)生的不連續(xù)性和人工痕跡。
在語義圖像合成方面,目前主要基于條件生成目標(biāo),將用戶指定的語義圖映射為逼真的圖像。用戶輸入還包括了顏色、草圖、紋理等形式。從pix2pix等方法開始,研究人員們就開始對場景和圖像的生成進(jìn)行深入的探索,并不斷提高生成圖像的分辨率與細(xì)節(jié),同時從靜態(tài)圖像向動態(tài)視頻的語義操控擴(kuò)展。下圖顯示了目前較為先進(jìn)的GauGAN網(wǎng)絡(luò)生成的結(jié)果:其不僅可以生成較好的視覺效果,還能控制生成結(jié)果的風(fēng)格和語義結(jié)構(gòu)。
在語義圖像操控方面,該技術(shù)需要用戶提供待操作的圖像,并利用生成模型滿足用戶對圖像的操作需求。與前述的合成不同,操作面臨兩個額外挑戰(zhàn):其一,對圖像的操作需要對輸入進(jìn)行精確的重建,但這對于目前最為先進(jìn)的GAN來說也是挑戰(zhàn);其二,操作圖像后合成的結(jié)果也許會與輸入的圖像不兼容、不協(xié)調(diào)。
于是為解決這些問題,研究人員們提出了非條件GAN來作為神經(jīng)圖像先驗,同時通過生成結(jié)果與原始圖像的融合來得到輸出結(jié)果。此外,包括自動編碼器等多種內(nèi)部結(jié)果的使用和后處理的有效應(yīng)用也使得圖像編輯取得了良好的效果。下圖顯示了GANPaint中如何給圖像增加、刪除、改變目標(biāo):只需用筆刷進(jìn)行涂抹,生成模型就會滿足用戶提出的需求,同時保留原圖像中的統(tǒng)計信息。
在提升渲染圖像的真實性方面,研究人員從大規(guī)模的真實數(shù)據(jù)中抽取相似的內(nèi)容來提升渲染圖像的結(jié)果,或者基于條件生成模型,將低質(zhì)量的渲染結(jié)果轉(zhuǎn)換為高質(zhì)量的逼真圖像。此外,包括特征匹配,陰影處理、材質(zhì)和表面法向量渲染等方面的工作也將對全局光照、遮擋、景深和連續(xù)性進(jìn)行處理。下圖顯示了基于生成模型的高質(zhì)量渲染結(jié)果:僅僅改變視頻中說話人的嘴形,就渲染出了近乎真實講話的視覺效果。
目標(biāo)和場景的新視角合成
新視角合成是指在特定場景下,利用已有的不同視角圖像,在新相機(jī)視角條件下合成圖像。其最主要挑戰(zhàn)來自于場景的三維結(jié)構(gòu)觀測比較稀疏,需要在僅有的幾個觀測視角下合成出新視角的圖像,同時還需要補(bǔ)全新視角下被遮擋或者沒有在觀測中被包含的部分。
在經(jīng)典計算機(jī)視覺中,人們主要基于多視角立體視覺來實現(xiàn)場景幾何重建,用反射變換來構(gòu)建基于圖像的渲染效果。但在稀疏觀測或者欠觀測的情況下,這種方法得到的結(jié)果會具有孔洞,或是留下較為明顯的人工鑿斧痕跡。在神經(jīng)渲染中,研究人員使用少量的已有視角觀測結(jié)果來學(xué)習(xí)出場景,再利用可差分的渲染器生成新視角下的圖像;同時還利用幾何、外觀與場景特性作為先驗來提升場景的表達(dá)和渲染;此外還通過體素、紋理、點云等多種形式來為網(wǎng)絡(luò)提供更多的圖像和幾何信息。
下圖顯示了神經(jīng)渲染從大規(guī)模網(wǎng)絡(luò)圖像中重建3D模型的結(jié)果。模型被渲染為了深度、顏色和語義標(biāo)簽等緩存中,渲染器將這些緩存轉(zhuǎn)換為了多種不同的場景結(jié)果。
下圖展示了從新視角渲染招財貓的圖像結(jié)果。由圖可見,在僅僅六個稀疏采樣視角下,系統(tǒng)就實現(xiàn)了多個新視角的目標(biāo)渲染。
神經(jīng)渲染在學(xué)習(xí)場景中自然的三維結(jié)果和透視幾何關(guān)系方面也發(fā)揮了重要作用,下圖顯示了幾個具有代表性的新視角合成工作:

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?