訂閱
糾錯(cuò)
加入自媒體

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

2021-10-28 09:03
曾響鈴
關(guān)注

文 | 曾響鈴

來源 | 科技向令說

時(shí)代車輪滾滾向前,那些屬于過去的記憶卻不曾退卻。

我們很幸運(yùn)地看到很多以前的影像資料能夠一直留存至今,例如經(jīng)典電影、建黨建國珍貴影像等,膠片的影像質(zhì)感泛著歲月的痕跡,要么見證了一個(gè)國家無法忘卻的發(fā)展歷程,要么銘刻了街頭巷尾集體的青春回憶,個(gè)人、家庭、集體、國家,都能在這樣的“老片子”中看到屬于過去的喜怒哀樂。

然而,即便能夠“存檔”,這些珍貴的上世紀(jì)拍攝的電影電視素材還是有很多遺憾等待彌補(bǔ)——受限于當(dāng)時(shí)拍攝設(shè)備、存儲(chǔ)介質(zhì)、存儲(chǔ)環(huán)境和處理播放設(shè)備的落后和簡(jiǎn)陋,一方面,留存的影像介質(zhì)受到各種物理化學(xué)因素的影響,在畫面上都有不同程度的劣化(稱為“退化”),另一方面,當(dāng)人們已經(jīng)習(xí)慣了高清、超高清、高質(zhì)量的視頻圖像,這些影像的分辨率、幀率和畫面表現(xiàn)都已無法滿足當(dāng)下的觀影需求。

要讓珍貴的影像更好地傳承,也要滿足人們對(duì)于歷史影像素材越來越高的質(zhì)量要求,這時(shí)候,AI對(duì)視頻的修復(fù)和增強(qiáng)價(jià)值就展現(xiàn)出來。

在AI技術(shù)快速發(fā)展的今天,我們幾乎能用AI來做任何圖像和視頻的處理,例如昇騰AI以人工智能技術(shù)賦能視頻修復(fù)和增強(qiáng),已經(jīng)能夠?qū)⑸鲜兰o(jì)40-80年代的一些經(jīng)典影片和珍貴史料視頻——如《開國大典》《閃閃的紅星》——處理成4K甚至8K視頻。

這樣的AI應(yīng)用生動(dòng)詮釋了什么叫做“技術(shù)的溫度”,既不失社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值,又以普通人看得見、摸得著的方式表達(dá)著AI技術(shù)的價(jià)值。

只有強(qiáng)大的性能加持才能實(shí)現(xiàn),昇騰AI三路出擊提升視頻質(zhì)感

視頻增強(qiáng)要從哪些方面出發(fā)?答案并不復(fù)雜,普通人觀看老影像資料時(shí)面臨什么痛點(diǎn),就是AI要解決的事。

在昇騰AI加持下,已有來自高校的生態(tài)伙伴著手從以下三個(gè)方面進(jìn)行視頻增強(qiáng)技術(shù)的創(chuàng)新,而基于AI的視頻修復(fù)和增強(qiáng)算法通常是由卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network)來實(shí)現(xiàn),需要用專門的軟硬件平臺(tái)進(jìn)行加速,因此每一項(xiàng)都對(duì)昇騰AI提出了很強(qiáng)的性能要求。

1、讓煩人的圖像噪點(diǎn)“去無蹤”

由于膠片拍攝以及物理退化等原因,老的影像資料總是有一些隨機(jī)閃現(xiàn)的噪點(diǎn),是觀看時(shí)最直接面對(duì)的痛點(diǎn)問題。用專業(yè)的話說,這是視頻畫面中存在不同形式和模態(tài)的噪聲,且隨機(jī)分布在所有畫面幀內(nèi)——不同的視頻,隨機(jī)噪聲的強(qiáng)弱也不盡相同。

這時(shí)候,昇騰AI“去除隨機(jī)噪聲”能力的價(jià)值體現(xiàn)出來了。

其技術(shù)原理,通過將幾幀帶不同強(qiáng)度噪聲的連續(xù)圖像和對(duì)應(yīng)的幾幀沒有噪聲的連續(xù)圖像同時(shí)輸入到算法中,讓神經(jīng)網(wǎng)絡(luò)用時(shí)空卷積自動(dòng)學(xué)習(xí)去除隨機(jī)噪聲,隨著去噪模型學(xué)習(xí)過的圖像數(shù)據(jù)對(duì)越多,見過的噪聲模式越豐富,AI去噪效果就越好。

最終,昇騰AI在數(shù)據(jù)加噪和退化的過程上做了很多研究和優(yōu)化,盡可能覆蓋不同強(qiáng)度的隨機(jī)噪聲,并使用高性能的時(shí)空卷積將時(shí)間和空間兩個(gè)維度的信息直接進(jìn)行整合,既實(shí)現(xiàn)了去噪,也讓圖像沒有因?yàn)槿ピ攵l(fā)生前后幀圖像的突變。

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

(去噪前)

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

(去噪后)

而很明顯,這樣的技術(shù)創(chuàng)新,一邊要考慮擁有噪聲的異常幀的復(fù)原,一邊還要考慮與前后幀的統(tǒng)一,與單一維度考慮視頻質(zhì)量?jī)?yōu)化相比,這種多樣性的任務(wù)要求讓計(jì)算能力的需求呈現(xiàn)幾何式提升,算法之外更重要的是要有計(jì)算平臺(tái)的性能支撐,否則一個(gè)如此復(fù)雜的算法將耗費(fèi)大量時(shí)間,在經(jīng)濟(jì)性和實(shí)用性上將大打折扣。

2、讓粗糙、模糊的畫面變得精細(xì)化

受限于拍攝技術(shù),老的影像資料的分辨率往往很低,表現(xiàn)為圖像質(zhì)量差,很多時(shí)候甚至靠腦補(bǔ)來觀賞,體驗(yàn)大打折扣,也不利于一些珍貴細(xì)節(jié)的保存。

于是,讓分辨率超出原本素材的“底板”,實(shí)現(xiàn)更進(jìn)一步的“超分辨率”,就成為AI在做的另一件重要的事情。昇騰AI參與《開國大典》的修復(fù)和增強(qiáng),其核心目標(biāo)之一,就是將分辨率從1080P提升到8K,提升畫面的精細(xì)度。

我們知道,數(shù)字圖像與拼圖類似,實(shí)際上是由大量帶顏色的像素點(diǎn)根據(jù)規(guī)整的網(wǎng)格組合而成的。所謂分辨率,即每一行每一列中所具有的像素點(diǎn)數(shù)量。分辨率越高,畫面往往越清晰和精細(xì)。1080P分辨率是1080x1920,每一行有1920個(gè)像素點(diǎn),每一列有1080個(gè)像素點(diǎn),共計(jì)207萬像素點(diǎn);而8K分辨率是4320x7680,像素點(diǎn)數(shù)量是1080P的16倍,達(dá)到了3317萬像素點(diǎn)。

視頻超分辨率算法,就是從這207萬像素點(diǎn)去生成出16倍的信息,將細(xì)節(jié)計(jì)算“腦補(bǔ)”出來,即所謂“管中窺豹”;而且算法不能隨便“腦補(bǔ)”,必須考慮上下文多幀圖像的信息來保持前后一致性,否則就像是斷裂的鏡面,前后出現(xiàn)跳變。腦補(bǔ)得不好,就會(huì)出現(xiàn)明顯的馬賽克或是鋸齒效果;稍微好一點(diǎn)的,仍則會(huì)有明顯的邊緣模糊。傳統(tǒng)的超分方法經(jīng)常面臨類似的問題。

而基于AI的超分辨率算法則真正具有“腦補(bǔ)”和假想出細(xì)節(jié)的能力。

通過合適的網(wǎng)絡(luò)結(jié)構(gòu)和算子,昇騰AI算法能夠方便地融合上下文信息,來計(jì)算和填充空白像素點(diǎn)的信息。與去噪模型不同的是,由于需要進(jìn)行像素值的估計(jì)和填充,需要更為精密的對(duì)齊過程,昇騰AI使用了最靈活的可變卷積來進(jìn)行前后幀信息的對(duì)齊,能避免用傳統(tǒng)方法帶來的對(duì)齊失真問題,對(duì)每一個(gè)像素的值都做出盡可能合理的估計(jì)。

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

(AI補(bǔ)足像素點(diǎn),讓圖像更清晰)

卷積神經(jīng)網(wǎng)絡(luò)往往蘊(yùn)含大量的計(jì)算過程,尤其是應(yīng)用到視頻領(lǐng)域,計(jì)算量成倍的增加。更何況是從1080P到8K,涉及到這么多像素點(diǎn)。此外,視頻播放需要達(dá)到每秒24幀以上,人眼才不會(huì)覺得明顯的卡頓,一段12分鐘長(zhǎng)度的視頻,其幀數(shù)至少達(dá)到17280幀。

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

所以,視頻超分算法不僅是像素點(diǎn)數(shù)量龐大,需要處理的幀數(shù)量也很大,這是對(duì)計(jì)算能力的直接要求。算法本身的各種“腦補(bǔ)”創(chuàng)新固然能讓最終呈現(xiàn)的效果有所不同,但實(shí)打?qū)嵉挠?jì)算性能“硬能力”是一切視頻超分算法創(chuàng)新的基礎(chǔ),而昇騰AI,就是為這種算法創(chuàng)新做好了性能上的充分準(zhǔn)備。

3、讓視線焦點(diǎn)得到精準(zhǔn)照顧

盡管超分辨率模型能提升視頻整體清晰度,但是觀眾在觀看視頻時(shí)經(jīng)常關(guān)注特寫鏡頭和人臉區(qū)域,因此,如果能夠把人臉的視頻質(zhì)量再提升,無疑將大大提高視頻觀感。

因此,昇騰AI還針對(duì)人臉區(qū)域進(jìn)行單獨(dú)的視覺增強(qiáng),增加人臉特寫部分的精細(xì)度,提升視頻觀感。

這個(gè)過程聽著簡(jiǎn)單,但包含的AI算法更加復(fù)雜,因?yàn)椋瑑H希望對(duì)人臉特寫鏡頭或是人臉比較突出的區(qū)域進(jìn)行針對(duì)性增強(qiáng)、在整幅畫面中選一部分來操作,需要一系列算法流程,比如從視頻幀中檢測(cè)出人臉,提取出人臉,人臉關(guān)鍵點(diǎn)檢測(cè),再提升精細(xì)度,最后再將人臉融合到原畫面中。

此外,為了保證單獨(dú)增強(qiáng)的人臉與背景圖像融合之后沒有強(qiáng)烈的割裂感,還需要對(duì)融合后的圖像做后處理。

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

如此復(fù)雜的處理流程自然包含復(fù)雜的計(jì)算過程,而這其中,只有背后支持的計(jì)算性能足夠強(qiáng)力,才可以將人臉檢測(cè)、人臉分割提取、對(duì)齊、人臉增強(qiáng)以及背景人臉融合這一大過程進(jìn)行整合并加速,某種程度上,人臉區(qū)域的視覺增強(qiáng)表現(xiàn)出算法創(chuàng)新的重要路徑——對(duì)計(jì)算平臺(tái)性能的充分利用。

總結(jié)起來,得益于平臺(tái)澎湃的算力和簡(jiǎn)單易用的特性,昇騰AI不僅支持各種前沿AI視頻修復(fù)和增強(qiáng)算法的便捷部署和應(yīng)用,例如減小視頻噪聲,增加流暢度,給黑白視頻上色,增大圖像清晰度等,也能對(duì)這些算法進(jìn)行軟件和硬件協(xié)同優(yōu)化,提升處理的效率,高效地將低質(zhì)量的視頻原材料加工成精細(xì)流暢的成品。

這一AI視頻修復(fù)和增強(qiáng)端到端全流程涵蓋老視頻去噪、人臉增強(qiáng)、插幀、超分等,基本實(shí)現(xiàn)了通過AI技術(shù)規(guī);a(chǎn)4K/8K內(nèi)容,使修復(fù)和增強(qiáng)時(shí)間從以天為單位縮短到以小時(shí)為單位。

舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”

圖 歷史影像素材修復(fù)和增強(qiáng)流程

昇騰多層次算法優(yōu)化,CANN以基礎(chǔ)軟件創(chuàng)新釋放平臺(tái)算力

可以看到,上述AI視頻增強(qiáng)技術(shù)在創(chuàng)新之外都強(qiáng)調(diào)了對(duì)計(jì)算性能的需求,既要保證處理效果,又要提升處理效率,對(duì)AI平臺(tái)是重大的考驗(yàn),而昇騰AI很好地完成了應(yīng)有的支撐任務(wù)。

這背后,尤為關(guān)鍵的是昇騰全棧AI體系下的異構(gòu)計(jì)算架構(gòu)CANN,作為基礎(chǔ)軟件創(chuàng)新成果,CANN高性能平臺(tái)推動(dòng)實(shí)現(xiàn)著一系列AI視頻增強(qiáng)能力的落地。

CANN,全稱Compute Architecture for Neural Networks,是昇騰處理器的異構(gòu)計(jì)算架構(gòu),支持業(yè)界多種主流的AI框架,提供開放易用的ACL(Ascend Computing Language)編程接口、實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)模型進(jìn)行圖級(jí)和算子級(jí)的編譯優(yōu)化、自動(dòng)調(diào)優(yōu)等功能。用戶不僅能在上層算法層面對(duì)性能進(jìn)行優(yōu)化,也可以通過CANN開發(fā)和優(yōu)化算子。

要理解CANN的價(jià)值,要先從AI視頻增強(qiáng)的原理談起。

每個(gè)基于AI的視頻修復(fù)和增強(qiáng)算法是由一個(gè)個(gè)小的計(jì)算單元組成的,專業(yè)術(shù)語為“算子”,算子有不同的處理順序,不同算子之間也可能存在依賴關(guān)系。

通俗地理解,其處理過程我們可以用廚師做菜來打個(gè)比方:

做菜工序可分為切菜、洗菜、調(diào)料準(zhǔn)備、燒制、調(diào)味、擺盤等,不同的工序之間有依賴關(guān)系,擺盤前必須燒制,燒制前必須洗菜;或者可以并行操作,比如切菜洗菜的時(shí)候可以一并準(zhǔn)備調(diào)料。經(jīng)驗(yàn)豐富的廚師都能以最大化的效率完成一道菜的制作,并且通過對(duì)原材料、配料和調(diào)味料的充分理解、搭配和融合,提升菜品質(zhì)量。昇騰AI就是這樣包含了許多專門用AI來“做菜”的“廚師”的平臺(tái),上面的硬件就是一位位“廚師”,異構(gòu)計(jì)算架構(gòu)CANN則是協(xié)調(diào)各位廚師的主廚。

這其中,而無論上文提到的去噪模型、超分辨率模型、人臉增強(qiáng)模型等,都包含到大量的計(jì)算過程,涉及到許多算子,整個(gè)計(jì)算復(fù)雜度非常大,如果平臺(tái)能自動(dòng)根據(jù)每個(gè)具體的算子情況進(jìn)行調(diào)優(yōu),所謂積跬步致千里,就能顯著提升各個(gè)算法的性能。

CANN對(duì)超分算法進(jìn)行了自動(dòng)調(diào)優(yōu),根據(jù)硬件特性和算子的輸入來優(yōu)化各算子的計(jì)算過程,就像讓每個(gè)廚師清楚了解各種原材料的特性,并合理規(guī)劃原材料的處理步驟,將材料的美味發(fā)揮到極致。

而值得一提的是,由于超分辨率算法中存在可變卷積,包含多個(gè)不同類型的小算子,需要在不同硬件上進(jìn)行處理,中間會(huì)有硬件之間的數(shù)據(jù)和信息傳遞,這增加了處理的耗時(shí),這就相當(dāng)于是同一個(gè)工序由兩個(gè)技術(shù)各有偏重的師傅一起交替處理,兩者還需要配合和溝通,不如讓一個(gè)技術(shù)更成熟更全面的師傅來進(jìn)行處理,減小溝通成本,加快處理速度。

而CANN能夠?qū)⒖勺兙矸e內(nèi)包含的算子進(jìn)行優(yōu)化,讓統(tǒng)一的硬件來整合和處理這一計(jì)算過程,使可變卷積的性能大幅提升,進(jìn)一步提升了超分辨率算法的性能。

通過CANN的特性,昇騰AI大幅提升了這些算法的處理速度:

去噪模型在昇騰平臺(tái)上的處理速度能達(dá)到其他同類平臺(tái)的3倍,在保證前后幀一致的前提下,能去除畫面中起落的隨機(jī)噪聲和小面積斑塊劃痕;

超分辨率算法優(yōu)化后的速度比優(yōu)化前最大提升了30倍,處理后畫面整體和背景文字等變得更加精細(xì);

人臉增強(qiáng)模型對(duì)1080P畫面的處理速度僅需0.5秒,處理后人臉精細(xì)度和畫面觀感得到了顯著提升。

可以看到,昇騰AI的這些改進(jìn)都是基礎(chǔ)軟硬件層面的根技術(shù)創(chuàng)新,它對(duì)視頻影像資料幾乎是普適的,可以拓展到所有片源,在應(yīng)用價(jià)值基礎(chǔ)之上具備廣泛的產(chǎn)業(yè)落地能力。

未來,更多珍貴影像資料將在AI的守護(hù)下歷久彌新,幫助我們珍藏歷史和記憶,而這樣的AI,才算得上是走近了每一個(gè)人的身邊。

*本文圖片均來源于網(wǎng)絡(luò)

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)