舊電影煥新:從“小應(yīng)用”窺見CANN計(jì)算架構(gòu)的“大能力”
文 | 曾響鈴
來源 | 科技向令說
時(shí)代車輪滾滾向前,那些屬于過去的記憶卻不曾退卻。
我們很幸運(yùn)地看到很多以前的影像資料能夠一直留存至今,例如經(jīng)典電影、建黨建國珍貴影像等,膠片的影像質(zhì)感泛著歲月的痕跡,要么見證了一個(gè)國家無法忘卻的發(fā)展歷程,要么銘刻了街頭巷尾集體的青春回憶,個(gè)人、家庭、集體、國家,都能在這樣的“老片子”中看到屬于過去的喜怒哀樂。
然而,即便能夠“存檔”,這些珍貴的上世紀(jì)拍攝的電影電視素材還是有很多遺憾等待彌補(bǔ)——受限于當(dāng)時(shí)拍攝設(shè)備、存儲(chǔ)介質(zhì)、存儲(chǔ)環(huán)境和處理播放設(shè)備的落后和簡(jiǎn)陋,一方面,留存的影像介質(zhì)受到各種物理化學(xué)因素的影響,在畫面上都有不同程度的劣化(稱為“退化”),另一方面,當(dāng)人們已經(jīng)習(xí)慣了高清、超高清、高質(zhì)量的視頻圖像,這些影像的分辨率、幀率和畫面表現(xiàn)都已無法滿足當(dāng)下的觀影需求。
要讓珍貴的影像更好地傳承,也要滿足人們對(duì)于歷史影像素材越來越高的質(zhì)量要求,這時(shí)候,AI對(duì)視頻的修復(fù)和增強(qiáng)價(jià)值就展現(xiàn)出來。
在AI技術(shù)快速發(fā)展的今天,我們幾乎能用AI來做任何圖像和視頻的處理,例如昇騰AI以人工智能技術(shù)賦能視頻修復(fù)和增強(qiáng),已經(jīng)能夠?qū)⑸鲜兰o(jì)40-80年代的一些經(jīng)典影片和珍貴史料視頻——如《開國大典》《閃閃的紅星》——處理成4K甚至8K視頻。
這樣的AI應(yīng)用生動(dòng)詮釋了什么叫做“技術(shù)的溫度”,既不失社會(huì)價(jià)值和經(jīng)濟(jì)價(jià)值,又以普通人看得見、摸得著的方式表達(dá)著AI技術(shù)的價(jià)值。
只有強(qiáng)大的性能加持才能實(shí)現(xiàn),昇騰AI三路出擊提升視頻質(zhì)感
視頻增強(qiáng)要從哪些方面出發(fā)?答案并不復(fù)雜,普通人觀看老影像資料時(shí)面臨什么痛點(diǎn),就是AI要解決的事。
在昇騰AI加持下,已有來自高校的生態(tài)伙伴著手從以下三個(gè)方面進(jìn)行視頻增強(qiáng)技術(shù)的創(chuàng)新,而基于AI的視頻修復(fù)和增強(qiáng)算法通常是由卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network)來實(shí)現(xiàn),需要用專門的軟硬件平臺(tái)進(jìn)行加速,因此每一項(xiàng)都對(duì)昇騰AI提出了很強(qiáng)的性能要求。
1、讓煩人的圖像噪點(diǎn)“去無蹤”
由于膠片拍攝以及物理退化等原因,老的影像資料總是有一些隨機(jī)閃現(xiàn)的噪點(diǎn),是觀看時(shí)最直接面對(duì)的痛點(diǎn)問題。用專業(yè)的話說,這是視頻畫面中存在不同形式和模態(tài)的噪聲,且隨機(jī)分布在所有畫面幀內(nèi)——不同的視頻,隨機(jī)噪聲的強(qiáng)弱也不盡相同。
這時(shí)候,昇騰AI“去除隨機(jī)噪聲”能力的價(jià)值體現(xiàn)出來了。
其技術(shù)原理,通過將幾幀帶不同強(qiáng)度噪聲的連續(xù)圖像和對(duì)應(yīng)的幾幀沒有噪聲的連續(xù)圖像同時(shí)輸入到算法中,讓神經(jīng)網(wǎng)絡(luò)用時(shí)空卷積自動(dòng)學(xué)習(xí)去除隨機(jī)噪聲,隨著去噪模型學(xué)習(xí)過的圖像數(shù)據(jù)對(duì)越多,見過的噪聲模式越豐富,AI去噪效果就越好。
最終,昇騰AI在數(shù)據(jù)加噪和退化的過程上做了很多研究和優(yōu)化,盡可能覆蓋不同強(qiáng)度的隨機(jī)噪聲,并使用高性能的時(shí)空卷積將時(shí)間和空間兩個(gè)維度的信息直接進(jìn)行整合,既實(shí)現(xiàn)了去噪,也讓圖像沒有因?yàn)槿ピ攵l(fā)生前后幀圖像的突變。
(去噪前)
(去噪后)
而很明顯,這樣的技術(shù)創(chuàng)新,一邊要考慮擁有噪聲的異常幀的復(fù)原,一邊還要考慮與前后幀的統(tǒng)一,與單一維度考慮視頻質(zhì)量?jī)?yōu)化相比,這種多樣性的任務(wù)要求讓計(jì)算能力的需求呈現(xiàn)幾何式提升,算法之外更重要的是要有計(jì)算平臺(tái)的性能支撐,否則一個(gè)如此復(fù)雜的算法將耗費(fèi)大量時(shí)間,在經(jīng)濟(jì)性和實(shí)用性上將大打折扣。
2、讓粗糙、模糊的畫面變得精細(xì)化
受限于拍攝技術(shù),老的影像資料的分辨率往往很低,表現(xiàn)為圖像質(zhì)量差,很多時(shí)候甚至靠腦補(bǔ)來觀賞,體驗(yàn)大打折扣,也不利于一些珍貴細(xì)節(jié)的保存。
于是,讓分辨率超出原本素材的“底板”,實(shí)現(xiàn)更進(jìn)一步的“超分辨率”,就成為AI在做的另一件重要的事情。昇騰AI參與《開國大典》的修復(fù)和增強(qiáng),其核心目標(biāo)之一,就是將分辨率從1080P提升到8K,提升畫面的精細(xì)度。
我們知道,數(shù)字圖像與拼圖類似,實(shí)際上是由大量帶顏色的像素點(diǎn)根據(jù)規(guī)整的網(wǎng)格組合而成的。所謂分辨率,即每一行每一列中所具有的像素點(diǎn)數(shù)量。分辨率越高,畫面往往越清晰和精細(xì)。1080P分辨率是1080x1920,每一行有1920個(gè)像素點(diǎn),每一列有1080個(gè)像素點(diǎn),共計(jì)207萬像素點(diǎn);而8K分辨率是4320x7680,像素點(diǎn)數(shù)量是1080P的16倍,達(dá)到了3317萬像素點(diǎn)。
視頻超分辨率算法,就是從這207萬像素點(diǎn)去生成出16倍的信息,將細(xì)節(jié)計(jì)算“腦補(bǔ)”出來,即所謂“管中窺豹”;而且算法不能隨便“腦補(bǔ)”,必須考慮上下文多幀圖像的信息來保持前后一致性,否則就像是斷裂的鏡面,前后出現(xiàn)跳變。腦補(bǔ)得不好,就會(huì)出現(xiàn)明顯的馬賽克或是鋸齒效果;稍微好一點(diǎn)的,仍則會(huì)有明顯的邊緣模糊。傳統(tǒng)的超分方法經(jīng)常面臨類似的問題。
而基于AI的超分辨率算法則真正具有“腦補(bǔ)”和假想出細(xì)節(jié)的能力。
通過合適的網(wǎng)絡(luò)結(jié)構(gòu)和算子,昇騰AI算法能夠方便地融合上下文信息,來計(jì)算和填充空白像素點(diǎn)的信息。與去噪模型不同的是,由于需要進(jìn)行像素值的估計(jì)和填充,需要更為精密的對(duì)齊過程,昇騰AI使用了最靈活的可變卷積來進(jìn)行前后幀信息的對(duì)齊,能避免用傳統(tǒng)方法帶來的對(duì)齊失真問題,對(duì)每一個(gè)像素的值都做出盡可能合理的估計(jì)。
(AI補(bǔ)足像素點(diǎn),讓圖像更清晰)
卷積神經(jīng)網(wǎng)絡(luò)往往蘊(yùn)含大量的計(jì)算過程,尤其是應(yīng)用到視頻領(lǐng)域,計(jì)算量成倍的增加。更何況是從1080P到8K,涉及到這么多像素點(diǎn)。此外,視頻播放需要達(dá)到每秒24幀以上,人眼才不會(huì)覺得明顯的卡頓,一段12分鐘長(zhǎng)度的視頻,其幀數(shù)至少達(dá)到17280幀。
所以,視頻超分算法不僅是像素點(diǎn)數(shù)量龐大,需要處理的幀數(shù)量也很大,這是對(duì)計(jì)算能力的直接要求。算法本身的各種“腦補(bǔ)”創(chuàng)新固然能讓最終呈現(xiàn)的效果有所不同,但實(shí)打?qū)嵉挠?jì)算性能“硬能力”是一切視頻超分算法創(chuàng)新的基礎(chǔ),而昇騰AI,就是為這種算法創(chuàng)新做好了性能上的充分準(zhǔn)備。
3、讓視線焦點(diǎn)得到精準(zhǔn)照顧
盡管超分辨率模型能提升視頻整體清晰度,但是觀眾在觀看視頻時(shí)經(jīng)常關(guān)注特寫鏡頭和人臉區(qū)域,因此,如果能夠把人臉的視頻質(zhì)量再提升,無疑將大大提高視頻觀感。
因此,昇騰AI還針對(duì)人臉區(qū)域進(jìn)行單獨(dú)的視覺增強(qiáng),增加人臉特寫部分的精細(xì)度,提升視頻觀感。
這個(gè)過程聽著簡(jiǎn)單,但包含的AI算法更加復(fù)雜,因?yàn)椋瑑H希望對(duì)人臉特寫鏡頭或是人臉比較突出的區(qū)域進(jìn)行針對(duì)性增強(qiáng)、在整幅畫面中選一部分來操作,需要一系列算法流程,比如從視頻幀中檢測(cè)出人臉,提取出人臉,人臉關(guān)鍵點(diǎn)檢測(cè),再提升精細(xì)度,最后再將人臉融合到原畫面中。
此外,為了保證單獨(dú)增強(qiáng)的人臉與背景圖像融合之后沒有強(qiáng)烈的割裂感,還需要對(duì)融合后的圖像做后處理。
如此復(fù)雜的處理流程自然包含復(fù)雜的計(jì)算過程,而這其中,只有背后支持的計(jì)算性能足夠強(qiáng)力,才可以將人臉檢測(cè)、人臉分割提取、對(duì)齊、人臉增強(qiáng)以及背景人臉融合這一大過程進(jìn)行整合并加速,某種程度上,人臉區(qū)域的視覺增強(qiáng)表現(xiàn)出算法創(chuàng)新的重要路徑——對(duì)計(jì)算平臺(tái)性能的充分利用。
總結(jié)起來,得益于平臺(tái)澎湃的算力和簡(jiǎn)單易用的特性,昇騰AI不僅支持各種前沿AI視頻修復(fù)和增強(qiáng)算法的便捷部署和應(yīng)用,例如減小視頻噪聲,增加流暢度,給黑白視頻上色,增大圖像清晰度等,也能對(duì)這些算法進(jìn)行軟件和硬件協(xié)同優(yōu)化,提升處理的效率,高效地將低質(zhì)量的視頻原材料加工成精細(xì)流暢的成品。
這一AI視頻修復(fù)和增強(qiáng)端到端全流程涵蓋老視頻去噪、人臉增強(qiáng)、插幀、超分等,基本實(shí)現(xiàn)了通過AI技術(shù)規(guī);a(chǎn)4K/8K內(nèi)容,使修復(fù)和增強(qiáng)時(shí)間從以天為單位縮短到以小時(shí)為單位。
圖 歷史影像素材修復(fù)和增強(qiáng)流程
昇騰多層次算法優(yōu)化,CANN以基礎(chǔ)軟件創(chuàng)新釋放平臺(tái)算力
可以看到,上述AI視頻增強(qiáng)技術(shù)在創(chuàng)新之外都強(qiáng)調(diào)了對(duì)計(jì)算性能的需求,既要保證處理效果,又要提升處理效率,對(duì)AI平臺(tái)是重大的考驗(yàn),而昇騰AI很好地完成了應(yīng)有的支撐任務(wù)。
這背后,尤為關(guān)鍵的是昇騰全棧AI體系下的異構(gòu)計(jì)算架構(gòu)CANN,作為基礎(chǔ)軟件創(chuàng)新成果,CANN高性能平臺(tái)推動(dòng)實(shí)現(xiàn)著一系列AI視頻增強(qiáng)能力的落地。
CANN,全稱Compute Architecture for Neural Networks,是昇騰處理器的異構(gòu)計(jì)算架構(gòu),支持業(yè)界多種主流的AI框架,提供開放易用的ACL(Ascend Computing Language)編程接口、實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)模型進(jìn)行圖級(jí)和算子級(jí)的編譯優(yōu)化、自動(dòng)調(diào)優(yōu)等功能。用戶不僅能在上層算法層面對(duì)性能進(jìn)行優(yōu)化,也可以通過CANN開發(fā)和優(yōu)化算子。
要理解CANN的價(jià)值,要先從AI視頻增強(qiáng)的原理談起。
每個(gè)基于AI的視頻修復(fù)和增強(qiáng)算法是由一個(gè)個(gè)小的計(jì)算單元組成的,專業(yè)術(shù)語為“算子”,算子有不同的處理順序,不同算子之間也可能存在依賴關(guān)系。
通俗地理解,其處理過程我們可以用廚師做菜來打個(gè)比方:
做菜工序可分為切菜、洗菜、調(diào)料準(zhǔn)備、燒制、調(diào)味、擺盤等,不同的工序之間有依賴關(guān)系,擺盤前必須燒制,燒制前必須洗菜;或者可以并行操作,比如切菜洗菜的時(shí)候可以一并準(zhǔn)備調(diào)料。經(jīng)驗(yàn)豐富的廚師都能以最大化的效率完成一道菜的制作,并且通過對(duì)原材料、配料和調(diào)味料的充分理解、搭配和融合,提升菜品質(zhì)量。昇騰AI就是這樣包含了許多專門用AI來“做菜”的“廚師”的平臺(tái),上面的硬件就是一位位“廚師”,異構(gòu)計(jì)算架構(gòu)CANN則是協(xié)調(diào)各位廚師的主廚。
這其中,而無論上文提到的去噪模型、超分辨率模型、人臉增強(qiáng)模型等,都包含到大量的計(jì)算過程,涉及到許多算子,整個(gè)計(jì)算復(fù)雜度非常大,如果平臺(tái)能自動(dòng)根據(jù)每個(gè)具體的算子情況進(jìn)行調(diào)優(yōu),所謂積跬步致千里,就能顯著提升各個(gè)算法的性能。
CANN對(duì)超分算法進(jìn)行了自動(dòng)調(diào)優(yōu),根據(jù)硬件特性和算子的輸入來優(yōu)化各算子的計(jì)算過程,就像讓每個(gè)廚師清楚了解各種原材料的特性,并合理規(guī)劃原材料的處理步驟,將材料的美味發(fā)揮到極致。
而值得一提的是,由于超分辨率算法中存在可變卷積,包含多個(gè)不同類型的小算子,需要在不同硬件上進(jìn)行處理,中間會(huì)有硬件之間的數(shù)據(jù)和信息傳遞,這增加了處理的耗時(shí),這就相當(dāng)于是同一個(gè)工序由兩個(gè)技術(shù)各有偏重的師傅一起交替處理,兩者還需要配合和溝通,不如讓一個(gè)技術(shù)更成熟更全面的師傅來進(jìn)行處理,減小溝通成本,加快處理速度。
而CANN能夠?qū)⒖勺兙矸e內(nèi)包含的算子進(jìn)行優(yōu)化,讓統(tǒng)一的硬件來整合和處理這一計(jì)算過程,使可變卷積的性能大幅提升,進(jìn)一步提升了超分辨率算法的性能。
通過CANN的特性,昇騰AI大幅提升了這些算法的處理速度:
去噪模型在昇騰平臺(tái)上的處理速度能達(dá)到其他同類平臺(tái)的3倍,在保證前后幀一致的前提下,能去除畫面中起落的隨機(jī)噪聲和小面積斑塊劃痕;
超分辨率算法優(yōu)化后的速度比優(yōu)化前最大提升了30倍,處理后畫面整體和背景文字等變得更加精細(xì);
人臉增強(qiáng)模型對(duì)1080P畫面的處理速度僅需0.5秒,處理后人臉精細(xì)度和畫面觀感得到了顯著提升。
可以看到,昇騰AI的這些改進(jìn)都是基礎(chǔ)軟硬件層面的根技術(shù)創(chuàng)新,它對(duì)視頻影像資料幾乎是普適的,可以拓展到所有片源,在應(yīng)用價(jià)值基礎(chǔ)之上具備廣泛的產(chǎn)業(yè)落地能力。
未來,更多珍貴影像資料將在AI的守護(hù)下歷久彌新,幫助我們珍藏歷史和記憶,而這樣的AI,才算得上是走近了每一個(gè)人的身邊。
*本文圖片均來源于網(wǎng)絡(luò)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?