亚洲2025久久久久久久,精品一区中文字幕

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

2020-07-22 09:44

為了深入了解人臉的視覺手性現(xiàn)象，作者在人臉數(shù)據(jù)集上進(jìn)行了孤立訓(xùn)練。

作者在Flickr－Faces－HQ （FFHQ）人臉數(shù)據(jù)集上進(jìn)行了訓(xùn)練，并在測(cè)試集上取得了高達(dá)81％的精度，并利用手性特征聚類對(duì)人臉中的視覺手性現(xiàn)象進(jìn)行了初步的探討：

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

1）劉海分界處：人們一般用右手來分理劉海，這會(huì)導(dǎo)致劉海的朝向向一側(cè)偏移，并出現(xiàn)視覺手性現(xiàn)象。

2）眼睛：人們?cè)诳聪蛭矬w時(shí)傾向于用一只主視眼進(jìn)行瞄準(zhǔn)，這樣會(huì)導(dǎo)致人們的目光在進(jìn)行拍攝時(shí)出現(xiàn)偏移。多數(shù)人的主視眼為右眼，而這一現(xiàn)象可能是導(dǎo)致視覺手性現(xiàn)象的成因。

3）胡子：與頭發(fā)一樣，可能與人們習(xí)慣于用右手理胡子有關(guān)。

作者提到，文中對(duì)以上的視覺手性現(xiàn)象的討論均為初步的分析，而人臉中任有大量的視覺手性線索值得被發(fā)掘。

五、數(shù)字圖像處理

作者對(duì)數(shù)字圖像處理過程，例如去馬賽克（最常見為Bayer Demosaicing）和圖片壓縮（最常見為JPEG Compression）過程中產(chǎn)生的視覺手性現(xiàn)象進(jìn)行了分析。舉個(gè)例子，當(dāng)作者首次利用神經(jīng)網(wǎng)絡(luò)在Instagram數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練時(shí)，發(fā)現(xiàn)沒有使用隨機(jī)剪裁（random cropping）的神經(jīng)網(wǎng)絡(luò)盡管精度更高（在測(cè)試集上高達(dá)92％），但在部分圖片上，類激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分，如左下圖所示：

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

而在使用隨機(jī)剪裁之后，我們得到的新的熱圖則更關(guān)注來自于圖片中物體本身的線索（例如圖中的襯衫領(lǐng)子）。作者推斷這是由于Instagram的圖片均為JPEG格式，經(jīng)過了JPEG圖像壓縮這一數(shù)字圖像處理方式。JPEG壓縮的算法是在圖片上對(duì)于每16乘16的像素格進(jìn)行分別處理的，而對(duì)于不能被16整除的圖片，其邊緣會(huì)用統(tǒng)一方式進(jìn)行處（例如重復(fù)邊緣像素）。這會(huì)導(dǎo)致JPEG壓縮的圖片的邊緣失真（edge artifact），從而導(dǎo)致了視覺手性現(xiàn)象。

作者通過概率論與群論（group theory）對(duì)數(shù)字圖像處理過程產(chǎn)生的視覺手性現(xiàn)象進(jìn)行了數(shù)學(xué)論證，并通過神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)驗(yàn)證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。而此類的線索往往不能被肉眼可見，卻在圖片中存在固定的模式，因而為圖像識(shí)偽的應(yīng)用創(chuàng)造了可能性。

由于文中的證明和實(shí)驗(yàn)過程較為復(fù)雜，此處我們先給出數(shù)學(xué)定義和最重要的幾點(diǎn)結(jié)論。

1、定義

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

D為數(shù)據(jù)集所來源于的圖像分布。T為一個(gè)圖像變換函數(shù)，例如鏡像翻轉(zhuǎn)。需要注意的是論文中的證明不僅限于鏡像翻轉(zhuǎn)，也可以被用于任何具備結(jié)合律（associativitive）和可逆性（invertible）的變換。J為一個(gè)圖像處理函數(shù)。例如去馬賽克以及JPEG圖片壓縮。

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

為經(jīng)過J處理后所得到的的新圖像分布。

我們沿用之前對(duì)視覺手性的定義：對(duì)于任意圖片x，如果D（x）＝ D（T（x）），那么D不具備視覺手性。對(duì)于任何經(jīng)過數(shù)字圖像處理的圖片y，如果

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

，那么

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

同樣不具備視覺手性。

文中最重要的結(jié)論是：

當(dāng)圖像變換函數(shù)T和圖像處理函數(shù)J具備交換律（commutative property）時(shí)，如果原先的圖像分布D沒有視覺手性，經(jīng)過數(shù)字圖像處理后的分布DJ也不具備視覺手性。換句話說，我們可以通過檢查T和J的交換律，來判斷數(shù)字圖像處理能否造成視覺手性現(xiàn)象。

作者在論文中主要涉及了兩種最常見的圖像處理方式：

去馬賽克（Demosaicing）：數(shù)字相機(jī)的感光元件一般只能在每個(gè)像素格上捕捉RGB中的其中一種顏色，而其中最常用的為貝爾濾色鏡（Bayer Color Filter Array），如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過程。

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)

JPEG壓縮算法（JPEG Compression）：JPEG是一種有損的圖像壓縮方式，被廣泛應(yīng)用在如今大量的互聯(lián)網(wǎng)圖片上。一般以每16乘16的像素格為單位通過色彩空間變換，縮減像素采樣，離散余弦變換等步驟來進(jìn)行圖片編碼壓縮。

2、結(jié)論

去馬賽克或JPEG壓縮算法單獨(dú)使用時(shí)，會(huì)在特定的圖片大小產(chǎn)生視覺手性現(xiàn)象。對(duì)于去馬賽克，由于貝爾濾色鏡為2乘2的像素格，且濾色鏡本身不對(duì)稱（參考上圖綠紅藍(lán)綠的排序），任何能被2整除的圖片寬度均會(huì)導(dǎo)致視覺手性。對(duì)于JPEG壓縮，任何不被16整除的圖片寬度均會(huì)導(dǎo)致視覺手性。這意味著，當(dāng)去馬賽克和JPEG壓縮被共同使用時(shí)，任意寬度的圖片都將產(chǎn)生視覺手性，因?yàn)橥瑫r(shí)滿足不被2整除和能被16整除的數(shù)字不存在。當(dāng)使用隨機(jī)剪裁（random cropping）時(shí)，去馬賽克或JPEG壓縮單獨(dú)使用并不產(chǎn)生視覺手性現(xiàn)象。當(dāng)使用隨機(jī)剪裁（random cropping）時(shí)，去馬賽克和JPEG壓縮同時(shí)使用將會(huì)產(chǎn)生視覺手性現(xiàn)象。這意味著互聯(lián)網(wǎng)圖片中可能存在大量有規(guī)律的，肉眼不可見的視覺手性線索，而人們將能夠利用這類線索來進(jìn)行圖片識(shí)偽。

3、證明

那下面我們進(jìn)入證明部分（讀者需要對(duì)群論（Group Theory）有一定基礎(chǔ)）文中最重要的證明為附加材料中的命題3：

CVPR 2020 最佳論文提名 | 神經(jīng)網(wǎng)絡(luò)能否識(shí)別鏡像翻轉(zhuǎn)