訂閱
糾錯(cuò)
加入自媒體

目標(biāo)檢測(cè)二十年間那些事兒:加速與優(yōu)化

特征檢測(cè)優(yōu)化

特征表示的質(zhì)量是目標(biāo)檢測(cè)的關(guān)鍵。近年來(lái),許多研究人員在一些最新引擎的基礎(chǔ)上,進(jìn)一步提高了圖像特征的質(zhì)量,其中最重要的兩組方法是:1) 特征融合;2) 學(xué)習(xí)具有較大接受域的高分辨率特征。

特征融合

不變性(Invariance)和同變性(equivariance)是圖像特征表達(dá),同時(shí)也是目標(biāo)檢測(cè)任務(wù)兩個(gè)需要考慮的要素。分類(lèi)任務(wù)中比較看重不變性,即不論物體出現(xiàn)在圖像中的什么位置,都能識(shí)別出來(lái),旨在學(xué)習(xí)到更高層中的語(yǔ)義信息。定位任務(wù)比較看重同變性,即希望物體在圖像中進(jìn)行了平移,定位的結(jié)果也應(yīng)該做對(duì)應(yīng)的平移,旨在判別位置和尺寸。

因?yàn)镃NN網(wǎng)絡(luò)有很多的卷積層和池化層,所以越深層的特征層不變性越強(qiáng)而同變性越弱,而低層網(wǎng)絡(luò)雖然語(yǔ)義特征比較差,但是含有更豐富的邊緣及輪廓信息。為了同時(shí)保持不變性和同變性,可以融合多層特征層。因此近三年來(lái),特征融合在目標(biāo)檢測(cè)中得到了廣泛的應(yīng)用。

在目標(biāo)檢測(cè)中進(jìn)行特征融合的方法有很多。本文從兩個(gè)方面介紹了近年來(lái)的一些方法:1) 處理流程;2) 元素式操作。

(1)處理流程

目前用于目標(biāo)檢測(cè)的特征融合方法可分為兩類(lèi):1) 自底向上融合[11],2) 自頂向下融合[12],如下圖(a)-(b)所示。自底向上的融合通過(guò)跳躍連接將淺層特征前饋到更深的層,相比之下,自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法,最近還提出了更復(fù)雜的方法,例如跨層特征編織法[13]。

由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸,因此可能需要對(duì)特征圖進(jìn)行調(diào)整,如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡(jiǎn)單的方法是使用最接近或雙線性插值(nearest or bilinear-interpolation)[14]。此外,分?jǐn)?shù)階條紋卷積 (又稱(chēng)轉(zhuǎn)置卷積)是近年來(lái)另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法[15]。使用分?jǐn)?shù)階條紋卷積的優(yōu)點(diǎn)是,它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉?lái)執(zhí)行上采樣本身。

(2)元素式操作

從局部的角度看,特征融合可以看作是不同特征映射之間各元素的操作。如上圖(c)-(e)所示,分別有三種方法:1) 對(duì)應(yīng)元素的和[12],2) 對(duì)應(yīng)元素的積[16],3) 元素并置[11]。

對(duì)應(yīng)元素的和是執(zhí)行特征融合最簡(jiǎn)單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測(cè)器。對(duì)應(yīng)元素的積與對(duì)應(yīng)元素的和非常相似,唯一的區(qū)別是使用乘法而不是求和。求積的一個(gè)優(yōu)點(diǎn)是它可以用來(lái)抑制或突出某個(gè)區(qū)域內(nèi)的特性,這可能進(jìn)一步有利于小對(duì)象檢測(cè)。特征拼接/串聯(lián)是特征融合的另一種方式。它的優(yōu)點(diǎn)是可以用來(lái)集成不同區(qū)域的語(yǔ)境信息,缺點(diǎn)是增加了內(nèi)存。

通過(guò)大接受域?qū)W習(xí)高分辨率特征

接受域和特征分辨率是基于CNN的檢測(cè)器的兩個(gè)重要特點(diǎn),前者是指輸入像素的空間范圍,用于計(jì)算輸出的單個(gè)像素;而后者對(duì)應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語(yǔ)境信息,而具有較小接受域的網(wǎng)絡(luò)則可能更專(zhuān)注于局部細(xì)節(jié)。

正如前面提到的,特征分辨率越低,就越難檢測(cè)小對(duì)象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來(lái)一個(gè)新的問(wèn)題,即由于輸出步長(zhǎng)減小,接受域會(huì)變得太小。換句話(huà)說(shuō),這將縮小檢測(cè)器的“視線”范圍,并可能導(dǎo)致一些大型目標(biāo)被漏檢。

其中一種可同時(shí)提高接收域和特征分辨率的方法是引入膨脹卷積(dilated convolution),又稱(chēng)空洞卷積(atrous convolution)或帶孔卷積(convolution with holes)。膨脹卷積最初是在語(yǔ)義分割任務(wù)中提出的[17],其主要思想是對(duì)卷積濾波器進(jìn)行擴(kuò)展以及使用稀疏參數(shù)。例如,膨脹率為2的3x3濾波器會(huì)具有與核為5x5的濾波器相同的接受域,但只有9個(gè)參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測(cè)中,它在不需要任何額外參數(shù)和計(jì)算代價(jià)的情況下可有效提高精度[18]。

語(yǔ)義分割式學(xué)習(xí)

近年來(lái)的研究表明,通過(guò)學(xué)習(xí)和語(yǔ)義分割可以明顯提高目標(biāo)檢測(cè)能力。

為什么語(yǔ)義分割可提高檢測(cè)效果?語(yǔ)義分割提高目標(biāo)檢測(cè)能力的原因有三個(gè)。

1. 語(yǔ)義分割可幫助類(lèi)型識(shí)別

邊緣和邊界是構(gòu)成人類(lèi)視覺(jué)認(rèn)知的基本要素。在計(jì)算機(jī)視覺(jué)中,目標(biāo)(如汽車(chē)、人)和背景物(如天空、水、草)的區(qū)別在于前者通常有一個(gè)封閉的、明確的邊界,而后者沒(méi)有。由于語(yǔ)義分割任務(wù)的特征能夠很好地捕捉到對(duì)象的邊界,因此分割可能有助于分類(lèi)識(shí)別。

2. 語(yǔ)義分割可幫助精確定位

良好定義的邊界決定了對(duì)象的基準(zhǔn)邊界框。對(duì)于一些特殊形狀的物體 (如一只有很長(zhǎng)尾巴的貓),很難預(yù)測(cè)具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語(yǔ)義分割特征中,分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。

3. 語(yǔ)義分割可嵌入進(jìn)語(yǔ)境結(jié)構(gòu)

日常生活中的物體被不同的背景所包圍,如天空、水、草等,這些元素構(gòu)成了一個(gè)物體的語(yǔ)境。整合語(yǔ)境的語(yǔ)義分割將有助于目標(biāo)檢測(cè),例如,飛機(jī)更有可能出現(xiàn)在空中而不是水上。

語(yǔ)義分割如何提高檢測(cè)效果?

通過(guò)分割提高目標(biāo)檢測(cè)的主要方法有兩種:1) 采用豐富的特征學(xué)習(xí);2) 采用多任務(wù)損失函數(shù)學(xué)習(xí)。

(1)豐富化特征學(xué)習(xí)最簡(jiǎn)單的方法是將分割網(wǎng)絡(luò)看作一個(gè)固定的特征提取器[18][19],并將其作為附加特征集成到檢測(cè)框架中。該方法的優(yōu)點(diǎn)是易于實(shí)現(xiàn),缺點(diǎn)是分割網(wǎng)絡(luò)可能帶來(lái)額外的計(jì)算。
(2)多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測(cè)框架的基礎(chǔ)上引入額外的分割旁支,用多任務(wù)損失函數(shù) ( 分割損失+檢測(cè)損失 ) 訓(xùn)練該模型[19]。在大多數(shù)情況下,分割分支將在推理階段被刪除。優(yōu)點(diǎn)是檢測(cè)速度不受影響,而缺點(diǎn)是訓(xùn)練需要像素級(jí)的圖像標(biāo)注。為此,一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想:他們不是基于像素級(jí)注釋掩碼進(jìn)行訓(xùn)練,而是基于邊界框級(jí)注釋訓(xùn)練分割分支[20]。

這次我們對(duì)目標(biāo)檢測(cè)的一些加速優(yōu)化技術(shù)做了介紹,下一次我們將會(huì)著重介紹目標(biāo)檢測(cè)的具體應(yīng)用領(lǐng)域及未來(lái)的發(fā)展方向,敬請(qǐng)期待!

參考文獻(xiàn)

[1]K. He and J. Sun, “Convolutional neural networks at constrained time cost,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 5353– 5360.

[2]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2818–2826.

[3]X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating very deep convolutional networks for classification and detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 1943–1955, 2016.

[4]F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” arXiv preprint, pp. 1610–02 357, 2017.

[5]R. J.Wang, X. Li, S. Ao, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” arXiv preprint arXiv:1804.06882, 2018.

[6]T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853.

[7]B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transferable architectures for scalable image recognition,” in Proceedings of the IEEE conference on computer vision and  pattern recognition, 2018, pp. 8697–8710.

[8]Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.

[9]C. Liu, L.-C. Chen, F. Schroff, H. Adam,W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.

[10]X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.

[11]P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.

[12]S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.

[13]Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.

[14]A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for object detection,” arXiv preprint arXiv:1612.06851, 2016.

[15]M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.

[16]T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.

[17]F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.

[18]Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.

[19]S. Gidaris and N. Komodakis, “Object detection via a multi-region and semantic segmentation-aware cnn model,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1134–1142.

[20]S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.

[21]Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.

<上一頁(yè)  1  2  3  
聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)