目標(biāo)檢測二十年間那些事兒:加速與優(yōu)化
特征檢測優(yōu)化
特征表示的質(zhì)量是目標(biāo)檢測的關(guān)鍵。近年來,許多研究人員在一些最新引擎的基礎(chǔ)上,進一步提高了圖像特征的質(zhì)量,其中最重要的兩組方法是:1) 特征融合;2) 學(xué)習(xí)具有較大接受域的高分辨率特征。
特征融合
不變性(Invariance)和同變性(equivariance)是圖像特征表達(dá),同時也是目標(biāo)檢測任務(wù)兩個需要考慮的要素。分類任務(wù)中比較看重不變性,即不論物體出現(xiàn)在圖像中的什么位置,都能識別出來,旨在學(xué)習(xí)到更高層中的語義信息。定位任務(wù)比較看重同變性,即希望物體在圖像中進行了平移,定位的結(jié)果也應(yīng)該做對應(yīng)的平移,旨在判別位置和尺寸。
因為CNN網(wǎng)絡(luò)有很多的卷積層和池化層,所以越深層的特征層不變性越強而同變性越弱,而低層網(wǎng)絡(luò)雖然語義特征比較差,但是含有更豐富的邊緣及輪廓信息。為了同時保持不變性和同變性,可以融合多層特征層。因此近三年來,特征融合在目標(biāo)檢測中得到了廣泛的應(yīng)用。
在目標(biāo)檢測中進行特征融合的方法有很多。本文從兩個方面介紹了近年來的一些方法:1) 處理流程;2) 元素式操作。
(1)處理流程
目前用于目標(biāo)檢測的特征融合方法可分為兩類:1) 自底向上融合[11],2) 自頂向下融合[12],如下圖(a)-(b)所示。自底向上的融合通過跳躍連接將淺層特征前饋到更深的層,相比之下,自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法,最近還提出了更復(fù)雜的方法,例如跨層特征編織法[13]。
由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸,因此可能需要對特征圖進行調(diào)整,如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡單的方法是使用最接近或雙線性插值(nearest or bilinear-interpolation)[14]。此外,分?jǐn)?shù)階條紋卷積 (又稱轉(zhuǎn)置卷積)是近年來另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法[15]。使用分?jǐn)?shù)階條紋卷積的優(yōu)點是,它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉韴?zhí)行上采樣本身。
(2)元素式操作
從局部的角度看,特征融合可以看作是不同特征映射之間各元素的操作。如上圖(c)-(e)所示,分別有三種方法:1) 對應(yīng)元素的和[12],2) 對應(yīng)元素的積[16],3) 元素并置[11]。
對應(yīng)元素的和是執(zhí)行特征融合最簡單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測器。對應(yīng)元素的積與對應(yīng)元素的和非常相似,唯一的區(qū)別是使用乘法而不是求和。求積的一個優(yōu)點是它可以用來抑制或突出某個區(qū)域內(nèi)的特性,這可能進一步有利于小對象檢測。特征拼接/串聯(lián)是特征融合的另一種方式。它的優(yōu)點是可以用來集成不同區(qū)域的語境信息,缺點是增加了內(nèi)存。
通過大接受域?qū)W習(xí)高分辨率特征
接受域和特征分辨率是基于CNN的檢測器的兩個重要特點,前者是指輸入像素的空間范圍,用于計算輸出的單個像素;而后者對應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語境信息,而具有較小接受域的網(wǎng)絡(luò)則可能更專注于局部細(xì)節(jié)。
正如前面提到的,特征分辨率越低,就越難檢測小對象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來一個新的問題,即由于輸出步長減小,接受域會變得太小。換句話說,這將縮小檢測器的“視線”范圍,并可能導(dǎo)致一些大型目標(biāo)被漏檢。
其中一種可同時提高接收域和特征分辨率的方法是引入膨脹卷積(dilated convolution),又稱空洞卷積(atrous convolution)或帶孔卷積(convolution with holes)。膨脹卷積最初是在語義分割任務(wù)中提出的[17],其主要思想是對卷積濾波器進行擴展以及使用稀疏參數(shù)。例如,膨脹率為2的3x3濾波器會具有與核為5x5的濾波器相同的接受域,但只有9個參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測中,它在不需要任何額外參數(shù)和計算代價的情況下可有效提高精度[18]。
語義分割式學(xué)習(xí)
近年來的研究表明,通過學(xué)習(xí)和語義分割可以明顯提高目標(biāo)檢測能力。
為什么語義分割可提高檢測效果?語義分割提高目標(biāo)檢測能力的原因有三個。
1. 語義分割可幫助類型識別
邊緣和邊界是構(gòu)成人類視覺認(rèn)知的基本要素。在計算機視覺中,目標(biāo)(如汽車、人)和背景物(如天空、水、草)的區(qū)別在于前者通常有一個封閉的、明確的邊界,而后者沒有。由于語義分割任務(wù)的特征能夠很好地捕捉到對象的邊界,因此分割可能有助于分類識別。
2. 語義分割可幫助精確定位
良好定義的邊界決定了對象的基準(zhǔn)邊界框。對于一些特殊形狀的物體 (如一只有很長尾巴的貓),很難預(yù)測具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語義分割特征中,分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。
3. 語義分割可嵌入進語境結(jié)構(gòu)
日常生活中的物體被不同的背景所包圍,如天空、水、草等,這些元素構(gòu)成了一個物體的語境。整合語境的語義分割將有助于目標(biāo)檢測,例如,飛機更有可能出現(xiàn)在空中而不是水上。
語義分割如何提高檢測效果?
通過分割提高目標(biāo)檢測的主要方法有兩種:1) 采用豐富的特征學(xué)習(xí);2) 采用多任務(wù)損失函數(shù)學(xué)習(xí)。
(1)豐富化特征學(xué)習(xí)最簡單的方法是將分割網(wǎng)絡(luò)看作一個固定的特征提取器[18][19],并將其作為附加特征集成到檢測框架中。該方法的優(yōu)點是易于實現(xiàn),缺點是分割網(wǎng)絡(luò)可能帶來額外的計算。
(2)多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測框架的基礎(chǔ)上引入額外的分割旁支,用多任務(wù)損失函數(shù) ( 分割損失+檢測損失 ) 訓(xùn)練該模型[19]。在大多數(shù)情況下,分割分支將在推理階段被刪除。優(yōu)點是檢測速度不受影響,而缺點是訓(xùn)練需要像素級的圖像標(biāo)注。為此,一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想:他們不是基于像素級注釋掩碼進行訓(xùn)練,而是基于邊界框級注釋訓(xùn)練分割分支[20]。
這次我們對目標(biāo)檢測的一些加速優(yōu)化技術(shù)做了介紹,下一次我們將會著重介紹目標(biāo)檢測的具體應(yīng)用領(lǐng)域及未來的發(fā)展方向,敬請期待!
參考文獻
[1]K. He and J. Sun, “Convolutional neural networks at constrained time cost,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 5353– 5360.
[2]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2818–2826.
[3]X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating very deep convolutional networks for classification and detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 1943–1955, 2016.
[4]F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” arXiv preprint, pp. 1610–02 357, 2017.
[5]R. J.Wang, X. Li, S. Ao, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” arXiv preprint arXiv:1804.06882, 2018.
[6]T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853.
[7]B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transferable architectures for scalable image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 8697–8710.
[8]Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.
[9]C. Liu, L.-C. Chen, F. Schroff, H. Adam,W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.
[10]X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.
[11]P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.
[12]S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.
[13]Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.
[14]A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for object detection,” arXiv preprint arXiv:1612.06851, 2016.
[15]M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.
[16]T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.
[17]F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[18]Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.
[19]S. Gidaris and N. Komodakis, “Object detection via a multi-region and semantic segmentation-aware cnn model,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1134–1142.
[20]S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.
[21]Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單