目標(biāo)檢測(cè)二十年間那些事兒:加速與優(yōu)化
特征檢測(cè)優(yōu)化
特征表示的質(zhì)量是目標(biāo)檢測(cè)的關(guān)鍵。近年來(lái),許多研究人員在一些最新引擎的基礎(chǔ)上,進(jìn)一步提高了圖像特征的質(zhì)量,其中最重要的兩組方法是:1) 特征融合;2) 學(xué)習(xí)具有較大接受域的高分辨率特征。
特征融合
不變性(Invariance)和同變性(equivariance)是圖像特征表達(dá),同時(shí)也是目標(biāo)檢測(cè)任務(wù)兩個(gè)需要考慮的要素。分類(lèi)任務(wù)中比較看重不變性,即不論物體出現(xiàn)在圖像中的什么位置,都能識(shí)別出來(lái),旨在學(xué)習(xí)到更高層中的語(yǔ)義信息。定位任務(wù)比較看重同變性,即希望物體在圖像中進(jìn)行了平移,定位的結(jié)果也應(yīng)該做對(duì)應(yīng)的平移,旨在判別位置和尺寸。
因?yàn)镃NN網(wǎng)絡(luò)有很多的卷積層和池化層,所以越深層的特征層不變性越強(qiáng)而同變性越弱,而低層網(wǎng)絡(luò)雖然語(yǔ)義特征比較差,但是含有更豐富的邊緣及輪廓信息。為了同時(shí)保持不變性和同變性,可以融合多層特征層。因此近三年來(lái),特征融合在目標(biāo)檢測(cè)中得到了廣泛的應(yīng)用。
在目標(biāo)檢測(cè)中進(jìn)行特征融合的方法有很多。本文從兩個(gè)方面介紹了近年來(lái)的一些方法:1) 處理流程;2) 元素式操作。
(1)處理流程
目前用于目標(biāo)檢測(cè)的特征融合方法可分為兩類(lèi):1) 自底向上融合[11],2) 自頂向下融合[12],如下圖(a)-(b)所示。自底向上的融合通過(guò)跳躍連接將淺層特征前饋到更深的層,相比之下,自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法,最近還提出了更復(fù)雜的方法,例如跨層特征編織法[13]。
由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸,因此可能需要對(duì)特征圖進(jìn)行調(diào)整,如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡(jiǎn)單的方法是使用最接近或雙線性插值(nearest or bilinear-interpolation)[14]。此外,分?jǐn)?shù)階條紋卷積 (又稱(chēng)轉(zhuǎn)置卷積)是近年來(lái)另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法[15]。使用分?jǐn)?shù)階條紋卷積的優(yōu)點(diǎn)是,它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉?lái)執(zhí)行上采樣本身。
(2)元素式操作
從局部的角度看,特征融合可以看作是不同特征映射之間各元素的操作。如上圖(c)-(e)所示,分別有三種方法:1) 對(duì)應(yīng)元素的和[12],2) 對(duì)應(yīng)元素的積[16],3) 元素并置[11]。
對(duì)應(yīng)元素的和是執(zhí)行特征融合最簡(jiǎn)單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測(cè)器。對(duì)應(yīng)元素的積與對(duì)應(yīng)元素的和非常相似,唯一的區(qū)別是使用乘法而不是求和。求積的一個(gè)優(yōu)點(diǎn)是它可以用來(lái)抑制或突出某個(gè)區(qū)域內(nèi)的特性,這可能進(jìn)一步有利于小對(duì)象檢測(cè)。特征拼接/串聯(lián)是特征融合的另一種方式。它的優(yōu)點(diǎn)是可以用來(lái)集成不同區(qū)域的語(yǔ)境信息,缺點(diǎn)是增加了內(nèi)存。
通過(guò)大接受域?qū)W習(xí)高分辨率特征
接受域和特征分辨率是基于CNN的檢測(cè)器的兩個(gè)重要特點(diǎn),前者是指輸入像素的空間范圍,用于計(jì)算輸出的單個(gè)像素;而后者對(duì)應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語(yǔ)境信息,而具有較小接受域的網(wǎng)絡(luò)則可能更專(zhuān)注于局部細(xì)節(jié)。
正如前面提到的,特征分辨率越低,就越難檢測(cè)小對(duì)象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來(lái)一個(gè)新的問(wèn)題,即由于輸出步長(zhǎng)減小,接受域會(huì)變得太小。換句話(huà)說(shuō),這將縮小檢測(cè)器的“視線”范圍,并可能導(dǎo)致一些大型目標(biāo)被漏檢。
其中一種可同時(shí)提高接收域和特征分辨率的方法是引入膨脹卷積(dilated convolution),又稱(chēng)空洞卷積(atrous convolution)或帶孔卷積(convolution with holes)。膨脹卷積最初是在語(yǔ)義分割任務(wù)中提出的[17],其主要思想是對(duì)卷積濾波器進(jìn)行擴(kuò)展以及使用稀疏參數(shù)。例如,膨脹率為2的3x3濾波器會(huì)具有與核為5x5的濾波器相同的接受域,但只有9個(gè)參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測(cè)中,它在不需要任何額外參數(shù)和計(jì)算代價(jià)的情況下可有效提高精度[18]。
語(yǔ)義分割式學(xué)習(xí)
近年來(lái)的研究表明,通過(guò)學(xué)習(xí)和語(yǔ)義分割可以明顯提高目標(biāo)檢測(cè)能力。
為什么語(yǔ)義分割可提高檢測(cè)效果?語(yǔ)義分割提高目標(biāo)檢測(cè)能力的原因有三個(gè)。
1. 語(yǔ)義分割可幫助類(lèi)型識(shí)別
邊緣和邊界是構(gòu)成人類(lèi)視覺(jué)認(rèn)知的基本要素。在計(jì)算機(jī)視覺(jué)中,目標(biāo)(如汽車(chē)、人)和背景物(如天空、水、草)的區(qū)別在于前者通常有一個(gè)封閉的、明確的邊界,而后者沒(méi)有。由于語(yǔ)義分割任務(wù)的特征能夠很好地捕捉到對(duì)象的邊界,因此分割可能有助于分類(lèi)識(shí)別。
2. 語(yǔ)義分割可幫助精確定位
良好定義的邊界決定了對(duì)象的基準(zhǔn)邊界框。對(duì)于一些特殊形狀的物體 (如一只有很長(zhǎng)尾巴的貓),很難預(yù)測(cè)具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語(yǔ)義分割特征中,分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。
3. 語(yǔ)義分割可嵌入進(jìn)語(yǔ)境結(jié)構(gòu)
日常生活中的物體被不同的背景所包圍,如天空、水、草等,這些元素構(gòu)成了一個(gè)物體的語(yǔ)境。整合語(yǔ)境的語(yǔ)義分割將有助于目標(biāo)檢測(cè),例如,飛機(jī)更有可能出現(xiàn)在空中而不是水上。
語(yǔ)義分割如何提高檢測(cè)效果?
通過(guò)分割提高目標(biāo)檢測(cè)的主要方法有兩種:1) 采用豐富的特征學(xué)習(xí);2) 采用多任務(wù)損失函數(shù)學(xué)習(xí)。
(1)豐富化特征學(xué)習(xí)最簡(jiǎn)單的方法是將分割網(wǎng)絡(luò)看作一個(gè)固定的特征提取器[18][19],并將其作為附加特征集成到檢測(cè)框架中。該方法的優(yōu)點(diǎn)是易于實(shí)現(xiàn),缺點(diǎn)是分割網(wǎng)絡(luò)可能帶來(lái)額外的計(jì)算。
(2)多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測(cè)框架的基礎(chǔ)上引入額外的分割旁支,用多任務(wù)損失函數(shù) ( 分割損失+檢測(cè)損失 ) 訓(xùn)練該模型[19]。在大多數(shù)情況下,分割分支將在推理階段被刪除。優(yōu)點(diǎn)是檢測(cè)速度不受影響,而缺點(diǎn)是訓(xùn)練需要像素級(jí)的圖像標(biāo)注。為此,一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想:他們不是基于像素級(jí)注釋掩碼進(jìn)行訓(xùn)練,而是基于邊界框級(jí)注釋訓(xùn)練分割分支[20]。
這次我們對(duì)目標(biāo)檢測(cè)的一些加速優(yōu)化技術(shù)做了介紹,下一次我們將會(huì)著重介紹目標(biāo)檢測(cè)的具體應(yīng)用領(lǐng)域及未來(lái)的發(fā)展方向,敬請(qǐng)期待!
參考文獻(xiàn)
[1]K. He and J. Sun, “Convolutional neural networks at constrained time cost,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 5353– 5360.
[2]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2818–2826.
[3]X. Zhang, J. Zou, K. He, and J. Sun, “Accelerating very deep convolutional networks for classification and detection,” IEEE transactions on pattern analysis and machine intelligence, vol. 38, no. 10, pp. 1943–1955, 2016.
[4]F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” arXiv preprint, pp. 1610–02 357, 2017.
[5]R. J.Wang, X. Li, S. Ao, and C. X. Ling, “Pelee: A real-time object detection system on mobile devices,” arXiv preprint arXiv:1804.06882, 2018.
[6]T. Kong, A. Yao, Y. Chen, and F. Sun, “Hypernet: Towards accurate region proposal generation and joint object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 845–853.
[7]B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transferable architectures for scalable image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 8697–8710.
[8]Y. Chen, T. Yang, X. Zhang, G. Meng, C. Pan, and J. Sun, “Detnas: Neural architecture search on object detection,” arXiv preprint arXiv:1903.10979, 2019.
[9]C. Liu, L.-C. Chen, F. Schroff, H. Adam,W. Hua, A. Yuille, and L. Fei-Fei, “Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,” arXiv preprint arXiv:1901.02985, 2019.
[10]X. Chu, B. Zhang, R. Xu, and H. Ma, “Multi-objective reinforced evolution in mobile neural architecture search,” arXiv preprint arXiv:1901.01074, 2019.
[11]P. Zhou, B. Ni, C. Geng, J. Hu, and Y. Xu, “Scale-transferrable object detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 528–537.
[12]S. Woo, S. Hwang, and I. S. Kweon, “Stairnet: Top-down semantic aggregation for accurate one shot detection,” in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018, pp. 1093–1102.
[13]Y. Chen, J. Li, B. Zhou, J. Feng, and S. Yan, “Weaving multi-scale context for single shot detector,” arXiv preprint arXiv:1712.03149, 2017.
[14]A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta, “Beyond skip connections: Top-down modulation for object detection,” arXiv preprint arXiv:1612.06851, 2016.
[15]M. D. Zeiler, G. W. Taylor, and R. Fergus, “Adaptive deconvolutional networks for mid and high level feature learning,” in Computer Vision (ICCV), 2011 IEEE International Conference on. IEEE, 2011, pp. 2018–2025.
[16]T. Kong, F. Sun, A. Yao, H. Liu, M. Lu, and Y. Chen, “Ron: Reverse connection with objectness prior networks for object detection,” in IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, 2017, p. 2.
[17]F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[18]Z. Li, C. Peng, G. Yu, X. Zhang, Y. Deng, and J. Sun, “Detnet: A backbone network for object detection,” arXiv preprint arXiv:1804.06215, 2018.
[19]S. Gidaris and N. Komodakis, “Object detection via a multi-region and semantic segmentation-aware cnn model,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1134–1142.
[20]S. Brahmbhatt, H. I. Christensen, and J. Hays, “Stuffnet: Using stuffto improve object detection,” in Applications of Computer Vision (WACV), 2017 IEEE Winter Conference on. IEEE, 2017, pp. 934–943.
[21]Z. Zhang, S. Qiao, C. Xie, W. Shen, B. Wang, and A. L. Yuille, “Single-shot object detection with enriched semantics,” Center for Brains, Minds and Machines (CBMM), Tech. Rep., 2018.

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?