无码国产精品久久一区免费,5g影院天天5g天天爽网站,澳门熟妇无码黄片

目標(biāo)檢測二十年間那些事兒：加速與優(yōu)化

2020-08-21 11:14

特征檢測優(yōu)化

特征表示的質(zhì)量是目標(biāo)檢測的關(guān)鍵。近年來，許多研究人員在一些最新引擎的基礎(chǔ)上，進一步提高了圖像特征的質(zhì)量，其中最重要的兩組方法是：1）特征融合；2）學(xué)習(xí)具有較大接受域的高分辨率特征。

特征融合

不變性（Invariance）和同變性（equivariance）是圖像特征表達(dá)，同時也是目標(biāo)檢測任務(wù)兩個需要考慮的要素。分類任務(wù)中比較看重不變性，即不論物體出現(xiàn)在圖像中的什么位置，都能識別出來，旨在學(xué)習(xí)到更高層中的語義信息。定位任務(wù)比較看重同變性，即希望物體在圖像中進行了平移，定位的結(jié)果也應(yīng)該做對應(yīng)的平移，旨在判別位置和尺寸。

因為CNN網(wǎng)絡(luò)有很多的卷積層和池化層，所以越深層的特征層不變性越強而同變性越弱，而低層網(wǎng)絡(luò)雖然語義特征比較差，但是含有更豐富的邊緣及輪廓信息。為了同時保持不變性和同變性，可以融合多層特征層。因此近三年來，特征融合在目標(biāo)檢測中得到了廣泛的應(yīng)用。

在目標(biāo)檢測中進行特征融合的方法有很多。本文從兩個方面介紹了近年來的一些方法：1）處理流程；2）元素式操作。

（1）處理流程

目前用于目標(biāo)檢測的特征融合方法可分為兩類：1）自底向上融合［11］，2）自頂向下融合［12］，如下圖（a）－（b）所示。自底向上的融合通過跳躍連接將淺層特征前饋到更深的層，相比之下，自頂向下的融合將更深層次的特征反饋給更淺層次。除了這些方法，最近還提出了更復(fù)雜的方法，例如跨層特征編織法［13］。

由于不同層的特征圖在空間維度和通道維度上都可能有不同的尺寸，因此可能需要對特征圖進行調(diào)整，如將通道數(shù)量、上采樣低分辨率圖或下采樣高分辨率圖調(diào)整至合適的尺寸。最簡單的方法是使用最接近或雙線性插值（nearest or bilinear－interpolation）［14］。此外，分?jǐn)?shù)階條紋卷積（又稱轉(zhuǎn)置卷積）是近年來另一常用的調(diào)整特征圖大小和調(diào)整通道數(shù)量的方法［15］。使用分?jǐn)?shù)階條紋卷積的優(yōu)點是，它可以學(xué)習(xí)一種適當(dāng)?shù)姆椒▉韴?zhí)行上采樣本身。

（2）元素式操作

從局部的角度看，特征融合可以看作是不同特征映射之間各元素的操作。如上圖（c）－（e）所示，分別有三種方法：1）對應(yīng)元素的和［12］，2）對應(yīng)元素的積［16］，3）元素并置［11］。

對應(yīng)元素的和是執(zhí)行特征融合最簡單的方法。它已被頻繁地用于許多最近的目標(biāo)檢測器。對應(yīng)元素的積與對應(yīng)元素的和非常相似，唯一的區(qū)別是使用乘法而不是求和。求積的一個優(yōu)點是它可以用來抑制或突出某個區(qū)域內(nèi)的特性，這可能進一步有利于小對象檢測。特征拼接／串聯(lián)是特征融合的另一種方式。它的優(yōu)點是可以用來集成不同區(qū)域的語境信息，缺點是增加了內(nèi)存。

通過大接受域?qū)W習(xí)高分辨率特征

接受域和特征分辨率是基于CNN的檢測器的兩個重要特點，前者是指輸入像素的空間范圍，用于計算輸出的單個像素；而后者對應(yīng)于輸入與特征圖之間的下采樣率。具有較大接受域的網(wǎng)絡(luò)能夠捕獲更大范圍的語境信息，而具有較小接受域的網(wǎng)絡(luò)則可能更專注于局部細(xì)節(jié)。

正如前面提到的，特征分辨率越低，就越難檢測小對象。提高特征分辨率最直接的方法是去除池化層或降低卷積下采樣率。但這將帶來一個新的問題，即由于輸出步長減小，接受域會變得太小。換句話說，這將縮小檢測器的“視線”范圍，并可能導(dǎo)致一些大型目標(biāo)被漏檢。

其中一種可同時提高接收域和特征分辨率的方法是引入膨脹卷積（dilated convolution），又稱空洞卷積（atrous convolution）或帶孔卷積（convolution with holes）。膨脹卷積最初是在語義分割任務(wù)中提出的［17］，其主要思想是對卷積濾波器進行擴展以及使用稀疏參數(shù)。例如，膨脹率為2的3x3濾波器會具有與核為5x5的濾波器相同的接受域，但只有9個參數(shù)。膨脹卷積目前已廣泛應(yīng)用于目標(biāo)檢測中，它在不需要任何額外參數(shù)和計算代價的情況下可有效提高精度［18］。

語義分割式學(xué)習(xí)

近年來的研究表明，通過學(xué)習(xí)和語義分割可以明顯提高目標(biāo)檢測能力。

為什么語義分割可提高檢測效果？語義分割提高目標(biāo)檢測能力的原因有三個。

1．語義分割可幫助類型識別

邊緣和邊界是構(gòu)成人類視覺認(rèn)知的基本要素。在計算機視覺中，目標(biāo)（如汽車、人）和背景物（如天空、水、草）的區(qū)別在于前者通常有一個封閉的、明確的邊界，而后者沒有。由于語義分割任務(wù)的特征能夠很好地捕捉到對象的邊界，因此分割可能有助于分類識別。

2．語義分割可幫助精確定位

良好定義的邊界決定了對象的基準(zhǔn)邊界框。對于一些特殊形狀的物體（如一只有很長尾巴的貓），很難預(yù)測具備高交并比的位置。由于目標(biāo)邊界可以很好地編碼在語義分割特征中，分割學(xué)習(xí)有助于準(zhǔn)確的目標(biāo)定位。

3．語義分割可嵌入進語境結(jié)構(gòu)

日常生活中的物體被不同的背景所包圍，如天空、水、草等，這些元素構(gòu)成了一個物體的語境。整合語境的語義分割將有助于目標(biāo)檢測，例如，飛機更有可能出現(xiàn)在空中而不是水上。

語義分割如何提高檢測效果？

通過分割提高目標(biāo)檢測的主要方法有兩種：1）采用豐富的特征學(xué)習(xí)；2）采用多任務(wù)損失函數(shù)學(xué)習(xí)。

（1）豐富化特征學(xué)習(xí)最簡單的方法是將分割網(wǎng)絡(luò)看作一個固定的特征提取器［18］［19］，并將其作為附加特征集成到檢測框架中。該方法的優(yōu)點是易于實現(xiàn)，缺點是分割網(wǎng)絡(luò)可能帶來額外的計算。
（2）多任務(wù)損失函數(shù)學(xué)習(xí)另一種方法是在原有檢測框架的基礎(chǔ)上引入額外的分割旁支，用多任務(wù)損失函數(shù) （分割損失＋檢測損失）訓(xùn)練該模型［19］。在大多數(shù)情況下，分割分支將在推理階段被刪除。優(yōu)點是檢測速度不受影響，而缺點是訓(xùn)練需要像素級的圖像標(biāo)注。為此，一些研究人員采用了 “ 弱監(jiān)督學(xué)習(xí) ” 的思想：他們不是基于像素級注釋掩碼進行訓(xùn)練，而是基于邊界框級注釋訓(xùn)練分割分支［20］。

這次我們對目標(biāo)檢測的一些加速優(yōu)化技術(shù)做了介紹，下一次我們將會著重介紹目標(biāo)檢測的具體應(yīng)用領(lǐng)域及未來的發(fā)展方向，敬請期待！

參考文獻

［1］K． He and J． Sun， “Convolutional neural networks at constrained time cost，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2015， pp． 5353– 5360．

［2］C． Szegedy， V． Vanhoucke， S． Ioffe， J． Shlens， and Z． Wojna， “Rethinking the inception architecture for computer vision，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2016， pp． 2818–2826．

［3］X． Zhang， J． Zou， K． He， and J． Sun， “Accelerating very deep convolutional networks for classification and detection，” IEEE transactions on pattern analysis and machine intelligence， vol． 38， no． 10， pp． 1943–1955， 2016．

［4］F． Chollet， “Xception： Deep learning with depthwise separable convolutions，” arXiv preprint， pp． 1610–02 357， 2017．

［5］R． J．Wang， X． Li， S． Ao， and C． X． Ling， “Pelee： A real－time object detection system on mobile devices，” arXiv preprint arXiv：1804．06882， 2018．

［6］T． Kong， A． Yao， Y． Chen， and F． Sun， “Hypernet： Towards accurate region proposal generation and joint object detection，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2016， pp． 845–853．

［7］B． Zoph， V． Vasudevan， J． Shlens， and Q． V． Le， “Learning transferable architectures for scalable image recognition，” in Proceedings of the IEEE conference on computer vision and pattern recognition， 2018， pp． 8697–8710．

［8］Y． Chen， T． Yang， X． Zhang， G． Meng， C． Pan， and J． Sun， “Detnas： Neural architecture search on object detection，” arXiv preprint arXiv：1903．10979， 2019．

［9］C． Liu， L．－C． Chen， F． Schroff， H． Adam，W． Hua， A． Yuille， and L． Fei－Fei， “Auto－deeplab： Hierarchical neural architecture search for semantic image segmentation，” arXiv preprint arXiv：1901．02985， 2019．

［10］X． Chu， B． Zhang， R． Xu， and H． Ma， “Multi－objective reinforced evolution in mobile neural architecture search，” arXiv preprint arXiv：1901．01074， 2019．

［11］P． Zhou， B． Ni， C． Geng， J． Hu， and Y． Xu， “Scale－transferrable object detection，” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2018， pp． 528–537．

［12］S． Woo， S． Hwang， and I． S． Kweon， “Stairnet： Top－down semantic aggregation for accurate one shot detection，” in 2018 IEEE Winter Conference on Applications of Computer Vision （WACV）． IEEE， 2018， pp． 1093–1102．

［13］Y． Chen， J． Li， B． Zhou， J． Feng， and S． Yan， “Weaving multi－scale context for single shot detector，” arXiv preprint arXiv：1712．03149， 2017．

［14］A． Shrivastava， R． Sukthankar， J． Malik， and A． Gupta， “Beyond skip connections： Top－down modulation for object detection，” arXiv preprint arXiv：1612．06851， 2016．

［15］M． D． Zeiler， G． W． Taylor， and R． Fergus， “Adaptive deconvolutional networks for mid and high level feature learning，” in Computer Vision （ICCV）， 2011 IEEE International Conference on． IEEE， 2011， pp． 2018–2025．

［16］T． Kong， F． Sun， A． Yao， H． Liu， M． Lu， and Y． Chen， “Ron： Reverse connection with objectness prior networks for object detection，” in IEEE Conference on Computer Vision and Pattern Recognition， vol． 1， 2017， p． 2．

［17］F． Yu and V． Koltun， “Multi－scale context aggregation by dilated convolutions，” arXiv preprint arXiv：1511．07122， 2015．

［18］Z． Li， C． Peng， G． Yu， X． Zhang， Y． Deng， and J． Sun， “Detnet： A backbone network for object detection，” arXiv preprint arXiv：1804．06215， 2018．

［19］S． Gidaris and N． Komodakis， “Object detection via a multi－region and semantic segmentation－aware cnn model，” in Proceedings of the IEEE International Conference on Computer Vision， 2015， pp． 1134–1142．

［20］S． Brahmbhatt， H． I． Christensen， and J． Hays， “Stuffnet： Using stuffto improve object detection，” in Applications of Computer Vision （WACV）， 2017 IEEE Winter Conference on． IEEE， 2017， pp． 934–943．

［21］Z． Zhang， S． Qiao， C． Xie， W． Shen， B． Wang， and A． L． Yuille， “Single－shot object detection with enriched semantics，” Center for Brains， Minds and Machines （CBMM）， Tech． Rep．， 2018．

<上一頁 1 2 3