久久久久久亚洲av毛片大全,99色在线视频,亚洲人成电影在线网址

深蘭科技|目標(biāo)檢測二十年間的那些事兒

2020-07-31 10:00

（2） HOG 檢測器

方向梯度直方圖（HOG）特征描述器最初是由N． Dalal和B．Triggs在2005年提出的［11］。HOG對當(dāng)時的尺度不變特征變換（scale－invariant feature transform）和形狀語境（shape contexts）做出重要改進(jìn)。為了平衡特征不變性（包括平移、尺度、光照等）和非線性（區(qū)分不同對象類別），HOG描述器被設(shè)計為在密集的均勻間隔單元網(wǎng)格（稱為一個“區(qū)塊”）上計算，并使用重疊局部對比度歸一化方法來提高精度。雖然HOG可以用來檢測各種對象類，但它的主要目標(biāo)是行人檢測問題。如若要檢測不同大小的對象，則要讓HOG檢測器在保持檢測窗口大小不變的情況下，對輸入圖像進(jìn)行多次重設(shè)尺寸（rescale）。這么多年來，HOG檢測器一直是許多目標(biāo)檢測器和各種計算機(jī)視覺應(yīng)用的重要基礎(chǔ)。

方向梯度直方圖（HOG），計算出每個像素朝四周的梯度方向和梯度強(qiáng)度，并統(tǒng)計形成梯度直方圖

（3）基于可變形部件的模型（DPM）

DPM作為voco －07、－08、－09屆檢測挑戰(zhàn)賽的優(yōu)勝者，它曾是傳統(tǒng)目標(biāo)檢測方法的巔峰。DPM最初是由P． Felzenszwalb提出的［12］，于2008年作為HOG檢測器的擴(kuò)展，之后R． Girshick進(jìn)行了各種改進(jìn)［13］［14］。

DPM遵循“分而治之”的檢測思想，訓(xùn)練可以簡單地看作是學(xué)習(xí)一種正確的分解對象的方法，推理可以看作是對不同對象部件的檢測的集合。例如，檢測“汽車”的問題可以看作是檢測它的窗口、車身和車輪。工作的這一部分，也就是“star model”由P．Felzenszwalb等人完成。后來，R． Girshick進(jìn)一步將star model擴(kuò)展到 “ 混合模型 ”，以處理更顯著變化下的現(xiàn)實世界中的物體。

一個典型的DPM檢測器由一個根過濾器（root－filter）和一些零件濾波器（part－filters）組成。該方法不需要手動設(shè)定零件濾波器的配置（如尺寸和位置），而是在開發(fā)了一種弱監(jiān)督學(xué)習(xí)方法并使用到了DPM中，所有零件濾波器的配置都可以作為潛在變量自動學(xué)習(xí)。R． Girshick將這個過程進(jìn)一步表述為一個多實例學(xué)習(xí)的特殊案例，同時還應(yīng)用了“困難負(fù)樣本挖掘（hard－negative mining）”、“邊界框回歸”、“語境啟動”等重要技術(shù)以提高檢測精度。而為了加快檢測速度，Girshick開發(fā)了一種技術(shù)，將檢測模型“ 編譯 ”成一個更快的模型，實現(xiàn)了級聯(lián)結(jié)構(gòu)，在不犧牲任何精度的情況下實現(xiàn)了超過10倍的加速。

雖然今天的目標(biāo)探測器在檢測精度方面已經(jīng)遠(yuǎn)遠(yuǎn)超過了DPM，但仍然受到DPM的許多有價值的見解的影響，如混合模型、困難負(fù)樣本挖掘、邊界框回歸等。2010年，P． Felzenszwalb和R． Girshick被授予PASCAL VOC的 “終身成就獎”。

基于卷積神經(jīng)網(wǎng)絡(luò)的雙級檢測器

隨著手動選取特征技術(shù)的性能趨于飽和，目標(biāo)檢測在2010年之后達(dá)到了一個平穩(wěn)的發(fā)展期。2012年，卷積神經(jīng)網(wǎng)絡(luò)在世界范圍內(nèi)重新煥發(fā)生機(jī)［15］。由于深卷積網(wǎng)絡(luò)能夠?qū)W習(xí)圖像的魯棒性和高層次特征表示，一個自然而然的問題是：我們能否將其應(yīng)用到目標(biāo)檢測中？R． Girshick等人在2014年率先打破僵局，提出了具有CNN特征的區(qū)域（RCNN）用于目標(biāo)檢測［16］。從那時起，目標(biāo)檢測開始以前所未有的速度發(fā)展。在深度學(xué)習(xí)時代，目標(biāo)檢測可以分為兩類：“雙級檢測（two－stage detection）” 和 “單級檢測（one－stage detection）”，前者將檢測框定為一個“從粗到細(xì) ”的過程，而后者將其定義為“一步到位”。

雙級檢測的發(fā)展及各類檢測器的結(jié)構(gòu)［2］

（1） RCNN

RCNN［17］的思路很簡單：它首先通過選擇性搜索來提取一組對象作為“提案（proposal）”并當(dāng)做對象的候選框。然后將每個提案重新調(diào)整成一個固定大小的圖像，再輸入到一個在ImageNet上訓(xùn)練得到的CNN模型（如AlexNet）來提取特征。最后，利用線性SVM分類器對每個區(qū)域內(nèi)的目標(biāo)進(jìn)行預(yù)測，識別目標(biāo)類別。RCNN在VOC07測試集上有明顯的性能提升，平均精準(zhǔn)度（mean Average Precision，mAP）從33．7％（DPM－v5）大幅提高到58．5％。

雖然RCNN已經(jīng)取得了很大的進(jìn)步，但它的缺點是顯而易見的：需要在大量重疊的提案上進(jìn)行冗余的特征計算（一張圖片超過2000個框），導(dǎo)致檢測速度極慢（使用GPU時每張圖片耗時14秒）。同年晚些時候，有人提出了SPPNet并克服了這個問題。

（2） SPPNet

2014年，K． He等人提出了空間金字塔池化網(wǎng)絡(luò)（ Spatial Pyramid Pooling Networks，SPPNet）［18］。以前的CNN模型需要固定大小的輸入，例如AlexNet需要224x224圖像。SPPNet的主要貢獻(xiàn)是引入了空間金字塔池化（SPP）層，它使CNN能夠生成固定長度的表示，而不需要重新調(diào)節(jié)有意義圖像的尺寸。利用SPPNet進(jìn)行目標(biāo)檢測時，只對整個圖像進(jìn)行一次特征映射計算，然后生成任意區(qū)域的定長表示以訓(xùn)練檢測器，避免了卷積特征的重復(fù)計算。SPPNet的速度是R－CNN的20多倍，并且沒有犧牲任何檢測精度（VOC07 mAP＝59．2％）。

SPPNet雖然有效地提高了檢測速度，但仍然存在一些不足：第一，訓(xùn)練仍然是多階段的，第二，SPPNet只對其全連接層進(jìn)行微調(diào)，而忽略了之前的所有層。而次年晚些時候出現(xiàn)Fast RCNN并解決了這些問題。