深蘭科技|目標(biāo)檢測(cè)二十年間的那些事兒
本文主要參考自文獻(xiàn)[1]:Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jieping Ye, Object Detection in 20 Years: A Survey Senior Member, IEEE
過(guò)去二十年中與 “ 目標(biāo)檢測(cè) ” 相關(guān)的出版物數(shù)量的增長(zhǎng)
二十年
在計(jì)算機(jī)視覺(jué)領(lǐng)域中有幾個(gè)基本的任務(wù):圖像分類[3]、目標(biāo)檢測(cè)[4]、實(shí)例分割[5]及語(yǔ)義分割[6],其中目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)中最基本的任務(wù)在近年來(lái)引起了廣泛關(guān)注。某種意義上,它在過(guò)去二十年內(nèi)的發(fā)展也是計(jì)算機(jī)視覺(jué)發(fā)展史的縮影。如果我們將今天基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)比作一場(chǎng)“熱兵器革命”,那么回顧20年前的技術(shù)時(shí)即可窺探“冷兵器”時(shí)代的智慧。
目標(biāo)檢測(cè)是一項(xiàng)計(jì)算機(jī)視覺(jué)任務(wù)。正如視覺(jué)對(duì)于人的作用一樣,目標(biāo)檢測(cè)旨在解決計(jì)算機(jī)視覺(jué)應(yīng)用中兩個(gè)最基本的問(wèn)題:1. 該物體是什么?2. 該物體在哪里?當(dāng)然,聰明的人可能會(huì)立即想到第三個(gè)問(wèn)題:“該物體在干什么?”這即是更進(jìn)一步的邏輯及認(rèn)知推理,這一點(diǎn)在近年來(lái)的目標(biāo)檢測(cè)技術(shù)中也越來(lái)越被重視。不管怎樣,作為計(jì)算機(jī)視覺(jué)的基本任務(wù),它也是其他計(jì)算機(jī)視覺(jué)任務(wù)的主要成分,如實(shí)例分割、圖像字幕、目標(biāo)跟蹤等。
從應(yīng)用的角度來(lái)看,目標(biāo)檢測(cè)可以被分為兩個(gè)研究主題:“ 通用目標(biāo)檢測(cè)(General Object Detection) ” 及 “檢測(cè)應(yīng)用(Detection Applications)” ,前者旨在探索在統(tǒng)一的框架下檢測(cè)不同類型物體的方法,以模擬人類的視覺(jué)和認(rèn)知;后者是指特定應(yīng)用場(chǎng)景下的檢測(cè),如行人檢測(cè)、人臉檢測(cè)、文本檢測(cè)等。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)[7]的快速發(fā)展,為目標(biāo)檢測(cè)注入了新鮮血液,取得了顯著的突破,也將其推向了一個(gè)前所未有的研究熱點(diǎn)。目前,目標(biāo)檢測(cè)已廣泛應(yīng)用于自動(dòng)駕駛、機(jī)器人視覺(jué)、視頻監(jiān)控等領(lǐng)域。
二十年間的發(fā)展
如下圖所示,以2014年為分水嶺,目標(biāo)檢測(cè)在過(guò)去的二十年中可大致分為兩個(gè)時(shí)期:2014年前的“傳統(tǒng)目標(biāo)檢測(cè)期”及之后的“基于深度學(xué)習(xí)的目標(biāo)檢測(cè)期”。接下來(lái)我們?cè)敿?xì)談?wù)搩蓚(gè)時(shí)期的發(fā)展。
傳統(tǒng)檢測(cè)
早期的目標(biāo)檢測(cè)算法大多是基于手工特征構(gòu)建的。由于當(dāng)時(shí)缺乏有效的圖像表示,人們別無(wú)選擇,只能設(shè)計(jì)復(fù)雜的特征表示及各種加速技術(shù)對(duì)有限的計(jì)算資源物盡其用。
(1) Viola Jones檢測(cè)器
18年前,P. Viola和M. Jones在沒(méi)有任何約束(如膚色分割)的情況下首次實(shí)現(xiàn)了人臉的實(shí)時(shí)檢測(cè)[8][9]。他們所設(shè)計(jì)的檢測(cè)器在一臺(tái)配備700MHz Pentium III CPU的電腦上運(yùn)行,在保持同等檢測(cè)精度的條件下的運(yùn)算速度是其他算法的數(shù)十甚至數(shù)百倍。這種檢測(cè)算法以共同作者的名字命名為“Viola-Jones (VJ) 檢測(cè)器”以紀(jì)念他們的重大貢獻(xiàn)。
VJ檢測(cè)器采用最直接的檢測(cè)方法,即滑動(dòng)窗口(slide window):查看一張圖像中所有可能的窗口尺寸和位置并判斷是否有窗口包含人臉。這一過(guò)程雖然聽(tīng)上去簡(jiǎn)單,但它背后所需的計(jì)算量遠(yuǎn)遠(yuǎn)超出了當(dāng)時(shí)計(jì)算機(jī)的算力。VJ檢測(cè)器結(jié)合了 “ 積分圖像 ”、“ 特征選擇 ” 和 “ 檢測(cè)級(jí)聯(lián) ” 三種重要技術(shù),大大提高了檢測(cè)速度。
1)積分圖像:這是一種計(jì)算方法,以加快盒濾波或卷積過(guò)程。與當(dāng)時(shí)的其他目標(biāo)檢測(cè)算法一樣[10],在VJ檢測(cè)器中使用Haar小波作為圖像的特征表示。積分圖像使得VJ檢測(cè)器中每個(gè)窗口的計(jì)算復(fù)雜度與其窗口大小無(wú)關(guān)。
2)特征選擇:作者沒(méi)有使用一組手動(dòng)選擇的Haar基過(guò)濾器,而是使用Adaboost算法從一組巨大的隨機(jī)特征池 (大約18萬(wàn)維) 中選擇一組對(duì)人臉檢測(cè)最有幫助的小特征。
3)檢測(cè)級(jí)聯(lián):在VJ檢測(cè)器中引入了一個(gè)多級(jí)檢測(cè)范例 ( 又稱“檢測(cè)級(jí)聯(lián)”,detection cascades ),通過(guò)減少對(duì)背景窗口的計(jì)算,而增加對(duì)人臉目標(biāo)的計(jì)算,從而減少了計(jì)算開(kāi)銷。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?