ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍
賽道二 Multi-Pedestrian Tracking
賽題分析 多行人跟蹤問(wèn)題是一個(gè)典型的多目標(biāo)跟蹤問(wèn)題。通過(guò)調(diào)研總結(jié)發(fā)現(xiàn),Tracking-by-detection是處理這一問(wèn)題的常用且精度比較高的方法[2][7]。
基本的流程可以總結(jié)如下:
1)在每一幀中檢測(cè)物體的位置。2)為每個(gè)檢測(cè)框提取特征。3)通過(guò)將特征距離或空間距離將預(yù)測(cè)的目標(biāo)與現(xiàn)有軌跡關(guān)聯(lián)。
本次挑戰(zhàn)賽更注重精度,因此采用了分離Detection和Embedding的方法,該方法的模塊化設(shè)計(jì)的優(yōu)點(diǎn)使得競(jìng)賽精度上優(yōu)化空間的十分大。通過(guò)簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)分析和可視化分析,團(tuán)隊(duì)認(rèn)為該比賽的主要挑戰(zhàn)在于圖像的大分辨率和行人的嚴(yán)重?fù)頂D,如下圖所示。
為了應(yīng)對(duì)這些挑戰(zhàn),針對(duì)高分辨、小目標(biāo)等問(wèn)題,引入了一種滑動(dòng)窗口檢測(cè)算法。針對(duì)遮擋嚴(yán)重的問(wèn)題,使用局部和全局特征來(lái)衡量?jī)蓚(gè)相鄰幀之間的預(yù)測(cè)邊界框的相似距離,并且借鑒了FairMOT的特征平滑的方法進(jìn)行緩解。
競(jìng)賽方案: 本次采用的多目標(biāo)跟蹤系統(tǒng)是基于Detection和Embedding分離的方法,采用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測(cè)器,并以Multiple Granularity Network (MGN)[10]作為Embedding模型。
在關(guān)聯(lián)過(guò)程中,借鑒了DeepSORT[6]和FairMOT[8]的思想,構(gòu)建了一個(gè)簡(jiǎn)單的在線多目標(biāo)跟蹤器, 如下圖所示。
檢測(cè)器
檢測(cè)部分: 為了處理高分辨率的圖像,我們提出了一個(gè)segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個(gè)子圖,每一個(gè)子圖的分辨率為6000*6000,位于圖像邊緣的子圖直接填充均值。為了防止較大的行人目標(biāo)被切分成進(jìn)兩個(gè)子圖,相鄰的子圖橫向上重疊寬度為1000像素,縱向重疊寬度設(shè)置為2000像素。在融合子圖檢測(cè)結(jié)果時(shí),我們采用一種基于子圖重疊中線和檢測(cè)框相交判定的規(guī)則。比如,對(duì)于一對(duì)橫向有重疊的子圖,如果基于左子圖的檢測(cè)框處于子圖重疊中線的右側(cè),但與該中線相交,該檢測(cè)框就被保留,反之則丟棄該檢測(cè)框。通過(guò)segmentation-and-fusion方法,與直接合并進(jìn)行NMS的方法相比, 我們?cè)诒镜貦z測(cè)驗(yàn)證集取得了0.2AP的提升。
Embedding部分:
為了解決行人擁擠帶來(lái)的問(wèn)題,我們采用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特征,然后使用Triplet loss和Softmax loss計(jì)算三個(gè)全局特征的損失,僅使用Softmax loss計(jì)算局部特征的損失。此外,我們使用了ReID中的常用的訓(xùn)練技巧來(lái)優(yōu)化MGN的性能[3]。 Data Association: 我們借鑒了DeepSORT和FairMOT的想法,以檢測(cè)框的表觀距離為主,以檢測(cè)框的空間距離為輔。首先,我們根據(jù)第一幀中的檢測(cè)框初始化多個(gè)軌跡。在隨后的幀中,我們根據(jù)embedding features之間的距離(最大距離限制為0.7),來(lái)將檢測(cè)框和已有的軌跡做關(guān)聯(lián)。與FairMOT一致,每一幀都會(huì)通過(guò)指數(shù)加權(quán)平均更新跟蹤器的特征,以應(yīng)對(duì)特征變化的問(wèn)題。對(duì)于未匹配的激活軌跡和檢測(cè)框通過(guò)他們的IOU距離關(guān)聯(lián)起來(lái)(閾值為0.8)。最后,對(duì)于失活但未完全跟丟的軌跡和檢測(cè)框也是由它們的IoU距離關(guān)聯(lián)的(閾值為0.8)。
后處理: 由于只對(duì)較高的置信度的檢測(cè)框進(jìn)行跟蹤,因此存在大量假陰性的檢測(cè)框,導(dǎo)致MOTA[1]性能低下。為了減少置信閾值的影響,團(tuán)隊(duì)嘗試了兩種簡(jiǎn)單的插值方法。
1) 對(duì)總丟失幀不超過(guò)20的軌跡進(jìn)行線性插值。我們稱之為簡(jiǎn)單插值(simple interpolation, SI);
2)對(duì)每一個(gè)軌跡只在丟失不超過(guò)4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。
雖然插值的方法增加了假陽(yáng)性樣本的數(shù)量,但是大大減少了假陰性樣本,使我們?cè)跍y(cè)試集上實(shí)現(xiàn)了0.9左右的提升。不同插值方法的效果如下表所示。
以上是團(tuán)隊(duì)對(duì)參賽方案的優(yōu)化路線圖,通過(guò)優(yōu)化檢測(cè)器以及特征提取器,數(shù)據(jù)關(guān)聯(lián)方法、后處理等方法,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名的成績(jī)。
總結(jié)與思考
本文針對(duì)GigaVision多行人跟蹤挑戰(zhàn)賽,設(shè)計(jì)了一個(gè)簡(jiǎn)單、在線的多目標(biāo)跟蹤系統(tǒng),包括檢測(cè)器、特征提取、數(shù)據(jù)關(guān)聯(lián)和軌跡后處理,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名。很榮幸取得這次競(jìng)賽的第一名,在這里也分享一下針對(duì)多目標(biāo)跟蹤任務(wù)的一些問(wèn)題以及思考: 1)檢測(cè)器和特征提取器mAP越高,最終跟蹤的性能也會(huì)相應(yīng)的提升?2)數(shù)據(jù)關(guān)聯(lián)過(guò)程真的需要運(yùn)動(dòng)模型么?3)跟蹤器的特征平滑為何有效?4)Part-Based的特征提取器為何有效?
團(tuán)隊(duì)對(duì)以上問(wèn)題進(jìn)行了思考,得出一些比較簡(jiǎn)單的看法: 1) 一般來(lái)說(shuō)檢測(cè)器和特征提取器的性能越理想,最終跟蹤的性能也會(huì)有相應(yīng)的提升;mAP作為常用的檢測(cè)器評(píng)估指標(biāo)來(lái)說(shuō),mAP的提升不一定能帶來(lái)跟蹤的性能提升,當(dāng)然這也和評(píng)價(jià)指標(biāo)有關(guān)系,需要具體問(wèn)題具體分析,比如檢測(cè)上多尺度增強(qiáng)帶來(lái)的AP增益往往會(huì)造成MOTA的降低。 mAP作為特征提取器的評(píng)估指標(biāo)來(lái)說(shuō),mAP的提升也不一定能帶來(lái)跟蹤的性能提升,比如Part-Based 的MGN在本次競(jìng)賽中雖然mAP比全局特征提取器差幾個(gè)點(diǎn),在最后的跟蹤上卻取得不錯(cuò)的效果。2)現(xiàn)實(shí)中的多目標(biāo)跟蹤任務(wù)中,攝像頭的突然運(yùn)動(dòng)以及跟蹤對(duì)象的突然加速往往都是存在的,這時(shí)候的運(yùn)動(dòng)模型其實(shí)動(dòng)態(tài)性能十分的差勁,反而造成不好的跟蹤效果,本次競(jìng)賽采用的是直接不采用運(yùn)動(dòng)模型的方法。3) 跟蹤器的特征平滑操作十分簡(jiǎn)單有效,不需要類似于DeepSORT進(jìn)行級(jí)聯(lián)匹配,速度比較快,考慮了同一軌跡的歷史特征,使得特征更加魯棒,減少了單幀跟蹤錯(cuò)誤帶來(lái)的影響; 4) Part-Based的特征提取器針對(duì)這種遮擋比較嚴(yán)重的情況在距離度量時(shí)考慮了各個(gè)部分的特征,特別的,遮擋部分往往變化比較大,結(jié)合特征平滑操作,一定程度上消除了遮擋部分的影響,更關(guān)注沒(méi)有遮擋部分的特征。
參考文獻(xiàn):
1.Bernardin,K.Stiefelhagen,R.:Evaluatingmultipleobjecttrackingperformance(2008)
2.Milan,A.,Leal-Taixe,L.,Reid,I.,Roth,S.,Schindler,K.:Mot16:Abenchmarkformulti-objecttracking(2016)
3.Luo,H.,Gu,Y.,Liao,X.,Lai,S.,Jiang,W.:Bagoftricksandastrongbaselinefordeeppersonre-identification(2019)
4.Pan,X.,Luo,P.,Shi,J.,Tang,X.:Twoatonce:Enhancinglearningandgeneralizationcapacitiesviaibn-net(2018)
5.Wang,X.,Zhang,X.,Zhu,Y.,Guo,Y.,Yuan,X.,Xiang,L.,Wang,Z.,Ding,G.,Brady,D.J.,Dai,Q.,F(xiàn)ang,L.:Panda:Agigapixel-levelhuman-centricvideodataset(2020)
6.Wojke,N.,Bewley,A.,Paulus,D.:Simpleonlineandrealtimetrackingwithadeepassociationmetric(2017)
7.Yu,F(xiàn).,Li,W.,Li,Q.,Liu,Y.,Shi,X.,Yan,J.:Poi:Multipleobjecttrackingwithhighperformancedetectionandappearancefeature(2016)
8.Zhang,Y.,Wang,C.,Wang,X.,Zeng,W.,Liu,W.:Asimplebaselineformulti-objecttracking(2020)
9.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXiv(2020)
10.Wang,G.,Yuan,Y.,Chen,X.,Li,J.,Zhou,X.:Learningdiscriminativefeatureswithmultiplegranularitiesforpersonre-identification.CoRRabs/1804.01438(2018)
11.Cai,Z.,Vasconcelos,N.:Cascader-cnn:Delvingintohighqualityobjectdetection.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.6154–6162(2018)
12.Cao,Y.,Xu,J.,Lin,S.,Wei,F(xiàn).,Hu,H.:Gcnet:Non-localnetworksmeetsqueeze-excitationnetworksandbeyond.In:ProceedingsoftheIEEEInternationalConferenceonComputerVisionWorkshops.pp.0–0(2019)
13.Dai,J.,Qi,H.,Xiong,Y.,Li,Y.,Zhang,G.,Hu,H.,Wei,Y.:Deformableconvolutionalnetworks.In:ProceedingsoftheIEEEinternationalconferenceoncomputervision.pp.764–773(2017)
14.Hu,J.,Shen,L.,Sun,G.:Squeeze-and-excitationnetworks.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.7132–7141(2018)
15.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXivpreprintarXiv:2006.04388(2020)
16.Solovyev,R.,Wang,W.:Weightedboxesfusion:ensemblingboxesforobjectdetectionmodels.a(chǎn)rXivpreprintarXiv:1910.13302(2019)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?