訂閱
糾錯(cuò)
加入自媒體

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

賽道二  Multi-Pedestrian Tracking

賽題分析 多行人跟蹤問(wèn)題是一個(gè)典型的多目標(biāo)跟蹤問(wèn)題。通過(guò)調(diào)研總結(jié)發(fā)現(xiàn),Tracking-by-detection是處理這一問(wèn)題的常用且精度比較高的方法[2][7]。

基本的流程可以總結(jié)如下:

1)在每一幀中檢測(cè)物體的位置。2)為每個(gè)檢測(cè)框提取特征。3)通過(guò)將特征距離或空間距離將預(yù)測(cè)的目標(biāo)與現(xiàn)有軌跡關(guān)聯(lián)。

本次挑戰(zhàn)賽更注重精度,因此采用了分離Detection和Embedding的方法,該方法的模塊化設(shè)計(jì)的優(yōu)點(diǎn)使得競(jìng)賽精度上優(yōu)化空間的十分大。通過(guò)簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)分析和可視化分析,團(tuán)隊(duì)認(rèn)為該比賽的主要挑戰(zhàn)在于圖像的大分辨率和行人的嚴(yán)重?fù)頂D,如下圖所示。

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

為了應(yīng)對(duì)這些挑戰(zhàn),針對(duì)高分辨、小目標(biāo)等問(wèn)題,引入了一種滑動(dòng)窗口檢測(cè)算法。針對(duì)遮擋嚴(yán)重的問(wèn)題,使用局部和全局特征來(lái)衡量?jī)蓚(gè)相鄰幀之間的預(yù)測(cè)邊界框的相似距離,并且借鑒了FairMOT的特征平滑的方法進(jìn)行緩解。

 競(jìng)賽方案: 本次采用的多目標(biāo)跟蹤系統(tǒng)是基于Detection和Embedding分離的方法,采用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測(cè)器,并以Multiple Granularity Network (MGN)[10]作為Embedding模型。

      在關(guān)聯(lián)過(guò)程中,借鑒了DeepSORT[6]和FairMOT[8]的思想,構(gòu)建了一個(gè)簡(jiǎn)單的在線多目標(biāo)跟蹤器, 如下圖所示。

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

檢測(cè)器

檢測(cè)部分: 為了處理高分辨率的圖像,我們提出了一個(gè)segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個(gè)子圖,每一個(gè)子圖的分辨率為6000*6000,位于圖像邊緣的子圖直接填充均值。為了防止較大的行人目標(biāo)被切分成進(jìn)兩個(gè)子圖,相鄰的子圖橫向上重疊寬度為1000像素,縱向重疊寬度設(shè)置為2000像素。在融合子圖檢測(cè)結(jié)果時(shí),我們采用一種基于子圖重疊中線和檢測(cè)框相交判定的規(guī)則。比如,對(duì)于一對(duì)橫向有重疊的子圖,如果基于左子圖的檢測(cè)框處于子圖重疊中線的右側(cè),但與該中線相交,該檢測(cè)框就被保留,反之則丟棄該檢測(cè)框。通過(guò)segmentation-and-fusion方法,與直接合并進(jìn)行NMS的方法相比, 我們?cè)诒镜貦z測(cè)驗(yàn)證集取得了0.2AP的提升。

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

Embedding部分:

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

為了解決行人擁擠帶來(lái)的問(wèn)題,我們采用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特征,然后使用Triplet loss和Softmax loss計(jì)算三個(gè)全局特征的損失,僅使用Softmax loss計(jì)算局部特征的損失。此外,我們使用了ReID中的常用的訓(xùn)練技巧來(lái)優(yōu)化MGN的性能[3]。 Data Association: 我們借鑒了DeepSORT和FairMOT的想法,以檢測(cè)框的表觀距離為主,以檢測(cè)框的空間距離為輔。首先,我們根據(jù)第一幀中的檢測(cè)框初始化多個(gè)軌跡。在隨后的幀中,我們根據(jù)embedding features之間的距離(最大距離限制為0.7),來(lái)將檢測(cè)框和已有的軌跡做關(guān)聯(lián)。與FairMOT一致,每一幀都會(huì)通過(guò)指數(shù)加權(quán)平均更新跟蹤器的特征,以應(yīng)對(duì)特征變化的問(wèn)題。對(duì)于未匹配的激活軌跡和檢測(cè)框通過(guò)他們的IOU距離關(guān)聯(lián)起來(lái)(閾值為0.8)。最后,對(duì)于失活但未完全跟丟的軌跡和檢測(cè)框也是由它們的IoU距離關(guān)聯(lián)的(閾值為0.8)。

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

后處理: 由于只對(duì)較高的置信度的檢測(cè)框進(jìn)行跟蹤,因此存在大量假陰性的檢測(cè)框,導(dǎo)致MOTA[1]性能低下。為了減少置信閾值的影響,團(tuán)隊(duì)嘗試了兩種簡(jiǎn)單的插值方法。

1) 對(duì)總丟失幀不超過(guò)20的軌跡進(jìn)行線性插值。我們稱之為簡(jiǎn)單插值(simple interpolation, SI);

2)對(duì)每一個(gè)軌跡只在丟失不超過(guò)4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。
      雖然插值的方法增加了假陽(yáng)性樣本的數(shù)量,但是大大減少了假陰性樣本,使我們?cè)跍y(cè)試集上實(shí)現(xiàn)了0.9左右的提升。不同插值方法的效果如下表所示。

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

ECCV2020 GigaVision挑戰(zhàn)賽,深蘭科技包攬十億級(jí)像素雙賽道冠軍

以上是團(tuán)隊(duì)對(duì)參賽方案的優(yōu)化路線圖,通過(guò)優(yōu)化檢測(cè)器以及特征提取器,數(shù)據(jù)關(guān)聯(lián)方法、后處理等方法,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名的成績(jī)。 

總結(jié)與思考
      本文針對(duì)GigaVision多行人跟蹤挑戰(zhàn)賽,設(shè)計(jì)了一個(gè)簡(jiǎn)單、在線的多目標(biāo)跟蹤系統(tǒng),包括檢測(cè)器、特征提取、數(shù)據(jù)關(guān)聯(lián)和軌跡后處理,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名。很榮幸取得這次競(jìng)賽的第一名,在這里也分享一下針對(duì)多目標(biāo)跟蹤任務(wù)的一些問(wèn)題以及思考: 1)檢測(cè)器和特征提取器mAP越高,最終跟蹤的性能也會(huì)相應(yīng)的提升?2)數(shù)據(jù)關(guān)聯(lián)過(guò)程真的需要運(yùn)動(dòng)模型么?3)跟蹤器的特征平滑為何有效?4)Part-Based的特征提取器為何有效? 

團(tuán)隊(duì)對(duì)以上問(wèn)題進(jìn)行了思考,得出一些比較簡(jiǎn)單的看法: 1) 一般來(lái)說(shuō)檢測(cè)器和特征提取器的性能越理想,最終跟蹤的性能也會(huì)有相應(yīng)的提升;mAP作為常用的檢測(cè)器評(píng)估指標(biāo)來(lái)說(shuō),mAP的提升不一定能帶來(lái)跟蹤的性能提升,當(dāng)然這也和評(píng)價(jià)指標(biāo)有關(guān)系,需要具體問(wèn)題具體分析,比如檢測(cè)上多尺度增強(qiáng)帶來(lái)的AP增益往往會(huì)造成MOTA的降低。 mAP作為特征提取器的評(píng)估指標(biāo)來(lái)說(shuō),mAP的提升也不一定能帶來(lái)跟蹤的性能提升,比如Part-Based 的MGN在本次競(jìng)賽中雖然mAP比全局特征提取器差幾個(gè)點(diǎn),在最后的跟蹤上卻取得不錯(cuò)的效果。2)現(xiàn)實(shí)中的多目標(biāo)跟蹤任務(wù)中,攝像頭的突然運(yùn)動(dòng)以及跟蹤對(duì)象的突然加速往往都是存在的,這時(shí)候的運(yùn)動(dòng)模型其實(shí)動(dòng)態(tài)性能十分的差勁,反而造成不好的跟蹤效果,本次競(jìng)賽采用的是直接不采用運(yùn)動(dòng)模型的方法。3) 跟蹤器的特征平滑操作十分簡(jiǎn)單有效,不需要類似于DeepSORT進(jìn)行級(jí)聯(lián)匹配,速度比較快,考慮了同一軌跡的歷史特征,使得特征更加魯棒,減少了單幀跟蹤錯(cuò)誤帶來(lái)的影響; 4) Part-Based的特征提取器針對(duì)這種遮擋比較嚴(yán)重的情況在距離度量時(shí)考慮了各個(gè)部分的特征,特別的,遮擋部分往往變化比較大,結(jié)合特征平滑操作,一定程度上消除了遮擋部分的影響,更關(guān)注沒(méi)有遮擋部分的特征。

參考文獻(xiàn):

1.Bernardin,K.Stiefelhagen,R.:Evaluatingmultipleobjecttrackingperformance(2008)

2.Milan,A.,Leal-Taixe,L.,Reid,I.,Roth,S.,Schindler,K.:Mot16:Abenchmarkformulti-objecttracking(2016)

3.Luo,H.,Gu,Y.,Liao,X.,Lai,S.,Jiang,W.:Bagoftricksandastrongbaselinefordeeppersonre-identification(2019)

4.Pan,X.,Luo,P.,Shi,J.,Tang,X.:Twoatonce:Enhancinglearningandgeneralizationcapacitiesviaibn-net(2018)

5.Wang,X.,Zhang,X.,Zhu,Y.,Guo,Y.,Yuan,X.,Xiang,L.,Wang,Z.,Ding,G.,Brady,D.J.,Dai,Q.,F(xiàn)ang,L.:Panda:Agigapixel-levelhuman-centricvideodataset(2020)

6.Wojke,N.,Bewley,A.,Paulus,D.:Simpleonlineandrealtimetrackingwithadeepassociationmetric(2017)

7.Yu,F(xiàn).,Li,W.,Li,Q.,Liu,Y.,Shi,X.,Yan,J.:Poi:Multipleobjecttrackingwithhighperformancedetectionandappearancefeature(2016)

8.Zhang,Y.,Wang,C.,Wang,X.,Zeng,W.,Liu,W.:Asimplebaselineformulti-objecttracking(2020)

9.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXiv(2020)

10.Wang,G.,Yuan,Y.,Chen,X.,Li,J.,Zhou,X.:Learningdiscriminativefeatureswithmultiplegranularitiesforpersonre-identification.CoRRabs/1804.01438(2018)

11.Cai,Z.,Vasconcelos,N.:Cascader-cnn:Delvingintohighqualityobjectdetection.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.6154–6162(2018)

12.Cao,Y.,Xu,J.,Lin,S.,Wei,F(xiàn).,Hu,H.:Gcnet:Non-localnetworksmeetsqueeze-excitationnetworksandbeyond.In:ProceedingsoftheIEEEInternationalConferenceonComputerVisionWorkshops.pp.0–0(2019)

13.Dai,J.,Qi,H.,Xiong,Y.,Li,Y.,Zhang,G.,Hu,H.,Wei,Y.:Deformableconvolutionalnetworks.In:ProceedingsoftheIEEEinternationalconferenceoncomputervision.pp.764–773(2017)

14.Hu,J.,Shen,L.,Sun,G.:Squeeze-and-excitationnetworks.In:ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition.pp.7132–7141(2018)

15.Li,X.,Wang,W.,Wu,L.,Chen,S.,Hu,X.,Li,J.,Tang,J.,Yang,J.:Generalizedfocalloss:Learningqualifiedanddistributedboundingboxesfordenseobjectdetection.a(chǎn)rXivpreprintarXiv:2006.04388(2020)

16.Solovyev,R.,Wang,W.:Weightedboxesfusion:ensemblingboxesforobjectdetectionmodels.a(chǎn)rXivpreprintarXiv:1910.13302(2019)

<上一頁(yè)  1  2  3  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)