計數(shù)和定位:一個純粹基于點的框架
歡迎關注公眾號 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經(jīng)典論文解讀。
前言:
在人群中定位個體更符合后續(xù)高級人群分析任務的實際需求,而不是簡單地計數(shù)。然而,現(xiàn)有的基于定位的方法依賴于作為學習目標的中間表示(即密度圖或偽框)是違反直覺和容易出錯的。
論文提出了一個純粹基于點的框架,用于聯(lián)合人群計數(shù)和個體定位。對于這個框架,論文提出了一個新的度量標準,稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報告圖像級別的絕對計數(shù)誤差,以提供更全面和更精確的性能評估。
此外,論文在這個框架下設計了一個直觀的解決方案,稱為點對點網(wǎng)絡(P2PNet)。P2PNet 丟棄了多余的步驟,直接預測一組point proposals來表示圖像中的頭部,與人類標注結果一致。通過徹底的分析,論文揭示了實現(xiàn)這種新穎想法的關鍵步驟是為這些proposals分配最佳學習目標。
P2PNet 不僅在流行的計數(shù)基準上顯著超越了SOTA方法,而且還實現(xiàn)了有前途的定位精度。
出發(fā)點
在人群分析的所有相關具體任務中,人群計數(shù)是一個基本支柱,旨在估計人群中的個體數(shù)量。 然而,簡單地給出一個數(shù)字顯然遠遠不能支持后續(xù)更高層次的人群分析任務的實際需求,如人群跟蹤、活動識別、異常檢測、流量/行為預測等。
事實上,這個領域有一個明顯的趨勢,即除了簡單的計數(shù)之外,更具有挑戰(zhàn)性的細粒度估計(即個體的位置)。 具體來說,一些方法將人群計數(shù)視為頭部檢測問題,但在對小尺度頭部進行勞動密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點注釋的頭部偽邊界框,但這至少看起來很棘手或不準確。 同樣試圖直接定位個體,有幾種方法在抑制或分裂過近的候選實例時陷入困境,由于頭部尺度的極端變化,特別是對于高度擁擠的區(qū)域,它們?nèi)菀壮鲥e。
在評估指標方面,一些有遠見的工作鼓勵采用補丁級別的指標進行細粒度評估,但它們僅提供了對定位的粗略衡量標準。 其他現(xiàn)有的定位感知指標要么忽略了人群中的顯著密度變化,要么缺乏對重復預測的懲罰。
創(chuàng)新思路
為了解決上述問題,論文提出了一個純粹基于點的框架,用于聯(lián)合計數(shù)和定位人群中的個人。 該框架直接使用點標注作為學習目標,同時輸出點來定位個體,受益于點表示的高精度定位特性和相對便宜的標注成本。
論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標,為定位和計數(shù)錯誤提供綜合評估指標。nAP 指標支持框和點表示作為輸入(即預測或注釋),沒有上述缺陷。
作為這個新框架下的直觀解決方案,論文開發(fā)了一種新方法來直接預測一組具有圖像中頭部坐標及其置信度的point proposals。具體來說,論文提出了一個點對點網(wǎng)絡 (P2PNet) 來直接接收一組帶標注的頭部點用于訓練,并在推理過程中預測點。
為了使這樣的想法正確工作,論文深入研究了ground truth target分配過程,以揭示這種關聯(lián)的關鍵。結論是,無論是多個proposals 與單個ground truth匹配的情況,還是相反的情況,都會使模型在訓練期間混淆,導致高估或低估計數(shù)。
因此,論文建議通過匈牙利算法進行一對一匹配,將point proposals與其ground truth target相關聯(lián),未匹配的proposals 應歸類為負樣本。憑經(jīng)驗表明,這種匹配有利于改進 nAP 指標,作為論文在新框架下解決方案的關鍵組成部分。這種簡單、直觀和高效的設計產(chǎn)生了SOTA的計數(shù)性能和有前途的定位精度。
Methods
Purely Point-based Framework
這里簡要說明這種新框架的思路。給定一個有N個個體的圖像,用N個點來表示個體的頭部中心點。網(wǎng)絡輸出兩個東西,一個是預測頭部的中心點P,一個是該中心點的置信度C。目標是使預測點與ground truth盡可能地接近,并有足夠高的置信度。
與傳統(tǒng)的計數(shù)方法相比,該框架提供的個體位置有助于那些基于運動的人群分析任務,如人群跟蹤、活動識別、異常檢測等 此外,該框架不依賴于勞動密集型標注、不準確的偽框或棘手的后處理,受益于原始點表示的高精度定位特性,特別是對于人群中高度擁擠的區(qū)域。
因此,這個新框架由于其相對于傳統(tǒng)人群計數(shù)的優(yōu)勢和實用價值而值得更多關注。 然而,由于存在嚴重的遮擋、密度變化和標注錯誤,處理這樣的任務是非常具有挑戰(zhàn)性的 ,這在 [13] 中甚至被認為是理想的但不可行的。
Density Normalized Average Precision
一個預測點 p?j 只有在它可以匹配到某個ground truth pi 時才被歸類為 TP。 匹配過程由基于像素級歐幾里德距離的準則 (?pj , pi) 指導。 然而,直接使用像素距離來測量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標準引入了密度歸一化,以緩解密度變化問題。
簡單說來就是引入最近鄰K(取3)個點,將它們的距離歸一化。
用公式表示如下:
預測與ground truth匹配方案
(a) 在為每個ground truth點選擇最近的提議時,多個ground truth點可能與同一個提議匹配,這會導致計數(shù)低估。 (b) 在為每個提案選擇最近的ground truth時,多個提案可能會與相同的地面實況點匹配,這會導致高估計數(shù)。 (c) 論文通過匈牙利算法進行一對一匹配沒有以上兩個缺陷,因此適合直接點預測。
P2PNet
P2PNet 的整體架構
建立在 VGG16 之上,它首先引入了一個上采樣路徑來獲得細粒度的深度特征圖。 然后它利用兩個分支同時預測一組點提議及其置信度分數(shù)。pipeline中的關鍵步驟是確保point proposals和ground truth點之間的一對一匹配,這決定了這些proposals的學習目標。
loss function如下:
Conclusion
本文來源于公眾號 CV技術指南 的論文分享系列。
歡迎關注公眾號 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經(jīng)典論文解讀。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權
- 3 深度報告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨角獸:獲上市公司戰(zhàn)投,干人形機器人
- 5 一文看懂視覺語言動作模型(VLA)及其應用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領跑?
- 10 格斗大賽出圈!人形機器人致命短板曝光:頭腦過于簡單