論文:基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測(cè)
關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)
本文的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測(cè)框的頂點(diǎn)及中心點(diǎn),其包括三個(gè)組成部分:骨架、關(guān)鍵點(diǎn)特征金字塔以及檢測(cè)頭,主要架構(gòu)采用了與 2D 無錨檢測(cè)器相似的一階段策略。
為了在速度和準(zhǔn)確性之間進(jìn)行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個(gè) RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對(duì)輸入進(jìn)行降采樣。ResNet-18 和 DLA-34 用于圖像分類網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過三個(gè)雙線性插值和 1×1 卷積層對(duì)瓶頸三次進(jìn)行上采樣。在上采樣層之前連接了相應(yīng)的低級(jí)特征圖,同時(shí)添加了一個(gè) 1×1 卷積層以減小通道尺寸。經(jīng)過三個(gè)上采樣層后,通道分別為 256、128、64。
圖像中的關(guān)鍵點(diǎn)在大小上沒有差異。因此,關(guān)鍵點(diǎn)檢測(cè)不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點(diǎn)特征金字塔網(wǎng)絡(luò)(KFPN),以檢測(cè)點(diǎn)空間中尺度不變的關(guān)鍵點(diǎn)。假設(shè)我們有F個(gè)尺度特征圖,我們首先調(diào)整每個(gè)大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過 softmax 運(yùn)算生成軟權(quán)重,以表示每個(gè)尺度的重要性。通過線性加權(quán)獲得最終的尺度空間得分圖:
檢測(cè)頭由三個(gè)基本組件和六個(gè)可選組件組成,可以任意選擇這些組件以提高 3D 檢測(cè)的準(zhǔn)確性,而計(jì)算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點(diǎn)作為連接所有特征的主要中心 由于在截?cái)嗟那闆r下對(duì)象的 3D 投影點(diǎn)可能會(huì)超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點(diǎn)。Heatmap 定義為 M,其中 C 是目標(biāo)種類的數(shù)量,另一部分是由頂點(diǎn)和中心點(diǎn)投影出的 9 個(gè)點(diǎn) V,對(duì)于一個(gè)對(duì)象的關(guān)鍵點(diǎn),本文將回歸得到的主中心的局部偏移量 Vc 作為指標(biāo)。最接近 Vc 坐標(biāo)的 V 的關(guān)鍵點(diǎn)被作為一個(gè)對(duì)象的集合。盡管 9 個(gè)關(guān)鍵點(diǎn)的 18 個(gè)的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗(yàn)條件能夠增加更多的約束,中心偏移 M_OS,頂點(diǎn)偏移 V_OS 是 heatmap 中對(duì)每個(gè)關(guān)鍵點(diǎn)的離散誤差。
3D 目標(biāo)的維度 D 方差小容易預(yù)測(cè),本文引用基于 Multi-Bin 方法對(duì)偏航角 θ 進(jìn)行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個(gè) bin 中進(jìn)行分類,并使用 2 個(gè) bin 生成方向特征圖,同時(shí)對(duì) 3D 邊框的中心深度Z進(jìn)行回歸。最終的 loss 如下(各部分 loss 的定義參見原文,在此不再贅述):
3D邊框的估計(jì)
得到 9 個(gè)特征點(diǎn) kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標(biāo)是找出哪一個(gè)邊框中心點(diǎn)與 2D 關(guān)鍵點(diǎn) kp 最匹配,這能夠最小化 3D 關(guān)鍵點(diǎn)和 2D 關(guān)鍵點(diǎn)的投影損失,并將它和其他先驗(yàn)損失定義為一個(gè)非線性最小二乘優(yōu)化問題:
其中 e_cp、e_d、e_r 是相機(jī)點(diǎn)、維度先驗(yàn)、方向先驗(yàn)的損失,從 heatmap 中提取的置信度表示為:
實(shí)驗(yàn)論文
本文在 KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用
- 6 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡(jiǎn)單