論文:基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測(cè)
關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)
本文的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測(cè)框的頂點(diǎn)及中心點(diǎn),其包括三個(gè)組成部分:骨架、關(guān)鍵點(diǎn)特征金字塔以及檢測(cè)頭,主要架構(gòu)采用了與 2D 無(wú)錨檢測(cè)器相似的一階段策略。
為了在速度和準(zhǔn)確性之間進(jìn)行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個(gè) RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對(duì)輸入進(jìn)行降采樣。ResNet-18 和 DLA-34 用于圖像分類(lèi)網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過(guò)三個(gè)雙線(xiàn)性插值和 1×1 卷積層對(duì)瓶頸三次進(jìn)行上采樣。在上采樣層之前連接了相應(yīng)的低級(jí)特征圖,同時(shí)添加了一個(gè) 1×1 卷積層以減小通道尺寸。經(jīng)過(guò)三個(gè)上采樣層后,通道分別為 256、128、64。
圖像中的關(guān)鍵點(diǎn)在大小上沒(méi)有差異。因此,關(guān)鍵點(diǎn)檢測(cè)不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點(diǎn)特征金字塔網(wǎng)絡(luò)(KFPN),以檢測(cè)點(diǎn)空間中尺度不變的關(guān)鍵點(diǎn)。假設(shè)我們有F個(gè)尺度特征圖,我們首先調(diào)整每個(gè)大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過(guò) softmax 運(yùn)算生成軟權(quán)重,以表示每個(gè)尺度的重要性。通過(guò)線(xiàn)性加權(quán)獲得最終的尺度空間得分圖:
檢測(cè)頭由三個(gè)基本組件和六個(gè)可選組件組成,可以任意選擇這些組件以提高 3D 檢測(cè)的準(zhǔn)確性,而計(jì)算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點(diǎn)作為連接所有特征的主要中心 由于在截?cái)嗟那闆r下對(duì)象的 3D 投影點(diǎn)可能會(huì)超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點(diǎn)。Heatmap 定義為 M,其中 C 是目標(biāo)種類(lèi)的數(shù)量,另一部分是由頂點(diǎn)和中心點(diǎn)投影出的 9 個(gè)點(diǎn) V,對(duì)于一個(gè)對(duì)象的關(guān)鍵點(diǎn),本文將回歸得到的主中心的局部偏移量 Vc 作為指標(biāo)。最接近 Vc 坐標(biāo)的 V 的關(guān)鍵點(diǎn)被作為一個(gè)對(duì)象的集合。盡管 9 個(gè)關(guān)鍵點(diǎn)的 18 個(gè)的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗(yàn)條件能夠增加更多的約束,中心偏移 M_OS,頂點(diǎn)偏移 V_OS 是 heatmap 中對(duì)每個(gè)關(guān)鍵點(diǎn)的離散誤差。
3D 目標(biāo)的維度 D 方差小容易預(yù)測(cè),本文引用基于 Multi-Bin 方法對(duì)偏航角 θ 進(jìn)行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個(gè) bin 中進(jìn)行分類(lèi),并使用 2 個(gè) bin 生成方向特征圖,同時(shí)對(duì) 3D 邊框的中心深度Z進(jìn)行回歸。最終的 loss 如下(各部分 loss 的定義參見(jiàn)原文,在此不再贅述):
3D邊框的估計(jì)
得到 9 個(gè)特征點(diǎn) kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標(biāo)是找出哪一個(gè)邊框中心點(diǎn)與 2D 關(guān)鍵點(diǎn) kp 最匹配,這能夠最小化 3D 關(guān)鍵點(diǎn)和 2D 關(guān)鍵點(diǎn)的投影損失,并將它和其他先驗(yàn)損失定義為一個(gè)非線(xiàn)性最小二乘優(yōu)化問(wèn)題:
其中 e_cp、e_d、e_r 是相機(jī)點(diǎn)、維度先驗(yàn)、方向先驗(yàn)的損失,從 heatmap 中提取的置信度表示為:
實(shí)驗(yàn)論文
本文在 KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線(xiàn)下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線(xiàn)會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線(xiàn)自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?