訂閱
糾錯(cuò)
加入自媒體

論文:基于關(guān)鍵點(diǎn)的單目3D目標(biāo)檢測(cè)

關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)

本文的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)將 RGB 圖像當(dāng)作輸入,輸出 3D 檢測(cè)框的頂點(diǎn)及中心點(diǎn),其包括三個(gè)組成部分:骨架、關(guān)鍵點(diǎn)特征金字塔以及檢測(cè)頭,主要架構(gòu)采用了與 2D 無(wú)錨檢測(cè)器相似的一階段策略。

為了在速度和準(zhǔn)確性之間進(jìn)行平衡,本文使用兩種不同的結(jié)構(gòu)作為主干:ResNet18 和 DLA-34。所有模型均拍攝單個(gè) RGB 圖像 I∈R^{W×H×3},并以因子 S = 4 對(duì)輸入進(jìn)行降采樣。ResNet-18 和 DLA-34 用于圖像分類(lèi)網(wǎng)絡(luò),最大降采樣因子為 ×32。我們通過(guò)三個(gè)雙線(xiàn)性插值和 1×1 卷積層對(duì)瓶頸三次進(jìn)行上采樣。在上采樣層之前連接了相應(yīng)的低級(jí)特征圖,同時(shí)添加了一個(gè) 1×1 卷積層以減小通道尺寸。經(jīng)過(guò)三個(gè)上采樣層后,通道分別為 256、128、64。

圖像中的關(guān)鍵點(diǎn)在大小上沒(méi)有差異。因此,關(guān)鍵點(diǎn)檢測(cè)不適合使用特征金字塔網(wǎng)絡(luò)(FPN)。本文提出了一種新的關(guān)鍵點(diǎn)特征金字塔網(wǎng)絡(luò)(KFPN),以檢測(cè)點(diǎn)空間中尺度不變的關(guān)鍵點(diǎn)。假設(shè)我們有F個(gè)尺度特征圖,我們首先調(diào)整每個(gè)大小f的大小,將其統(tǒng)一為最大的 f 的大小。然后通過(guò) softmax 運(yùn)算生成軟權(quán)重,以表示每個(gè)尺度的重要性。通過(guò)線(xiàn)性加權(quán)獲得最終的尺度空間得分圖:

檢測(cè)頭由三個(gè)基本組件和六個(gè)可選組件組成,可以任意選擇這些組件以提高 3D 檢測(cè)的準(zhǔn)確性,而計(jì)算量卻很少。受 CenterNet 的啟發(fā),本文將關(guān)鍵點(diǎn)作為連接所有特征的主要中心 由于在截?cái)嗟那闆r下對(duì)象的 3D 投影點(diǎn)可能會(huì)超出圖像邊界,因此將更適當(dāng)?shù)剡x擇 2D 框的中心點(diǎn)。Heatmap 定義為 M,其中 C 是目標(biāo)種類(lèi)的數(shù)量,另一部分是由頂點(diǎn)和中心點(diǎn)投影出的 9 個(gè)點(diǎn) V,對(duì)于一個(gè)對(duì)象的關(guān)鍵點(diǎn),本文將回歸得到的主中心的局部偏移量 Vc 作為指標(biāo)。最接近 Vc 坐標(biāo)的 V 的關(guān)鍵點(diǎn)被作為一個(gè)對(duì)象的集合。盡管 9 個(gè)關(guān)鍵點(diǎn)的 18 個(gè)的約束能夠恢復(fù)物體的 3D 信息,但是越多的先驗(yàn)條件能夠增加更多的約束,中心偏移 M_OS,頂點(diǎn)偏移 V_OS 是 heatmap 中對(duì)每個(gè)關(guān)鍵點(diǎn)的離散誤差。

3D 目標(biāo)的維度 D 方差小容易預(yù)測(cè),本文引用基于 Multi-Bin 方法對(duì)偏航角 θ 進(jìn)行回歸。將 θ 的余弦偏移和正弦偏移概率在 1 個(gè) bin 中進(jìn)行分類(lèi),并使用 2 個(gè) bin 生成方向特征圖,同時(shí)對(duì) 3D 邊框的中心深度Z進(jìn)行回歸。最終的 loss 如下(各部分 loss 的定義參見(jiàn)原文,在此不再贅述):

3D邊框的估計(jì)

得到 9 個(gè)特征點(diǎn) kp、物體尺寸 D、偏航角 θ、中心深度 Z,目標(biāo)是找出哪一個(gè)邊框中心點(diǎn)與 2D 關(guān)鍵點(diǎn) kp 最匹配,這能夠最小化 3D 關(guān)鍵點(diǎn)和 2D 關(guān)鍵點(diǎn)的投影損失,并將它和其他先驗(yàn)損失定義為一個(gè)非線(xiàn)性最小二乘優(yōu)化問(wèn)題:

其中 e_cp、e_d、e_r 是相機(jī)點(diǎn)、維度先驗(yàn)、方向先驗(yàn)的損失,從 heatmap 中提取的置信度表示為:

實(shí)驗(yàn)論文

本文在 KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)