動態(tài)生成掩膜預測網絡生成模型CondInst,助力FCN重奪實例檢測顛峰
CondInst的主要架構,C表示主干網絡的特征圖,P則為FPN的特征圖。Fmask是對應的特征圖。head被作用于各個特征圖P得到分類結果和對應的網絡頭生成參數(shù)(動態(tài)生成的maskFCN個數(shù)與實例個數(shù)相同)。
CondInst中使用了依賴實例的濾波器,隱式地將實例概念編碼到了mask頭的參數(shù)中去,更為靈活的處理。針對非規(guī)則形狀可以比規(guī)則的bbox更好的進行處理,這是相較于ROI方法的優(yōu)勢之一。
CondInst構建與目標檢測架構FCOS上,充分利用其簡單和靈活性。去除了FCOS的錨分支減少計算量。上圖中顯示了模型充分利用了特征金字塔,在每一層級都會有上圖虛線框中表示的功能層來進行實例相關的預測,計算出目標類別的實例和動態(tài)生成濾波器的參數(shù)。上圖中還包括了mask分支從P3層引出來計算特征圖。
最終輸出的掩膜大小是原始圖像的1/8.為了獲取高分辨率的實例掩膜,利用4倍上采樣來得到最終的掩膜圖像。
實 驗
為了充分研究這一模型的有效性,研究人員在COCO數(shù)據(jù)集上對模型進行了訓練。首先測試了mask端的寬度和深度,來選擇最為合適的架構大小。
實驗表明深度為1效果最差,這是由于模型沒有足夠的容量,而達到3后則增加不明顯甚至下降。針對模型的寬度研究發(fā)現(xiàn),這一因素對于模型的性能影響較小。針對寬度為8深度為3的基線mask head模型,在V100上其運行時間僅僅需要4.5mm/100個實例,僅需要169個參數(shù)。這說明這種動態(tài)生成方法對主干網絡造成的額外開銷非常少,與之對比的是Mask R-CNN的mask head則包含有2.3M個參數(shù)。
在選擇完合適的參數(shù)后,研究人員將設計好的架構與多種先進的方法進行了比較,下表中可以看到這種方法在性能上超過了傳統(tǒng)的實例分割算法:
其中1x 代表90k迭代訓練。aug代表了數(shù)據(jù)增強。w/sem是指利用了輔助的語義分割任務。
最后來一起看看這種緊湊高效的網絡結果,性能優(yōu)異速度又快,真香!

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?