動(dòng)態(tài)生成掩膜預(yù)測網(wǎng)絡(luò)生成模型CondInst,助力FCN重奪實(shí)例檢測顛峰
實(shí)例分割是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)任務(wù),需要算法預(yù)測出圖像中每個(gè)實(shí)例的掩膜和對(duì)應(yīng)的分類標(biāo)簽。Mask R-CNN作為一種性能優(yōu)異的算法,在實(shí)例分割領(lǐng)域取得了巨大成功,這種兩階段的方法主要依賴于ROI操作來獲取最終的實(shí)例掩膜。
而在這篇文章中,作者從全新的角度解決了實(shí)例分割問題,來自澳大利亞阿德萊德大學(xué)的研究人員在實(shí)例條件下提出了動(dòng)態(tài)實(shí)例生成的網(wǎng)絡(luò)模型,代替了先前逐個(gè)實(shí)例的ROI區(qū)域作為預(yù)測的輸入。
這種全卷積網(wǎng)絡(luò)消除了對(duì)于ROI區(qū)域測裁剪操作和特征配準(zhǔn)方法,其次由于動(dòng)態(tài)生成的條件卷積大幅提升了網(wǎng)絡(luò)容量使得mask分支變得非常緊湊,推理速度得到了大幅度提升。實(shí)驗(yàn)表明這種方法無需更長時(shí)間的訓(xùn)練,在COCO數(shù)據(jù)集上取得了比Mask R-CNN更好的結(jié)果,同時(shí)在精度和速度上都得到了明顯提升。
實(shí)例分割
Mask R-CNN是近幾年來實(shí)例分割領(lǐng)域非常重要的突破,它使用了Faster R-CNN來為每個(gè)實(shí)例預(yù)測邊界框,而后針對(duì)每個(gè)實(shí)例利用ROIAlign操作對(duì)在特征圖中進(jìn)行ROI區(qū)域裁剪,最后利用緊湊的全卷積網(wǎng)絡(luò)來對(duì)每一個(gè)實(shí)例的掩膜進(jìn)行預(yù)測。
然而這種基于ROI的方法也有著諸多需要克服的困難:
首先ROI一般都是和圖像坐標(biāo)軸對(duì)齊的邊框,當(dāng)遇到非常規(guī)不規(guī)則物體時(shí)框中就會(huì)包含較多的背景或者其他實(shí)例的部分。雖然可以通過旋轉(zhuǎn)ROI解決這一問題,但隨之而來是更為復(fù)雜的計(jì)算代價(jià)和處理流程;其次為了區(qū)分前景和背景或者其他雜亂的實(shí)例,mask端需要堆疊更多的卷積層來獲取更大的感受野,這使得計(jì)算量大幅增加;第三由于ROI尺寸各不相同,為了有效利用批(batch)處理計(jì)算它們會(huì)被重置為相同的大小,這會(huì)限制大范圍實(shí)例的分辨率。
在計(jì)算機(jī)視覺領(lǐng)域與實(shí)例分割最相近的要數(shù)語義分割了,全卷積網(wǎng)絡(luò)FCN在這一任務(wù)上取得了巨大的成功。此外FCN同時(shí)也在其他逐像素的預(yù)測任務(wù)上表現(xiàn)優(yōu)異,像圖像去噪、超分辨這類底層圖像處理任務(wù)、光流估計(jì)和邊緣檢測這類中級(jí)任務(wù),單發(fā)目標(biāo)檢測、單目深度估計(jì)和目標(biāo)計(jì)數(shù)這類高級(jí)任務(wù)都有著FCN的貢獻(xiàn)。但在實(shí)例分割任務(wù)中幾乎所有的純粹FCN方法都沒有達(dá)到最先進(jìn)的水平。究竟是什么原因讓強(qiáng)大的FCN在實(shí)例分割中敗下陣來呢?
研究人員發(fā)現(xiàn)主要的問題在于,網(wǎng)絡(luò)對(duì)于同一張圖像需要針對(duì)不同類別預(yù)測出不同的掩膜,這會(huì)讓FCN陷入兩難的境地。例如針對(duì)兩個(gè)人A和B,在圖像中具有相同的外觀和形狀特征,但在預(yù)測A的掩膜時(shí)網(wǎng)絡(luò)需要將B視為背景,這會(huì)讓網(wǎng)絡(luò)陷入到一定程度的迷茫中。所以ROI才需要將目標(biāo)區(qū)域特征圖剪切出來。
本質(zhì)上來講,實(shí)例分割網(wǎng)絡(luò)需要兩種類型的信息:外觀形狀特征信息用于確定目標(biāo)類別、位置信息用于從同一類中區(qū)分出不同的實(shí)例。基于ROI的方法都隱式地編碼了目標(biāo)實(shí)例的位置信息。而這篇文章的方法則探索對(duì)對(duì)于實(shí)例位置敏感的卷積層來嘗試解決目標(biāo)位置信息問題。
基于這樣的考量,研究人員提出了新的解決方法,來代替標(biāo)準(zhǔn)的、由一系列固定權(quán)重濾波器組成的ConvNet來作為實(shí)例預(yù)測端針對(duì)所有實(shí)例進(jìn)行處理,利用了一種參數(shù)基于待預(yù)測實(shí)例自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行預(yù)測。在動(dòng)態(tài)濾波器和條件卷積的啟發(fā)下,控制子網(wǎng)絡(luò)會(huì)針對(duì)每一個(gè)實(shí)例動(dòng)態(tài)生成mask FCN的網(wǎng)絡(luò)參數(shù)(也就是基于帶預(yù)測實(shí)例的中心區(qū)域來生成),隨后這些參數(shù)實(shí)例化為mask FCN用于預(yù)測對(duì)應(yīng)實(shí)例的掩膜。
其中的思想在于網(wǎng)絡(luò)參數(shù)能夠編碼實(shí)例的特征、并僅激活這一實(shí)例的像素,巧妙地避開了前面提到的問題。得到的條件mask端作用于整個(gè)特征圖免去了獲取ROI的操作。這一方法也許在有的人看來會(huì)帶來非常多的網(wǎng)絡(luò)參數(shù)(由于實(shí)例的數(shù)量很多),但研究人員巧妙地利用了動(dòng)態(tài)生成的濾波器來構(gòu)建緊湊的FCN mask預(yù)測端,在提高性能的同時(shí),大幅度減少了計(jì)算復(fù)雜性。
CondInst
實(shí)例分割模型的目標(biāo)在于通過輸入圖像為圖中的實(shí)例預(yù)測出對(duì)應(yīng)的掩膜,實(shí)例數(shù)量的不確定對(duì)于傳統(tǒng)的FCN來說十分困難。本文工作的核心在于,針對(duì)圖中待處理的K個(gè)實(shí)例,模型會(huì)動(dòng)態(tài)生成K個(gè)不同的掩膜處理端,每個(gè)掩膜處理分支將目標(biāo)實(shí)例的特征包含在了其參數(shù)中。當(dāng)其作用于特征圖時(shí)僅僅會(huì)激活實(shí)例上的像素用于掩膜預(yù)測。下圖顯示了模型的主要架構(gòu):

發(fā)表評(píng)論
請輸入評(píng)論內(nèi)容...
請輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?