Meta猛攻CV,發(fā)布超強SAM摳圖模型,可拯救元宇宙?
巨頭們正在 AIGC 領(lǐng)域上激戰(zhàn),Meta在“計算機視覺(Computer vision,CV)”領(lǐng)域有了大動作。
本周三,Meta 研究部門發(fā)布了一篇名為其 “Segment Anything(分割一切)”的論文,文中介紹了一個全新的 Segment Anything Model(即SAM),可以用于識別圖像和視頻中的物體,甚至是從未被 AI 訓(xùn)練過的物品。
所謂的“圖像分割”,通俗來講就是摳圖。Meta此次所展示的 AI 摳圖能力,被認為是計算機視覺的 “GPT-3 時刻”,強到 CV 工作者直呼:AI 來搶飯碗,準備下崗了。
強在哪里?
如果你親自嘗試過摳圖,即使借助了市面上較為成熟的“智能摳圖”工具,你依然發(fā)現(xiàn),想把照片摳得快、摳得準、摳得自然是件費時費力的事。
Meta此次發(fā)布的 SAM 給出了近乎完美的解決方案。
SAM 的第一項重大突破在于“識別速度和精度”有了顯著提升,而速度和精度是計算機視覺領(lǐng)域的經(jīng)典且復(fù)雜的任務(wù)。
SAM 的另一驚艷點在于,它并不局限于訓(xùn)練過的數(shù)據(jù)集,在遇到從未見過的物品和形狀,SAM 也能將其準確識別并分割出來。
此外,SAM 支持用戶使用交互性方式分離物體。比如經(jīng)鼠標定位自動識別物體輪廓。即使是顏色非常相近、甚至連人眼都難以快速分辨的倒影,SAM 都能非常準確的找出輪廓邊線。
用戶還可通過“關(guān)鍵字查詢”,SAM 可監(jiān)測并標記出這個圖片中的搜索對象。
還能支持對圖片上物品的編輯。比如,識別出一張圖片上模特的服飾,摳出來便可以改變顏色和尺碼大小。
SAM 不僅僅能處理靜態(tài)圖片,還可以對動圖、視頻中的取片進行準確識別,并快速標記、統(tǒng)計出品類、大小和顏色等信息。
從靜態(tài)圖片中“摳”出來的椅子,進行3D渲染和編輯,讓它動起來,還可以繼續(xù)改變形狀等創(chuàng)意操作。
未來,這一技術(shù)將和 Meta 的 AR/AR 頭顯進行廣泛結(jié)合,助力元宇宙,將電影中的鋼鐵俠頭盔將推向生活場景。
將有更大應(yīng)用空間
SAM 發(fā)布之后,很多人第一時間進行了實測,一些網(wǎng)友還結(jié)合自身的工作領(lǐng)域打開了 SAM 更廣的應(yīng)用想象空間。
自然科學(xué)研究者——將SAM和衛(wèi)星圖像結(jié)合在了一起,表示SAM能夠很好的識別和找到他標記的風(fēng)貌類型。
神經(jīng)外科影像學(xué)從業(yè)者——將SAM用到了一個脊髓血管病的病例文件之中,認為SAM在幫助判斷和分析病情上有很大幫助。
生物學(xué)家——輸入一張顯微鏡下的組織圖片,即使圖中形狀特征毫無規(guī)律,SAM也能夠自動識別多細胞結(jié)構(gòu)中的腺體、導(dǎo)管、動脈等,SAM 在未來能夠節(jié)省大量手動注釋的時間。
騎行愛好者——將地圖和SAM結(jié)合起來,認為能夠幫助自己未來更快更高效地給地圖做標記。
農(nóng)場管理者——借助 SAM 監(jiān)管農(nóng)場動物,進行作物培植生產(chǎn)研究等。
AI研究專家——英偉達人工智能科學(xué)家 Jim Fan 表示 SAM 已經(jīng)基本能夠理解“物品”的一般概念,即使對于未知對象、不熟悉的場景(例如水下和顯微鏡里的細胞)。
SAM 之于計算機視覺,就像是 GPT 之于大語言模型。
論文解讀
在 Meta 的論文《Segment Anything》中,新模型全名為Segment Anything Model,圖像注釋集名為Segment Anything 1-Billion (SA-1B),據(jù)稱這是有史以來最大的分割數(shù)據(jù)集。
論文地址:https://arxiv.org/abs/2304.02643
此前解決分割問題大致有兩種方法。第一種是交互式分割,第二種是自動分割。前者需要人通過迭代完善一個遮罩來指導(dǎo)模型,后者需要大量的手動注釋對象來訓(xùn)練。兩種方法都無法實現(xiàn)全自動的圖像分割。SAM 很好的概括了這兩種方法,可以輕松地執(zhí)行交互式分割和自動分割。
本篇論文中,研發(fā)人員提到了SAM 的靈感來源于自然語言處理領(lǐng)域。在 NLP 領(lǐng)域,基礎(chǔ)模型可以使用prompting技術(shù)對新數(shù)據(jù)集和任務(wù)執(zhí)行零樣本和少樣本學(xué)習(xí)。
而在CV領(lǐng)域,具體到 SAM 中,研究人員訓(xùn)練的 SAM 可以針對任何提示返回有效的分割掩碼。提示可以是前景、背景點、粗框或掩碼、自由格式文本等等能指示圖像中要分割內(nèi)容的任何信息。
在Web瀏覽器中,SAM有效映射圖像特征和一組提示嵌入來生成分割掩碼
除了新模型 SAM,Meta還發(fā)布了迄今為止最大的分割數(shù)據(jù)集 SA-1B。
數(shù)據(jù)集由 SAM 收集,此數(shù)據(jù)集已是迄今為止最大的數(shù)據(jù)。注釋員使用 SAM 交互式地注釋圖像,然后新注釋的數(shù)據(jù)反過來更新 SAM,重復(fù)執(zhí)行此循環(huán)來改善模型和數(shù)據(jù)集。
SA-1B 圖像數(shù)據(jù)集包含超過11億個掩碼,這些掩碼是從1100萬張已經(jīng)獲得許可、并且保護隱私的高分辨率圖像中收集的,這些圖像的分辨率達到了1500×2250 pixels,平均每張圖像約有100個掩碼。甚至可以媲美以前規(guī)模小得多、完全手動注釋的數(shù)據(jù)集中的掩碼。
Meta 官方稱,通過在業(yè)內(nèi)共享這項研究和數(shù)據(jù)集,進一步加速對分割圖像視頻的研究,為AR/VR、內(nèi)容創(chuàng)作、科學(xué)領(lǐng)域和更普遍的 AI 系統(tǒng)等領(lǐng)域的強大組件,釋放出更加強大、通用的人工智能系統(tǒng)。

最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?