機器也能看圖說話
CNN+LSTM+MCB:圖像和問題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進行編碼,但接下來不是級聯(lián),而是使用緊湊的多模池化 (MCB)匯集它們的特征。(MCB, Multimodal CompactBilinear pooling, 多模緊湊雙線性池化)
CNN+LSTM+SA:同樣,問題和圖像分別使用CNN和LSTM編碼。使用一輪或多輪柔性空間注意力來組合這些表示,然后用MLP預測最終答案分布。(Stacked Attention Networks,SANs, 堆疊注意力網絡)
Human:使用土耳其機器人從測試集中隨機收集5500個問題的人工響應,對每個問題在三個工人響應中進行投票取多數。 查詢問題詢問特定對象的屬性(例如“紅色球體右側物體是什么顏色?”) CLEVR數據集中物體有兩種尺寸(大,。朔N顏色,兩種材料(金屬,橡膠)和三種形狀(立方,球,圓柱)。在詢問這些不同屬性的問題上,Q-type mode 和 LSTM 都分別獲得接近50%,12.5%,50%和33%的準確度,表明數據集對這些問題具有最小的問題條件偏差。 CNN + LSTM + SA 在這些問題上大大優(yōu)于所有其他模式; 它的注意力機制可以幫助它專注于目標對象并識別其屬性。
我們比較“兩個空間關系的鏈式結構問題“和”沿著每個分支都有一個關系的樹狀結構問題“性能。 在查詢問題上,CNN + LSTM + SA 在鏈式和樹狀問題之間存在較大差距(92%對74%);在計數問題上,CNN + LSTM + SA 在鏈式問題上略勝LSTM(55%對49%)但在樹問題上沒有任何方法優(yōu)于LSTM。樹問題可能更難,因為它們需要模型在融合其結果之前并行執(zhí)行兩個子任務。
數據集構建好了,就可以在此基礎上探索視覺語義推理算法 用于機器推理的組合注意網絡 斯坦福Christ師生提出了組合注意力網絡,是一種新的、完全可區(qū)分的神經網絡架構,旨在促進顯性和表達性推理。其特點包括:
1、許多常見類型的神經網絡在學習和泛化大量數據方面是有效的,然而是單一黑盒架構。
2、該‘組合注意推理網絡’為迭代推理提供強大優(yōu)先級的設計,支持可解釋和結構化學習,從小樣本數據的泛化能力強。
3、該模型基于現(xiàn)有循環(huán)神經網絡,對單個循環(huán)記憶、注意力和控制(MAC)單元進行序列化,對每個單元和它們之間的相互作用施加結構約束,將顯式控制和軟注意機制合并到它們的接口中。
4、該模型在具有挑戰(zhàn)性的CLEVR數據集上展示了極好強度和穩(wěn)健性,用于視覺推理,實現(xiàn)了最新的98.9%的精確度,將之前最佳模型的錯誤率減半。更重要的是,我們新模型的計算效率更高,數據效率更高。 該模型是一個基于注意力的循環(huán)神經網絡,使用了一種新的 MAC架構:記憶(Memory),注意力(Attention),合成(Composition)。MAC架構,是一個循環(huán)架構,類似于LSTM,每個Cell的結構如上圖,由控制單元CU,讀單元RU和寫單元WU組成。藍色顯示控制流(Control Flow),紅色顯示記憶流(Memory Flow)。
每個cell的MACi包含兩個雙重狀態(tài):
1、控制態(tài)ci、記憶態(tài)mi2、都是d維連續(xù)空間矢量3、控制 ci 表示:MAC cell 在當前步驟中應該完成的推理操作,僅關注整個問題的某些方面。由加權平均后基于注意力問題詞的總和表示4、記憶態(tài) mi 表示:那些被認為與響應查詢或者回答問題相關的當前上下文信息,實際上,mi 通過對來自知識庫(KB)的元素的加權平均來表示,或者對于VQA的情況,對圖像中的區(qū)域進行加權平均。5、將 m0 和 c0 分別初始化為d隨機矢量6、控制態(tài)ci 和記憶態(tài)mi 以循環(huán)方式從一個cell傳遞到下一個cell,并以類似 鍵值記憶網絡(Key-Value memory networks) 的方式運行 MAC 原理
精心設計和限制MAC cell內部單元之間的相互作用的接口,限制了其可以學習的假設空間,從而引導其獲得預期的推理行為,因此,該結構有助于增強學習過程并減輕過度擬合問題。
MAC允許問題與知識庫 (對于VQA的情況,就是指圖像) 僅僅通過間接方式進行交互,引導cell關注知識庫KB中的不同元素,通過門控機制控制其操作。因此,在這兩種情況下,這些媒介(視覺和文本,或知識和查詢)之間的相互作用,或者以注意力圖(Attention Maps)的形式、或者作為門,通過概率分布來調節(jié)。
三、場景圖
現(xiàn)實世界的場景表示要復雜的多,不僅僅是物體之間的前后左右位置關系,還有on, has,wearing, of, in 等等關系。 2015年,李飛飛參與的一篇圖像檢索的文章中提到,可以用場景圖(Scene Graph)的方法來提升圖像檢索的性能,也是一個開創(chuàng)性的工作,文章里首次對場景圖進行了定義。場景圖是用來描述場景中的內容的結構化數據,把目標的屬性做編碼,把目標的關系提煉出來作為機器的輸入。
場景圖生成的新算法之一,在CVPR 2019的一篇論文中有所體現(xiàn),它采用圖卷積網絡、知識嵌入式路由網絡,生成了場景圖。 場景圖應用基本在四大方面:圖像檢索、Image Captioning(看圖說話)、Video Captioning、Visual Reasoning(視覺推理)。文章開頭提到的“智慧交通協(xié)管員”正是Video Captioning的表現(xiàn)形式。

最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數智主辦酒仙橋論壇,探索AI產業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?