摘譯:認知體系研究綜述(二)
4.1視覺(vision)
長期以來,視覺是主要的感知模態(tài),雖然最近的研究建議更平衡的感知體驗觀[17],但認知結構的研究仍然以視覺為中心,相對也是研究最多的感知模態(tài)。盡管在機器人技術中,各種非視覺傳感器(如聲納、超聲波距離傳感器)和本體感覺傳感器(如陀螺儀、圓規(guī))被用于解決諸如導航、避障和搜索等視覺任務,但視覺輸入占所有可能輸入模式的一半以上。根據(jù)Marr[18]的說法,視覺處理通常包括了三個不同的階段:早期、中期和晚期。早期視覺技術是數(shù)據(jù)驅動的,涉及到對視覺場景的并行處理,提取簡單的元素,如顏色、亮度、形狀、運動等。中期視覺技術將元素分組到區(qū)域中,然后在后期進行進一步處理,以識別對象,并使用可用的知識賦予它們意義。盡管Marr沒有提到,但視覺注意機制、情感和獎勵也會影響視覺處理的各個階段[19]。因此,感知和認知在各個處理階段都是緊密關聯(lián)的。
在認知體系中,基于圖像理解的視覺處理是分階段進行的【20】。這些階段包括:1)強度-位置-時間值的檢測和分組(產(chǎn)生邊緣、區(qū)域、流向量);2)邊緣、區(qū)域等的進一步分組(產(chǎn)生表面、體積,邊界、深度信息;3)對象識別及其運動識別;4)為實體建立以對象為中心的表示;5)基于任務為對象分配標簽;6)時空推斷實體之間的關系。在這里,只有階段1代表Marr三階段理論的早期階段,所有后續(xù)階段都需要一個附加的任務或世界知識。已經(jīng)在第2階段,特征的分組可以由被觀察的特定對象的視點信息和知識來促進。最后,后期階段對從早期和中間處理結果中抽象出來的高級表示進行推理和操作。
值得注意的是,在許多圖像理解的研究中通過執(zhí)行了隱式深度學習方法而實現(xiàn)的。在最近幾年中,我們已經(jīng)看到了深度學習在圖像處理和自然語言處理很多卓越表現(xiàn),然而令人驚訝的是很少認知架構使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度學習在簡單視覺任務中的一些應用。
圖5顯示真實視覺和模擬視覺執(zhí)行處理的各個階段。真實視覺系統(tǒng)只接收像素級的輸入,而沒有附加信息(如攝像機參數(shù)、物體的位置和特征等)。圖像本身由相機生成,但體系結構不需要連接到物理相機。模擬視覺系統(tǒng)通常忽略早期和中期處理階段,并以適合視覺處理后期階段的形式接收輸入(例如形狀和顏色的符號描述、對象標簽、坐標等)。技術上,任何不支持真實視覺或其他感知模式的體系結構,都可以通過接口進行擴展,該接口將其連接到傳感器或將原始數(shù)據(jù)預處理為更合適的格式(如Soar、ACT-R)。但圖5僅僅顯示執(zhí)行了什么樣圖像解釋階段,而沒有反映出這樣處理的復雜性。
圖5:這些階段從早期到后期依次為:1)特征,2)原型對象,3)對象,4)對象模型,5)對象標簽,6)空間關系
不同深淺的藍色用來表示屬于早期、中期和晚期視覺的過程。這個具有真實和模擬視覺的架構分別顯示在左欄和右欄中。每列中的順序按字母順序排列。
4.2基于傳感器的視覺(Vision using physical sensors)
大多數(shù)體系處理視覺各個階段都是物理嵌入的,包括機器人控制、生物啟發(fā)和仿生結構。早期視覺(步驟1)通常涉及邊緣檢測和視差估計。然后這些特征分組(步驟2)為具有類似特征(顏色、深度等)的東西,這些東西被解析為具有質心坐標的候選對象(步驟3)。使用離線方式學習對象模型(步驟4),并可用于對候選對象進行分類(步驟5)。
基于生物啟發(fā)的體系也使用計算機視覺算法,并遵循類似的處理階段。例如,用于目標檢測的神經(jīng)網(wǎng)絡(RCS、DIARC、Kismet),用于對象識別的SIFT特征(DIARC),用于手部檢測和跟蹤的SURF特征、AdaBoost學習和高斯混合(iCub),用于識別人體并確定年齡性別的Kinect和結合支持向量機的LBP特征(RoboCog和CORTEX)。
在有些體系結構中,視覺與記憶、控制系統(tǒng)的聯(lián)系更加緊密,視覺處理中的一些步驟與人類視覺系統(tǒng)有明顯的相關性。其中一個例子是顯著性【saliency?】,它根據(jù)視覺刺激的特征或與任務的相關性,對視覺刺激的優(yōu)先級進行建模。因此,顯著性被用來尋找場景中感興趣的區(qū)域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一種在一些機器人結構中發(fā)現(xiàn)的結構,模擬了海馬體在感覺信息和動作整合中的功能,盡管在生物學上不是合理的。本質上,自我球在機器人周圍形成一個虛擬穹頂,突出的物體和事件被映射到上面。這個概念的各種實現(xiàn)包括在RCS、ISAC、iCub和MACSi中。
圖2體系中的第三個亞組追求生物學上合理的視覺。其中一個最詳細的例子是基于大腦腹側通路解剖的Leabra視覺系統(tǒng)(LVis)。它模擬了初級視覺皮層(V1)、紋狀體外區(qū)(V2、V4)和下顳葉皮層(IT)。這些區(qū)域中的計算大致對應于早期和中期處理步驟。LVis具有人類視覺系統(tǒng)的其他特征,例如在更高層次上的神經(jīng)元的更大的感受野、層之間的相互聯(lián)系以及限制跨層活動水平的反復抑制動力學。Darwin VIII(BBD)、SPA(Spaun)和ART的視覺系統(tǒng)也模仿了靈長類動物的腹側視覺通路。
SASE架構并沒有緊密地復制人類的視覺系統(tǒng)。相反,它使用具有局部連接的層次神經(jīng)網(wǎng)絡,每個神經(jīng)元從前一層的限制區(qū)域獲得輸入。一層內(nèi)的感受野大小相同,并且在較高的水平上增加。該系統(tǒng)在一個室內(nèi)導航場景中的帆式機器人上進行了測試。MDB、BECCA和DAC中實現(xiàn)了類似的視覺方法。值得指出的是,盡管涌現(xiàn)范式?jīng)]有顯式地將標簽分配給對象,但是它們能夠形成場景中對象之間空間關系的某種隱式表示(比如向量表示),并將這些表示用于視覺導航等任務(BBD、BECCA、DAC、MDB、SASE)
4.3模擬視覺(Simulated vision)
從圖2可以明顯看出,大多數(shù)模擬只支持視覺處理的后期階段。最簡單的模擬是由物體填充的二維網(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二維迷宮和CLARION social agents設計的部落模擬。網(wǎng)格環(huán)境中的代理通常只能看到有限的周圍環(huán)境,每個方向只能看到幾個單元格。Blocks world是另一個經(jīng)典領域,其一般任務是構建各種形狀和顏色的塊堆棧(ACT-R、ICARUS、MIDCA。
盡管它們的復雜性和目的不同,不同的模擬通常提供關于環(huán)境的相同類型的數(shù)據(jù):對象、它們的屬性(顏色、形狀、標簽等)、代理本身的位置和屬性、對象和環(huán)境因素之間的空間關系(例如天氣和風向)。這種模擬主要用作可視化工具,與直接輸入的數(shù)據(jù)相差不大,因為幾乎不需要任何感官處理。更高級的模擬將場景表示為具有角點顏色和三維坐標的多邊形,這些角點必須進一步處理以識別對象(Novamente)。否則,3D模擬的視覺真實性主要是為了美學和感官,因為信息是直接以符號形式提供的(例如CoJACK,Pogamut)。
如前所述,圖2并不反映個體體系的環(huán)境或能力的復雜性差異。然而,在體現(xiàn)認知結構的環(huán)境之間的大小和真實性。例如,ATLANTIS控制的行星漫游者在戶外巖石地形中進行越野導航。銷售機器人Gualzru(CORTEX)在一個滿是人的大房間里移動,iCub(MACsi)從桌子上識別并撿起各種玩具。另一方面,簡單即沒有障礙的環(huán)境也被用于認知結構研究(BECCA,MDB)。此外,顏色編碼對象是簡化視覺處理的常用方法。例如,ADAPT跟蹤一個紅色在桌子上滾動的球和DAC將自己朝向標記有不同顏色的目標。此外,大多體系的應用只能識別少數(shù)不同的對象類別。只有Leabra能夠區(qū)分幾十個對象類別。隨著OpenCV、Cloud Point Library或Kinect API等可用軟件工具包的普及,可視化處理的質量大大提高。但在試圖建立通用的生物學意義上的視覺系統(tǒng)模型,并沒有取得太多進展。目前,應用僅限于受控環(huán)境。
4.4聽覺(Audition)
聽覺是認知體系中一種常見的模態(tài),因為語音命令常常是用于指導智能系統(tǒng)或與之通信。由于聽覺模態(tài)是純功能性的,許多體系結構使用可用的語音到文本軟件而不是開發(fā)聽覺模型。為數(shù)不多的進行了聽覺感知建模的體系包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被用來研究音位整合和音源隔離(雞尾酒會問題);贏CT-R發(fā)展了一個音樂解釋模型。
使用專用軟件進行語音處理和通信有助于實現(xiàn)復雜性和現(xiàn)實主義。例如,在機器人應用中,它允許銷售機器人編寫腳本在擁擠的房間里與人互動(CORTEX)或對話英語的子集(CoSy)。一個更高級的應用包括使用語音識別來完成這個任務通過電話向公共圖書館訂購書籍(FORR)。使用現(xiàn)成語音的其他系統(tǒng)處理軟件包括PolyScheme和ISAC。在選擇的體系中,大部分工作都是針對自然語言處理,即語言和語音所承載的語義信息,很少有人注意到據(jù)情感內(nèi)容(如響度、語速和語調(diào))。在這個方向上的一些嘗試都是社會機器人。例如,社交機器人Kismet不明白人們在說什么,但它可以根據(jù)演講的韻律輪廓來確定贊同、禁止或安慰。這個Ymir體系結構還具有韻律分析器和基于語法的語音識別器,可以理解100個單詞的有限詞匯。甚至聲音本身也可以作為線索,例如,BBD機器人可以將自己定向到一個響亮的聲音源。
4.5符號輸入(Symbolic input)
符號輸入結合了幾種不同于物理傳感和仿真模擬的輸入,包括了文本命令、數(shù)據(jù)以及通過GUI的輸入。文本是用于執(zhí)行規(guī)劃和邏輯推理任務的典型輸入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根據(jù)體系結構中使用的基元謂詞編寫的,因此不需要額外的解析。
4.6 多模態(tài)感知
在前面各節(jié)中,單獨考慮了各種的感知模式。然而,在現(xiàn)實中人腦從不同的感官接收到源源不斷的信息流,并將其整合成一個關聯(lián)的世界表征。認知結構也是如此,因為近一半的認知結構有兩種及以上不同的感知模式(圖1)。并非所有這些模式可能出現(xiàn)在一個單一的體系中,大多數(shù)體系同時使用兩種不同的模式,例如視覺和聽覺、視覺和符號輸入或視覺和距離傳感器。除了少數(shù)例外,這些體系結構基本上執(zhí)行了認知科學中的特征集成或機器人學中的傳感器數(shù)據(jù)融合。顯然,可以使用不同的傳感器,而不必顯式地組合它們的輸出。
多感知通過互補和冗余提高感知的穩(wěn)健性,但在實踐中,使用許多不同的傳感器會帶來許多挑戰(zhàn),例如不完整或虛假或沖突的數(shù)據(jù)、具有不同屬性的數(shù)據(jù)(例如維度或值范圍)、對數(shù)據(jù)對齊和關聯(lián)的需要等。機器人研究領域對這些實際問題進行了深入的研究,但是還沒有提出通用的解決方案。每個解決方案都必須為特定的應用程序定制,這是大多數(shù)認知架構采用的一種普遍做法。不幸的是,文獻中很少有技術信息來確定所使用的確切技術,并將它們與已建立的分類法聯(lián)系起來。
總的來說,傳感器集成的特定實現(xiàn)依賴于用于推理和任務的知識表示。在典型的具有符號推理的體系結構中,來自不同傳感器的數(shù)據(jù)被獨立地處理,并映射到以代理為中心的3D地圖上,該地圖可用于導航(CaRACAS , CoSy)。在社會機器人的應用中,世界的表現(xiàn)形式可以是一個圍繞著主體的自我球體,它包含以自我為中心的坐標和視覺檢測對象的屬性,這些都與通過三角測量確定的聲音位置相關聯(lián)(ISAC,MACsi)。
RCS,一個具有層次結構的模型,在每個層次上都有一個具有相應世界表示的感知處理模塊(例如:像素圖、3D模型、狀態(tài)表等)。有些體系隱式地執(zhí)行數(shù)據(jù)關聯(lián)和對齊,即傳感器數(shù)據(jù)和特征提。ɡ,來自攝像機的物體坐標和來自激光的障礙物距離)是獨立進行的。然后將提取的信息直接添加到工作內(nèi)存。任何模棱兩可和不一致都可以通過高階推理過程來解決。這是分布式體系結構中的一種常見方法,其中獨立模塊同時為實現(xiàn)一個共同目標而工作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。
在許多受生物啟發(fā)的體系中,不同傳感器的讀數(shù)之間的關聯(lián)被學習。例如,DAC使用Hebbian學習來建立數(shù)據(jù)對齊,以便將不同感知模式的神經(jīng)表示映射到一個共同的框架,模擬大腦上丘的功能。ART通過神經(jīng)融合(ARTMAP網(wǎng)絡)將視覺和超聲波感官信息集成到移動機器人導航中。同樣,MDB使用神經(jīng)網(wǎng)絡從傳感器輸入學習世界模型,并使用遺傳算法調(diào)整網(wǎng)絡參數(shù)。
目前為止提到的所有方法都有一些相似的傳感集成,因為都使用空間和時間的接近或學習來消除多模態(tài)數(shù)據(jù)的歧義。但總的來說,只有很少的體系在感知層面上追求生物逼真度。唯一的一個在生物學上看似合理的感知集成模型是用基于大腦的設備(BBD)體系,被稱為Darwin XI的具體神經(jīng)模型是用來研究多感覺信息(來自觸摸傳感器、激光、相機和磁羅盤)的整合和在迷宮導航中的海馬體[163]。Darwin XI的神經(jīng)網(wǎng)絡由大約80000個神經(jīng)元和120萬個突觸組成,并模擬50個神經(jīng)區(qū)域。在損傷研究中,通過去除一個或多個感覺輸入并重新映射感覺神經(jīng)元單元,證明了系統(tǒng)的魯棒性。
一般來說,很多認知體系在很大程度上忽略了跨模態(tài)交互作用。這些體系,包括面向生物和面向認知的,在處理不同的感知模式時通常采用模塊化的方法。同時,在過去幾十年中進行的許多心理和神經(jīng)成像實驗表明,不同的感知相互影響。例如,視覺改變聽覺處理,反之亦然。然而,據(jù)我們所知,一些仿生體系,如上文提到的BBD,可能代表跨模態(tài)效應,這個問題還有待調(diào)研。
未完待續(xù)
6 行動選擇(Action selection)7 存儲(Memory)8 學習(Learning)9 推理(Reasoning)10 元認知(Meta-cognition)11 應用及討論
參考文獻:
【12】Ron Sun and Lawrence A. Bookman, editors. Computational architectures integrating neural and symbolic processes: A perspective on the state of the art. Springer Science & Business Media, 1994.
【13】Troy D. Kelley. Symbolic and Sub-Symbolic Representations in Computational Models of Human Cognition: What Can be Learned from Biology? Theory & Psychology, 13(6):847–860, 2003.
【14】David Vernon, Giorgio Metta, and Giulio Sandini. A Survey of Artificial Cognitive Systems: Implictions for the Autonomous Development of Mental Capbilities in Computational Agents. IEEE Transactions on Evolutionary Computation, pages 1–30, 2007.
【15】Ben Goertzel, Ruiting Lian, Itamar Arel, Hugo de Garis, and Shuo Chen. A world survey of artificial brain projects, Part II: Biologically inspired cognitive architectures. Neurocomputing, 74(1-3):30–49, 2010.
【16】Amal Asselman, Souhaib Aammou, and Az-Eddine Nasseh. Comparative Study of Cognitive Architectures. International Research Journal of Computer Science, 2(9):8–13, 2015.
【17】Dustin Stokes and Stephen Biggs. The dominance of the visual. In D. Stokes, M. Matthen, and S. Biggs, editors, Perception and its Modalities, pages 1–35. Oxford University Press, 2014.
【18】D. Marr. Vision: A Computational Investigation Into the Human Representation and Processing of Visual Information. MIT Press, 2010.
【19】548. John K. Tsotsos. A computational perspective on visual attention. MIT Press, 2011.
【20】John K. Tsotsos. Image Understanding. In Encyclopedia of Artificial Intelligence, pages 641–663. 1992。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字