訂閱
糾錯(cuò)
加入自媒體

摘譯:認(rèn)知體系研究綜述(二)

4.1視覺(vision)

長(zhǎng)期以來(lái),視覺是主要的感知模態(tài),雖然最近的研究建議更平衡的感知體驗(yàn)觀[17],但認(rèn)知結(jié)構(gòu)的研究仍然以視覺為中心,相對(duì)也是研究最多的感知模態(tài)。盡管在機(jī)器人技術(shù)中,各種非視覺傳感器(如聲納、超聲波距離傳感器)和本體感覺傳感器(如陀螺儀、圓規(guī))被用于解決諸如導(dǎo)航、避障和搜索等視覺任務(wù),但視覺輸入占所有可能輸入模式的一半以上。根據(jù)Marr[18]的說(shuō)法,視覺處理通常包括了三個(gè)不同的階段:早期、中期和晚期。早期視覺技術(shù)是數(shù)據(jù)驅(qū)動(dòng)的,涉及到對(duì)視覺場(chǎng)景的并行處理,提取簡(jiǎn)單的元素,如顏色、亮度、形狀、運(yùn)動(dòng)等。中期視覺技術(shù)將元素分組到區(qū)域中,然后在后期進(jìn)行進(jìn)一步處理,以識(shí)別對(duì)象,并使用可用的知識(shí)賦予它們意義。盡管Marr沒有提到,但視覺注意機(jī)制、情感和獎(jiǎng)勵(lì)也會(huì)影響視覺處理的各個(gè)階段[19]。因此,感知和認(rèn)知在各個(gè)處理階段都是緊密關(guān)聯(lián)的。

在認(rèn)知體系中,基于圖像理解的視覺處理是分階段進(jìn)行的【20】。這些階段包括:1)強(qiáng)度-位置-時(shí)間值的檢測(cè)和分組(產(chǎn)生邊緣、區(qū)域、流向量);2)邊緣、區(qū)域等的進(jìn)一步分組(產(chǎn)生表面、體積,邊界、深度信息;3)對(duì)象識(shí)別及其運(yùn)動(dòng)識(shí)別;4)為實(shí)體建立以對(duì)象為中心的表示;5)基于任務(wù)為對(duì)象分配標(biāo)簽;6)時(shí)空推斷實(shí)體之間的關(guān)系。在這里,只有階段1代表Marr三階段理論的早期階段,所有后續(xù)階段都需要一個(gè)附加的任務(wù)或世界知識(shí)。已經(jīng)在第2階段,特征的分組可以由被觀察的特定對(duì)象的視點(diǎn)信息和知識(shí)來(lái)促進(jìn)。最后,后期階段對(duì)從早期和中間處理結(jié)果中抽象出來(lái)的高級(jí)表示進(jìn)行推理和操作。

值得注意的是,在許多圖像理解的研究中通過執(zhí)行了隱式深度學(xué)習(xí)方法而實(shí)現(xiàn)的。在最近幾年中,我們已經(jīng)看到了深度學(xué)習(xí)在圖像處理和自然語(yǔ)言處理很多卓越表現(xiàn),然而令人驚訝的是很少認(rèn)知架構(gòu)使用它。在CogPrime、LIDA、SPA和BECCA中可以找到深度學(xué)習(xí)在簡(jiǎn)單視覺任務(wù)中的一些應(yīng)用。

圖5顯示真實(shí)視覺和模擬視覺執(zhí)行處理的各個(gè)階段。真實(shí)視覺系統(tǒng)只接收像素級(jí)的輸入,而沒有附加信息(如攝像機(jī)參數(shù)、物體的位置和特征等)。圖像本身由相機(jī)生成,但體系結(jié)構(gòu)不需要連接到物理相機(jī)。模擬視覺系統(tǒng)通常忽略早期和中期處理階段,并以適合視覺處理后期階段的形式接收輸入(例如形狀和顏色的符號(hào)描述、對(duì)象標(biāo)簽、坐標(biāo)等)。技術(shù)上,任何不支持真實(shí)視覺或其他感知模式的體系結(jié)構(gòu),都可以通過接口進(jìn)行擴(kuò)展,該接口將其連接到傳感器或?qū)⒃紨?shù)據(jù)預(yù)處理為更合適的格式(如Soar、ACT-R)。但圖5僅僅顯示執(zhí)行了什么樣圖像解釋階段,而沒有反映出這樣處理的復(fù)雜性。

圖5:這些階段從早期到后期依次為:1)特征,2)原型對(duì)象,3)對(duì)象,4)對(duì)象模型,5)對(duì)象標(biāo)簽,6)空間關(guān)系

不同深淺的藍(lán)色用來(lái)表示屬于早期、中期和晚期視覺的過程。這個(gè)具有真實(shí)和模擬視覺的架構(gòu)分別顯示在左欄和右欄中。每列中的順序按字母順序排列。

4.2基于傳感器的視覺(Vision using physical sensors)

大多數(shù)體系處理視覺各個(gè)階段都是物理嵌入的,包括機(jī)器人控制、生物啟發(fā)和仿生結(jié)構(gòu)。早期視覺(步驟1)通常涉及邊緣檢測(cè)和視差估計(jì)。然后這些特征分組(步驟2)為具有類似特征(顏色、深度等)的東西,這些東西被解析為具有質(zhì)心坐標(biāo)的候選對(duì)象(步驟3)。使用離線方式學(xué)習(xí)對(duì)象模型(步驟4),并可用于對(duì)候選對(duì)象進(jìn)行分類(步驟5)。

基于生物啟發(fā)的體系也使用計(jì)算機(jī)視覺算法,并遵循類似的處理階段。例如,用于目標(biāo)檢測(cè)的神經(jīng)網(wǎng)絡(luò)(RCS、DIARC、Kismet),用于對(duì)象識(shí)別的SIFT特征(DIARC),用于手部檢測(cè)和跟蹤的SURF特征、AdaBoost學(xué)習(xí)和高斯混合(iCub),用于識(shí)別人體并確定年齡性別的Kinect和結(jié)合支持向量機(jī)的LBP特征(RoboCog和CORTEX)。

在有些體系結(jié)構(gòu)中,視覺與記憶、控制系統(tǒng)的聯(lián)系更加緊密,視覺處理中的一些步驟與人類視覺系統(tǒng)有明顯的相關(guān)性。其中一個(gè)例子是顯著性【saliency?】,它根據(jù)視覺刺激的特征或與任務(wù)的相關(guān)性,對(duì)視覺刺激的優(yōu)先級(jí)進(jìn)行建模。因此,顯著性被用來(lái)尋找場(chǎng)景中感興趣的區(qū)域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一種在一些機(jī)器人結(jié)構(gòu)中發(fā)現(xiàn)的結(jié)構(gòu),模擬了海馬體在感覺信息和動(dòng)作整合中的功能,盡管在生物學(xué)上不是合理的。本質(zhì)上,自我球在機(jī)器人周圍形成一個(gè)虛擬穹頂,突出的物體和事件被映射到上面。這個(gè)概念的各種實(shí)現(xiàn)包括在RCS、ISAC、iCub和MACSi中。

圖2體系中的第三個(gè)亞組追求生物學(xué)上合理的視覺。其中一個(gè)最詳細(xì)的例子是基于大腦腹側(cè)通路解剖的Leabra視覺系統(tǒng)(LVis)。它模擬了初級(jí)視覺皮層(V1)、紋狀體外區(qū)(V2、V4)和下顳葉皮層(IT)。這些區(qū)域中的計(jì)算大致對(duì)應(yīng)于早期和中期處理步驟。LVis具有人類視覺系統(tǒng)的其他特征,例如在更高層次上的神經(jīng)元的更大的感受野、層之間的相互聯(lián)系以及限制跨層活動(dòng)水平的反復(fù)抑制動(dòng)力學(xué)。Darwin VIII(BBD)、SPA(Spaun)和ART的視覺系統(tǒng)也模仿了靈長(zhǎng)類動(dòng)物的腹側(cè)視覺通路。

SASE架構(gòu)并沒有緊密地復(fù)制人類的視覺系統(tǒng)。相反,它使用具有局部連接的層次神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)元從前一層的限制區(qū)域獲得輸入。一層內(nèi)的感受野大小相同,并且在較高的水平上增加。該系統(tǒng)在一個(gè)室內(nèi)導(dǎo)航場(chǎng)景中的帆式機(jī)器人上進(jìn)行了測(cè)試。MDB、BECCA和DAC中實(shí)現(xiàn)了類似的視覺方法。值得指出的是,盡管涌現(xiàn)范式?jīng)]有顯式地將標(biāo)簽分配給對(duì)象,但是它們能夠形成場(chǎng)景中對(duì)象之間空間關(guān)系的某種隱式表示(比如向量表示),并將這些表示用于視覺導(dǎo)航等任務(wù)(BBD、BECCA、DAC、MDB、SASE)

4.3模擬視覺(Simulated vision)

從圖2可以明顯看出,大多數(shù)模擬只支持視覺處理的后期階段。最簡(jiǎn)單的模擬是由物體填充的二維網(wǎng)格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的二維迷宮和CLARION social agents設(shè)計(jì)的部落模擬。網(wǎng)格環(huán)境中的代理通常只能看到有限的周圍環(huán)境,每個(gè)方向只能看到幾個(gè)單元格。Blocks world是另一個(gè)經(jīng)典領(lǐng)域,其一般任務(wù)是構(gòu)建各種形狀和顏色的塊堆棧(ACT-R、ICARUS、MIDCA。

盡管它們的復(fù)雜性和目的不同,不同的模擬通常提供關(guān)于環(huán)境的相同類型的數(shù)據(jù):對(duì)象、它們的屬性(顏色、形狀、標(biāo)簽等)、代理本身的位置和屬性、對(duì)象和環(huán)境因素之間的空間關(guān)系(例如天氣和風(fēng)向)。這種模擬主要用作可視化工具,與直接輸入的數(shù)據(jù)相差不大,因?yàn)閹缀醪恍枰魏胃泄偬幚。更高?jí)的模擬將場(chǎng)景表示為具有角點(diǎn)顏色和三維坐標(biāo)的多邊形,這些角點(diǎn)必須進(jìn)一步處理以識(shí)別對(duì)象(Novamente)。否則,3D模擬的視覺真實(shí)性主要是為了美學(xué)和感官,因?yàn)樾畔⑹侵苯右苑?hào)形式提供的(例如CoJACK,Pogamut)。

如前所述,圖2并不反映個(gè)體體系的環(huán)境或能力的復(fù)雜性差異。然而,在體現(xiàn)認(rèn)知結(jié)構(gòu)的環(huán)境之間的大小和真實(shí)性。例如,ATLANTIS控制的行星漫游者在戶外巖石地形中進(jìn)行越野導(dǎo)航。銷售機(jī)器人Gualzru(CORTEX)在一個(gè)滿是人的大房間里移動(dòng),iCub(MACsi)從桌子上識(shí)別并撿起各種玩具。另一方面,簡(jiǎn)單即沒有障礙的環(huán)境也被用于認(rèn)知結(jié)構(gòu)研究(BECCA,MDB)。此外,顏色編碼對(duì)象是簡(jiǎn)化視覺處理的常用方法。例如,ADAPT跟蹤一個(gè)紅色在桌子上滾動(dòng)的球和DAC將自己朝向標(biāo)記有不同顏色的目標(biāo)。此外,大多體系的應(yīng)用只能識(shí)別少數(shù)不同的對(duì)象類別。只有Leabra能夠區(qū)分幾十個(gè)對(duì)象類別。隨著OpenCV、Cloud Point Library或Kinect API等可用軟件工具包的普及,可視化處理的質(zhì)量大大提高。但在試圖建立通用的生物學(xué)意義上的視覺系統(tǒng)模型,并沒有取得太多進(jìn)展。目前,應(yīng)用僅限于受控環(huán)境。

4.4聽覺(Audition)

聽覺是認(rèn)知體系中一種常見的模態(tài),因?yàn)檎Z(yǔ)音命令常常是用于指導(dǎo)智能系統(tǒng)或與之通信。由于聽覺模態(tài)是純功能性的,許多體系結(jié)構(gòu)使用可用的語(yǔ)音到文本軟件而不是開發(fā)聽覺模型。為數(shù)不多的進(jìn)行了聽覺感知建模的體系包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被用來(lái)研究音位整合和音源隔離(雞尾酒會(huì)問題);贏CT-R發(fā)展了一個(gè)音樂解釋模型。

使用專用軟件進(jìn)行語(yǔ)音處理和通信有助于實(shí)現(xiàn)復(fù)雜性和現(xiàn)實(shí)主義。例如,在機(jī)器人應(yīng)用中,它允許銷售機(jī)器人編寫腳本在擁擠的房間里與人互動(dòng)(CORTEX)或?qū)υ捰⒄Z(yǔ)的子集(CoSy)。一個(gè)更高級(jí)的應(yīng)用包括使用語(yǔ)音識(shí)別來(lái)完成這個(gè)任務(wù)通過電話向公共圖書館訂購(gòu)書籍(FORR)。使用現(xiàn)成語(yǔ)音的其他系統(tǒng)處理軟件包括PolyScheme和ISAC。在選擇的體系中,大部分工作都是針對(duì)自然語(yǔ)言處理,即語(yǔ)言和語(yǔ)音所承載的語(yǔ)義信息,很少有人注意到據(jù)情感內(nèi)容(如響度、語(yǔ)速和語(yǔ)調(diào))。在這個(gè)方向上的一些嘗試都是社會(huì)機(jī)器人。例如,社交機(jī)器人Kismet不明白人們?cè)谡f(shuō)什么,但它可以根據(jù)演講的韻律輪廓來(lái)確定贊同、禁止或安慰。這個(gè)Ymir體系結(jié)構(gòu)還具有韻律分析器和基于語(yǔ)法的語(yǔ)音識(shí)別器,可以理解100個(gè)單詞的有限詞匯。甚至聲音本身也可以作為線索,例如,BBD機(jī)器人可以將自己定向到一個(gè)響亮的聲音源。

4.5符號(hào)輸入(Symbolic input)

符號(hào)輸入結(jié)合了幾種不同于物理傳感和仿真模擬的輸入,包括了文本命令、數(shù)據(jù)以及通過GUI的輸入。文本是用于執(zhí)行規(guī)劃和邏輯推理任務(wù)的典型輸入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根據(jù)體系結(jié)構(gòu)中使用的基元謂詞編寫的,因此不需要額外的解析。

4.6 多模態(tài)感知

在前面各節(jié)中,單獨(dú)考慮了各種的感知模式。然而,在現(xiàn)實(shí)中人腦從不同的感官接收到源源不斷的信息流,并將其整合成一個(gè)關(guān)聯(lián)的世界表征。認(rèn)知結(jié)構(gòu)也是如此,因?yàn)榻话氲恼J(rèn)知結(jié)構(gòu)有兩種及以上不同的感知模式(圖1)。并非所有這些模式可能出現(xiàn)在一個(gè)單一的體系中,大多數(shù)體系同時(shí)使用兩種不同的模式,例如視覺和聽覺、視覺和符號(hào)輸入或視覺和距離傳感器。除了少數(shù)例外,這些體系結(jié)構(gòu)基本上執(zhí)行了認(rèn)知科學(xué)中的特征集成或機(jī)器人學(xué)中的傳感器數(shù)據(jù)融合。顯然,可以使用不同的傳感器,而不必顯式地組合它們的輸出。

多感知通過互補(bǔ)和冗余提高感知的穩(wěn)健性,但在實(shí)踐中,使用許多不同的傳感器會(huì)帶來(lái)許多挑戰(zhàn),例如不完整或虛假或沖突的數(shù)據(jù)、具有不同屬性的數(shù)據(jù)(例如維度或值范圍)、對(duì)數(shù)據(jù)對(duì)齊和關(guān)聯(lián)的需要等。機(jī)器人研究領(lǐng)域?qū)@些實(shí)際問題進(jìn)行了深入的研究,但是還沒有提出通用的解決方案。每個(gè)解決方案都必須為特定的應(yīng)用程序定制,這是大多數(shù)認(rèn)知架構(gòu)采用的一種普遍做法。不幸的是,文獻(xiàn)中很少有技術(shù)信息來(lái)確定所使用的確切技術(shù),并將它們與已建立的分類法聯(lián)系起來(lái)。

總的來(lái)說(shuō),傳感器集成的特定實(shí)現(xiàn)依賴于用于推理和任務(wù)的知識(shí)表示。在典型的具有符號(hào)推理的體系結(jié)構(gòu)中,來(lái)自不同傳感器的數(shù)據(jù)被獨(dú)立地處理,并映射到以代理為中心的3D地圖上,該地圖可用于導(dǎo)航(CaRACAS , CoSy)。在社會(huì)機(jī)器人的應(yīng)用中,世界的表現(xiàn)形式可以是一個(gè)圍繞著主體的自我球體,它包含以自我為中心的坐標(biāo)和視覺檢測(cè)對(duì)象的屬性,這些都與通過三角測(cè)量確定的聲音位置相關(guān)聯(lián)(ISAC,MACsi)。

RCS,一個(gè)具有層次結(jié)構(gòu)的模型,在每個(gè)層次上都有一個(gè)具有相應(yīng)世界表示的感知處理模塊(例如:像素圖、3D模型、狀態(tài)表等)。有些體系隱式地執(zhí)行數(shù)據(jù)關(guān)聯(lián)和對(duì)齊,即傳感器數(shù)據(jù)和特征提。ɡ,來(lái)自攝像機(jī)的物體坐標(biāo)和來(lái)自激光的障礙物距離)是獨(dú)立進(jìn)行的。然后將提取的信息直接添加到工作內(nèi)存。任何模棱兩可和不一致都可以通過高階推理過程來(lái)解決。這是分布式體系結(jié)構(gòu)中的一種常見方法,其中獨(dú)立模塊同時(shí)為實(shí)現(xiàn)一個(gè)共同目標(biāo)而工作(例如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。

在許多受生物啟發(fā)的體系中,不同傳感器的讀數(shù)之間的關(guān)聯(lián)被學(xué)習(xí)。例如,DAC使用Hebbian學(xué)習(xí)來(lái)建立數(shù)據(jù)對(duì)齊,以便將不同感知模式的神經(jīng)表示映射到一個(gè)共同的框架,模擬大腦上丘的功能。ART通過神經(jīng)融合(ARTMAP網(wǎng)絡(luò))將視覺和超聲波感官信息集成到移動(dòng)機(jī)器人導(dǎo)航中。同樣,MDB使用神經(jīng)網(wǎng)絡(luò)從傳感器輸入學(xué)習(xí)世界模型,并使用遺傳算法調(diào)整網(wǎng)絡(luò)參數(shù)。

目前為止提到的所有方法都有一些相似的傳感集成,因?yàn)槎际褂每臻g和時(shí)間的接近或?qū)W習(xí)來(lái)消除多模態(tài)數(shù)據(jù)的歧義。但總的來(lái)說(shuō),只有很少的體系在感知層面上追求生物逼真度。唯一的一個(gè)在生物學(xué)上看似合理的感知集成模型是用基于大腦的設(shè)備(BBD)體系,被稱為Darwin XI的具體神經(jīng)模型是用來(lái)研究多感覺信息(來(lái)自觸摸傳感器、激光、相機(jī)和磁羅盤)的整合和在迷宮導(dǎo)航中的海馬體[163]。Darwin XI的神經(jīng)網(wǎng)絡(luò)由大約80000個(gè)神經(jīng)元和120萬(wàn)個(gè)突觸組成,并模擬50個(gè)神經(jīng)區(qū)域。在損傷研究中,通過去除一個(gè)或多個(gè)感覺輸入并重新映射感覺神經(jīng)元單元,證明了系統(tǒng)的魯棒性。

一般來(lái)說(shuō),很多認(rèn)知體系在很大程度上忽略了跨模態(tài)交互作用。這些體系,包括面向生物和面向認(rèn)知的,在處理不同的感知模式時(shí)通常采用模塊化的方法。同時(shí),在過去幾十年中進(jìn)行的許多心理和神經(jīng)成像實(shí)驗(yàn)表明,不同的感知相互影響。例如,視覺改變聽覺處理,反之亦然。然而,據(jù)我們所知,一些仿生體系,如上文提到的BBD,可能代表跨模態(tài)效應(yīng),這個(gè)問題還有待調(diào)研。

未完待續(xù)
6 行動(dòng)選擇(Action selection)7 存儲(chǔ)(Memory)8 學(xué)習(xí)(Learning)9 推理(Reasoning)10 元認(rèn)知(Meta-cognition)11 應(yīng)用及討論
參考文獻(xiàn):

【12】Ron Sun and Lawrence A. Bookman, editors. Computational architectures integrating neural and symbolic processes: A perspective on the state of the art. Springer Science & Business Media, 1994.

【13】Troy D. Kelley. Symbolic and Sub-Symbolic Representations in Computational Models of Human Cognition: What Can be Learned from Biology? Theory & Psychology, 13(6):847–860, 2003.

【14】David Vernon, Giorgio Metta, and Giulio Sandini. A Survey of Artificial Cognitive Systems: Implictions for the Autonomous Development of Mental Capbilities in Computational Agents. IEEE Transactions on Evolutionary Computation, pages 1–30, 2007.

【15】Ben Goertzel, Ruiting Lian, Itamar Arel, Hugo de Garis, and Shuo Chen. A world survey of artificial brain projects, Part II: Biologically inspired cognitive architectures. Neurocomputing, 74(1-3):30–49, 2010.

【16】Amal Asselman, Souhaib Aammou, and Az-Eddine Nasseh. Comparative Study of Cognitive Architectures. International Research Journal of Computer Science, 2(9):8–13, 2015.

【17】Dustin Stokes and Stephen Biggs. The dominance of the visual. In D. Stokes, M. Matthen, and S. Biggs, editors, Perception and its Modalities, pages 1–35.  Oxford University Press, 2014.

【18】D. Marr. Vision: A Computational Investigation Into the Human Representation and Processing of Visual Information. MIT Press, 2010.

【19】548. John K. Tsotsos. A computational perspective on visual attention. MIT Press, 2011.

【20】John K. Tsotsos. Image Understanding. In Encyclopedia of Artificial Intelligence, pages 641–663. 1992。

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)