訂閱
糾錯(cuò)
加入自媒體

機(jī)器也能看圖說(shuō)話(huà)

機(jī)器看到圖像或視頻就能像人類(lèi)一樣進(jìn)行精準(zhǔn)地表述,這看似不可能,但已在深蘭科學(xué)院誕生的“智慧交通協(xié)管員”,已把它變?yōu)榱爽F(xiàn)實(shí)。

這段視頻的場(chǎng)景就是在城市繁忙的十字路口,尤其上下班高峰,行人違章現(xiàn)象非常多,即使有交警在路口執(zhí)勤也很難做到面面俱到,此時(shí)“智慧交通協(xié)管員”將大大發(fā)揮作用。

利用自主研發(fā)的圖像語(yǔ)義識(shí)別算法,“智慧交通協(xié)管員”可以實(shí)時(shí)識(shí)別行人和非機(jī)動(dòng)車(chē)違章行為,可識(shí)別的行為包括:

1. 行人闖紅燈; 2. 非機(jī)動(dòng)車(chē)闖紅燈; 3. 非機(jī)動(dòng)車(chē)在逆行; 4. 非機(jī)動(dòng)車(chē)在斑馬線騎行; 5. 非機(jī)動(dòng)車(chē)在人行道騎行;

還可精確描述違章者特征,進(jìn)行語(yǔ)音播報(bào)提醒,識(shí)別率可達(dá)80%以上。同時(shí),支持個(gè)性化語(yǔ)音定制,可以利用現(xiàn)有的視頻攝像頭資源進(jìn)行人臉識(shí)別違章抓拍,方便處罰,還可輔助對(duì)接車(chē)路協(xié)同系統(tǒng)。

其中涉及到的技術(shù)比較多,概括起來(lái)就是視覺(jué)理解、認(rèn)知推理、自然語(yǔ)言生成和語(yǔ)音合成。接下來(lái),我們會(huì)對(duì)其中的關(guān)鍵技術(shù)視覺(jué)理解和認(rèn)知推理進(jìn)行展開(kāi)。

視覺(jué)理解+認(rèn)知推理

一、認(rèn)知智能概述

人工智能的發(fā)展可以粗略劃分為三個(gè)階段:計(jì)算智能、感知智能和認(rèn)知智能。

計(jì)算智能通俗來(lái)說(shuō)就是計(jì)算機(jī)能存儲(chǔ)、記憶會(huì)運(yùn)算,這方面,計(jì)算機(jī)的智能水平早已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)人類(lèi)。

感知智能就是計(jì)算機(jī)具備類(lèi)似于人類(lèi)的視覺(jué)和聽(tīng)覺(jué)等方面的能力,比如,聽(tīng)到了什么,對(duì)應(yīng)語(yǔ)音識(shí)別;看到了什么,對(duì)應(yīng)圖像的分類(lèi)檢測(cè)和語(yǔ)義分割。其中人臉識(shí)別就是包含感知智能技術(shù)的一種人工智能應(yīng)用,近年來(lái),隨著深度學(xué)習(xí)技術(shù)在視覺(jué)感知領(lǐng)域的蓬勃發(fā)展,目前機(jī)器感知智能的性能已經(jīng)可與人類(lèi)媲美,甚至在許多場(chǎng)景下已經(jīng)超過(guò)人類(lèi)。

認(rèn)知智能強(qiáng)調(diào)知識(shí)、推理等技能,要求機(jī)器能理解、會(huì)思考,目前機(jī)器遠(yuǎn)不及人類(lèi)。從計(jì)算智能到感知智能,標(biāo)志著人工智能走向成熟;從感知智能到認(rèn)知智能,是人工智能質(zhì)的飛躍。認(rèn)知智能,與人的語(yǔ)言、知識(shí)、邏輯相關(guān),是人工智能的更高階段,涉及到語(yǔ)義理解、知識(shí)表示、小樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)、聯(lián)想推理和自主學(xué)習(xí)等等。相比于計(jì)算智能和感知智能,認(rèn)知智能是更復(fù)雜和更困難的任務(wù),也是未來(lái)數(shù)十年最重要的任務(wù)。

二、視覺(jué)理解與推理

Image captioning的發(fā)展歷程

1996-2000年 符號(hào)規(guī)則方法

追溯到1996年,Gerber發(fā)表了一篇知識(shí)表示的論文,限定于交通場(chǎng)景,在圖像序列中用知識(shí)表示來(lái)進(jìn)行自然語(yǔ)言描述的問(wèn)題。2010年時(shí),朱松純(S.-C.Zhu)教授團(tuán)隊(duì)首次提出與或圖(And-Or Graph)的模型。進(jìn)一步與 D. Mumford 合作進(jìn)行了框架的完善,融入隨機(jī)上下文相關(guān)語(yǔ)法(Stochastic Context Sensitive Grammar),能對(duì)復(fù)雜物體的多層次構(gòu)造特性(Hierarchical Compositionality)建模,完全表示圖像語(yǔ)法(Image Grammar)。

與或圖表示突破了傳統(tǒng)單一模板(Template)的表示方法,對(duì)每類(lèi)物體用多個(gè)圖結(jié)構(gòu)表示,該結(jié)構(gòu)可以通過(guò)語(yǔ)法(Grammar)、產(chǎn)生規(guī)則(Production Rule)進(jìn)行動(dòng)態(tài)調(diào)制,從而可以用相對(duì)小的視覺(jué)字典(Visual Vocabulary),表達(dá)大量類(lèi)間結(jié)構(gòu)變化很大的物體的圖像表現(xiàn)形式(Configuration)。

這些方法實(shí)際上都基于邏輯體系和規(guī)則的系統(tǒng),對(duì)圖像的內(nèi)容設(shè)計(jì)很多規(guī)則,繼而產(chǎn)生自然語(yǔ)言描述。由于強(qiáng)依賴(lài)于手工定制,人工特征工程的工作量就非常大,這也是當(dāng)時(shí)亟待改善的問(wèn)題。

2011-2013年 無(wú)明顯進(jìn)展

2014年至今 深度學(xué)習(xí)方法等

2014年,谷歌的Oriol Vinyals 等人公開(kāi)論文《Show and Tell: A Neural Image Caption Generator》,并發(fā)表于2015年CVPR,開(kāi)了深度學(xué)習(xí)在Image captioning中使用的先河。該方法來(lái)源于以前的機(jī)器翻譯。

輸入圖形后,深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖形特征進(jìn)行提取,通過(guò)固定長(zhǎng)度矢量形成輸入(Input)進(jìn)入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),經(jīng)過(guò)一系列訓(xùn)練后,輸出一段描述性的自然語(yǔ)言文字。按照時(shí)間序列的順序,逐個(gè)詞進(jìn)行輸出,條件依附于之前的詞。

使用如下公式最大化給定圖像的正確描述概率:

Encoding-Decoding 靈感來(lái)源于翻譯模型。

基于更復(fù)雜的視覺(jué)特征提取模型的Image Captioning。其中利用人的常識(shí)構(gòu)建了一個(gè)知識(shí)庫(kù)(ConceptNet),然后把它加入Encoding-Decoding模型里,賦予模型一定程度的常識(shí)能力。我們一直希望機(jī)器能有所謂的認(rèn)知智能,實(shí)際上就是希望機(jī)器能夠像人一樣具有常識(shí)。

1  2  3  下一頁(yè)>  
聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)