訂閱
糾錯(cuò)
加入自媒體

人工智能靠什么更快更強(qiáng)?答案是:好奇心

文章的開(kāi)頭,先拋出一個(gè)問(wèn)題:大家在玩電子游戲的時(shí)候,一門(mén)心思投入進(jìn)去,會(huì)發(fā)現(xiàn)自己根本停不下來(lái),是什么原因?qū)е碌哪兀?/p>

這個(gè)問(wèn)題可能有些寬泛,無(wú)法給出一個(gè)確切的答案。但如果你想要把接新任務(wù),升級(jí)或者再玩一把等一系列概括起來(lái),最簡(jiǎn)單的解釋就是“好奇心”——只是想看看接下來(lái)會(huì)發(fā)生什么。事實(shí)證明,在指導(dǎo)人工智能玩電子游戲時(shí),好奇心是一個(gè)非常有效的動(dòng)力。

非營(yíng)利人工智能研究公司OpenAI本周發(fā)布的一項(xiàng)研究解釋了一個(gè)具有好奇心的AI agent如何攻克經(jīng)典的1984 Atari游戲Montezuma's Revenge。熟練掌握Montezuma's Revenge算是人工智能的一大進(jìn)步,但不能將其等同于打敗Go或Dota 2的里程碑。谷歌旗下的人工智能公司DeepMind2015年發(fā)布了一篇開(kāi)創(chuàng)性論文,解釋AI如果通過(guò)深度學(xué)習(xí)在許多Atari游戲里獲得高分,擊敗強(qiáng)大的人類玩家,其中Montezuma’s Revenge是唯一一款得分為0的游戲,算法未能學(xué)習(xí)如何去玩這個(gè)游戲。

游戲難度高的原因在于它的操作方式與AI agent學(xué)習(xí)的方式不匹配,這也揭示出機(jī)器學(xué)習(xí)存在盲點(diǎn)。

要想AI agent掌握電子游戲的玩法,通常需借助強(qiáng)化學(xué)習(xí)的訓(xùn)練方法。在這種訓(xùn)練中,agent會(huì)被放入虛擬世界,并且會(huì)因?yàn)槟承┙Y(jié)果而獲得獎(jiǎng)勵(lì)(如增加分?jǐn)?shù)),或是受到懲罰(如失去一條命)。AI Agent開(kāi)始隨機(jī)玩游戲,且能學(xué)會(huì)在反復(fù)試驗(yàn)之后改進(jìn)其策略。強(qiáng)化學(xué)習(xí)通常被看作是構(gòu)建智能機(jī)器人的關(guān)鍵方法。

Montezuma's Revenge的問(wèn)題在于它不能為AI agent提供定期獎(jiǎng)勵(lì)。這是一個(gè)益智類游戲,玩家必須探索地下金字塔,躲避陷阱和敵人,同時(shí)收集解鎖門(mén)和特殊物品的鑰匙。如果你正在訓(xùn)練AI agent攻克這款游戲,可以在它活著通過(guò)各個(gè)房間并收集鑰匙時(shí)給予其一定的獎(jiǎng)勵(lì)。但是你該如何教他保存其他物品的鑰匙,并使用這些物品來(lái)克服陷阱并完成關(guān)卡呢?

答案就是:好奇心。

在OpenAI的研究中,他們的agent獲得獎(jiǎng)勵(lì)不僅僅是因?yàn)樘^(guò)尖峰,還為了探索金字塔的新板塊。探索新板塊的好奇心是一大動(dòng)力,也促成了agent在游戲中優(yōu)于人類的表現(xiàn),機(jī)器人在9次闖關(guān)中平均得分10000(人類平均得分4000)。OpenAI稱,在一次運(yùn)行中,agent甚至通過(guò)了第一關(guān)。

OpenAI的Harrison Edwards告訴The Verge:“我們目前已經(jīng)開(kāi)發(fā)出一個(gè)可以探索大量房間,獲得大量獎(jiǎng)勵(lì),偶爾還能闖過(guò)第一關(guān)的系統(tǒng)!辈⒀a(bǔ)充道,游戲的其他關(guān)卡跟第一關(guān)類似,游戲通關(guān)“只是時(shí)間問(wèn)題。”

攻克“NOISY TV PROBLEM”

OpenAI并非第一家嘗試這種方法的實(shí)驗(yàn)室,AI研究人員幾十年來(lái)一直在利用“好奇心”的概念作為誘因。他們之前也曾將此應(yīng)用于Montezuma’s Revenge,但如果沒(méi)有指導(dǎo)人工智能從人類的例子中學(xué)習(xí),就不會(huì)如此成功。

然而,盡管這里的一般理論已經(jīng)確立,但構(gòu)建特定解決方案仍然具有挑戰(zhàn)性。例如,基于預(yù)測(cè)的好奇心僅在學(xué)習(xí)某些類型的游戲時(shí)有用。它適用于馬里奧這類游戲,游戲過(guò)程中探索空間大,關(guān)卡設(shè)置多,且充斥著從未見(jiàn)過(guò)的怪物。但對(duì)于Pong這種簡(jiǎn)單游戲,AI agent更愿意打持久戰(zhàn),而不是真正擊敗他們的對(duì)手。(或許是因?yàn)橼A得比賽比游戲中球的路徑更好預(yù)測(cè)。)

另一個(gè)實(shí)驗(yàn)是“Noisy TV problem”,實(shí)驗(yàn)中已被編程為尋找新體驗(yàn)的AI agent沉迷于隨機(jī)模式,例如調(diào)諧至靜態(tài)噪音的電視。這是因?yàn)閍gent對(duì)“有趣”和“新”的感覺(jué)來(lái)源于他們預(yù)測(cè)未來(lái)的能力。在采取某種行動(dòng)之前,他們會(huì)預(yù)測(cè)游戲之后的情況。如果他們猜對(duì)了,很可能是他們之前已經(jīng)看過(guò)這個(gè)關(guān)卡了。這種機(jī)制被稱為“預(yù)測(cè)錯(cuò)誤”。

但因?yàn)殪o態(tài)噪聲是不可預(yù)測(cè)的,實(shí)驗(yàn)中AI agent被放入迷宮中,任務(wù)是找到獎(jiǎng)勵(lì)最高的物體。環(huán)境中還有一臺(tái)電視,電視上的頻道可由遙控器隨機(jī)轉(zhuǎn)換,因?yàn)槊看螕Q臺(tái)的結(jié)果是不可預(yù)測(cè)的、令人驚訝的,面對(duì)這樣電視(或類似不可預(yù)測(cè)的刺激),AI agent變得十分迷惑。OpenAI將這個(gè)問(wèn)題與沉迷于老虎機(jī)的人類賭徒進(jìn)行了比較,人們不知道接下來(lái)會(huì)發(fā)生什么,所以不舍得就此離開(kāi)。

OpenAI的這項(xiàng)新研究通過(guò)改變AI預(yù)測(cè)未來(lái)的方式巧妙地回避了這個(gè)問(wèn)題。準(zhǔn)確的方法(稱為Random Network Distillation)十分復(fù)雜,Edwards和他的同事Yuri Burda將其解釋為在游戲的每個(gè)界面中設(shè)置一些隱藏信息,等著人工智能去挖掘。這個(gè)隱藏任務(wù)是隨機(jī)的,無(wú)多大意義(Edwards建議道,比方說(shuō)“屏幕左上角的顏色是什么?”),但可以激勵(lì)agent繼續(xù)探索游戲,而不會(huì)讓它過(guò)分容易地受到噪音電視陷阱的影響。

值得注意的是,這個(gè)激勵(lì)因素并不需要大量的計(jì)算,這點(diǎn)非常重要。強(qiáng)化學(xué)習(xí)的方法依賴大量數(shù)據(jù)來(lái)訓(xùn)練AI agent,所以訓(xùn)練中的每一步都需要盡可能快速的完成。

來(lái)自Unity的軟件工程師Arthur Juliani,同時(shí)還是一位機(jī)器學(xué)習(xí)方面的專家,他表示,這正是OpenAI研究工作的亮點(diǎn)所在。Juliani告訴The Verge:“OpenAI使用的方法非常簡(jiǎn)單,卻非常有效。縱觀過(guò)去應(yīng)用于游戲的探索方法,復(fù)雜有余,且基本上沒(méi)有給科技圈帶來(lái)多少印象深刻的結(jié)果,相比起來(lái),OpenAI的方法就簡(jiǎn)單得多了!

Juliani表示,鑒于Montezuma’s Revenge不同關(guān)卡之間的相似性,OpenAI目前完成的工作基本上等同于攻克整個(gè)游戲了。但他補(bǔ)充道:“事實(shí)上,他們無(wú)法確保每次都能闖過(guò)第一關(guān),這意味著仍然存在一些挑戰(zhàn)。”Juliani還想知道OpenAI的方法是否適用于3D游戲,3D游戲的難度相較其他可能更大,視覺(jué)特征更加微妙,且游戲中第一人稱視角遮擋了大部分界面。

“3D游戲里,在需要探索的情景中,環(huán)境各部分之間的差異更為微妙,這種方法的實(shí)際表現(xiàn)可能不會(huì)太好,”Juliani說(shuō)到。

好奇心

但是為什么我們首先需要具備好奇心的AI呢?具備好奇心的AI跟人類一樣,很容易沉迷于隨機(jī)模式。

最大的原因是好奇心有助于計(jì)算機(jī)進(jìn)行自我學(xué)習(xí)。

如今被廣泛采用的機(jī)器學(xué)習(xí)方法大致可分為兩個(gè)陣營(yíng):第一種,機(jī)器通過(guò)瀏覽大量數(shù)據(jù)來(lái)學(xué)習(xí),并計(jì)算出可以應(yīng)用于類似問(wèn)題的模式;第二種,機(jī)器被投入環(huán)境中,利用強(qiáng)化學(xué)習(xí)方法獲得某些成就,從而獲得獎(jiǎng)勵(lì),也就是用獎(jiǎng)勵(lì)刺激的形式促使機(jī)器學(xué)習(xí)。

這兩種方法在特定任務(wù)中都是有效的,但并非完全依靠機(jī)器自身進(jìn)行,無(wú)論是標(biāo)記培訓(xùn)數(shù)據(jù)還是為虛擬環(huán)境設(shè)計(jì)獎(jiǎng)勵(lì)功能,都離不開(kāi)大量的人工。通過(guò)為人工智能系統(tǒng)提供探索的內(nèi)在誘因,一些工作被消除,人類無(wú)需像從前一樣花費(fèi)過(guò)多精力在機(jī)器學(xué)習(xí)上,在誘因的刺激下,機(jī)器能夠自主學(xué)習(xí)。

OpenAI的Edwards和Burda表示,這種好奇心驅(qū)使的學(xué)習(xí)系統(tǒng)比起設(shè)計(jì)開(kāi)發(fā)在現(xiàn)實(shí)世界中運(yùn)行的計(jì)算機(jī)程序要好得多。畢竟,跟Montezuma’s Revenge一樣,實(shí)際生活中,即時(shí)獎(jiǎng)勵(lì)往往很少,我們都需要長(zhǎng)時(shí)間工作、學(xué)習(xí)和探索才能得到回報(bào)。好奇心能幫助我們繼續(xù)前進(jìn),或許也可以幫助計(jì)算機(jī)。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)