人工智能領(lǐng)域面臨極化,巨頭實(shí)驗(yàn)室或?qū)⒅髟譇I未來(lái)
國(guó)際象棋和圍棋曾是孩子的游戲。現(xiàn)在AI正在贏得奪旗游戲。這些技能最終會(huì)轉(zhuǎn)化到現(xiàn)實(shí)世界嗎?
孩子們會(huì)在夏季營(yíng)地開(kāi)放空間玩奪旗這個(gè)游戲;同時(shí),爭(zhēng)奪旗子這個(gè)游戲畫(huà)面也是Quake III和Overwatch等熱門(mén)游戲的一部分。
無(wú)論是哪種情況,這都是一項(xiàng)團(tuán)隊(duì)運(yùn)動(dòng)。每一方都守衛(wèi)一面旗幟,同時(shí)還要計(jì)劃如何抓住對(duì)方的旗幟并將其帶回到自己的大本營(yíng)。贏得比賽需要良好的老式團(tuán)隊(duì)合作以及協(xié)調(diào)防守和攻擊之間的平衡。
換句話(huà)說(shuō),奪得旗幟需要一套看起來(lái)似乎只有人工才能操作的技能。但倫敦一家人工智能實(shí)驗(yàn)室的研究人員表明,機(jī)器也可以攻克這項(xiàng)游戲,至少在虛擬世界中是可以的。
在五月三十日發(fā)表在《科學(xué)》雜志上的一篇論文中,研究人員稱(chēng)他們?cè)赒uake III游戲的奪旗環(huán)節(jié)中設(shè)計(jì)了自動(dòng)“代理人”,這些“代理人”表現(xiàn)的就跟人類(lèi)在操作一樣。這些代理人能夠自行組隊(duì)來(lái)對(duì)抗人類(lèi)玩家,也可以與他們并肩作戰(zhàn),根據(jù)情況相應(yīng)地調(diào)整自己的行為。
隸屬于Alphabet的DeepMind實(shí)驗(yàn)室的研究員Wojciech Czarnecki表示:“這些代理人可以適應(yīng)具有任意技能的隊(duì)友!
通過(guò)數(shù)千小時(shí)的游戲,代理人學(xué)會(huì)了非常特殊的技能,比如在隊(duì)友即將獲得旗幟的情況下極速跑去攻擊對(duì)手的大本營(yíng)。正如人類(lèi)玩家所知,當(dāng)對(duì)方旗幟被奪得并帶到自己的大本營(yíng)時(shí),對(duì)家的大本營(yíng)中會(huì)出現(xiàn)一面可以搶奪的新旗。
DeepMind的項(xiàng)目是努力構(gòu)建人工智能應(yīng)用于復(fù)雜三維動(dòng)畫(huà)游戲的一部分,這些三維動(dòng)畫(huà)游戲包括Quake III、Dota 2和星際爭(zhēng)霸II。許多研究人員認(rèn)為:虛擬領(lǐng)域的成功最終將提升現(xiàn)實(shí)世界中人工智能的應(yīng)用能力。
例如,這些技能可以使倉(cāng)庫(kù)機(jī)器人受益——當(dāng)他們分組工作將貨物從一個(gè)地方移動(dòng)到另一個(gè)地方時(shí),或者幫助自動(dòng)駕駛汽車(chē)在交通擁堵時(shí)集中導(dǎo)航。位于舊金山的OpenAI實(shí)驗(yàn)室有著類(lèi)似研究項(xiàng)目,項(xiàng)目負(fù)責(zé)人Greg Brockman說(shuō)道:“游戲一直是AI的基準(zhǔn)。如果不能攻克游戲難題,就不能指望AI解決其他問(wèn)題!
直到最近,在像Quake III這樣的游戲中構(gòu)建一個(gè)可以匹配人類(lèi)玩家的系統(tǒng)才成為可能,以前看來(lái)似乎是不可能的。但是在過(guò)去的幾年里,DeepMind、OpenAI以及其他實(shí)驗(yàn)室取得了重大進(jìn)展,這要?dú)w功于一種稱(chēng)為“強(qiáng)化學(xué)習(xí)”的數(shù)學(xué)技術(shù),這種技術(shù)使得機(jī)器能通過(guò)極端的反復(fù)試驗(yàn)和試錯(cuò)來(lái)學(xué)習(xí)。
通過(guò)一遍又一遍地玩游戲,這些自動(dòng)代理人可以了解哪些策略能成功,哪些策略不成功。如果代理人在隊(duì)友即將奪旗的情況下通過(guò)向?qū)κ值拇蟊緺I(yíng)移動(dòng)而不斷贏得更多積分,則會(huì)將這種策略添加到他的游戲策略中。
在2016年,同樣使用這項(xiàng)基礎(chǔ)技術(shù),DeepMind研究人員構(gòu)建了使得AlphaGo在東方圍棋游戲中擊敗世界頂級(jí)玩家的系統(tǒng)。鑒于圍棋游戲的巨大復(fù)雜性,許多專(zhuān)家曾認(rèn)為這種突破不會(huì)這么早實(shí)現(xiàn),而是起碼將在未來(lái)十年內(nèi)完成。
尤其是當(dāng)涉及到隊(duì)友之間的協(xié)調(diào)時(shí),第一人稱(chēng)視頻游戲的復(fù)雜程度是呈指數(shù)級(jí)的增長(zhǎng)的。DeepMind的代理人通過(guò)大約45萬(wàn)輪游戲來(lái)學(xué)習(xí)如何奪得旗幟,在數(shù)周的訓(xùn)練中便積累了需要大約4年的游戲經(jīng)驗(yàn)。起初,代理人慘遭失敗。但通過(guò)學(xué)習(xí)突襲對(duì)手大本營(yíng)時(shí)應(yīng)該如何追隨隊(duì)友,他們逐漸了解到了這個(gè)游戲的精髓。
在完成這個(gè)項(xiàng)目以后,DeepMind的研究人員還設(shè)計(jì)了一個(gè)可以擊敗星際爭(zhēng)霸II專(zhuān)業(yè)玩家的系統(tǒng)。在OpenAI實(shí)驗(yàn)室,研究人員構(gòu)建了一個(gè)掌握Dota 2的系統(tǒng),Dota 2這個(gè)游戲就像奪得旗幟的加強(qiáng)版本。今年四月,由五名代理人組成的團(tuán)隊(duì)擊敗了由五名世界上最優(yōu)秀的人類(lèi)玩家組成的玩家團(tuán)隊(duì)。
去年,人稱(chēng)Blitz的專(zhuān)業(yè)Dota 2玩家兼評(píng)論員William Lee與代理人進(jìn)行過(guò)一對(duì)一比賽,當(dāng)時(shí)的版本不允許團(tuán)隊(duì)?wèi)?zhàn);在當(dāng)時(shí),William對(duì)此表示興趣平平。但是當(dāng)代理人繼續(xù)學(xué)習(xí)比賽并且參加團(tuán)隊(duì)?wèi)?zhàn)時(shí),他對(duì)代理人的技巧感到震驚。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
4月30日立即下載>> 【村田汽車(chē)】汽車(chē)E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線(xiàn)下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線(xiàn)會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專(zhuān)題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類(lèi)新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線(xiàn)自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?