人類多余嗎?AI想超越人類可沒那么容易
今年五月份舉行的烏鎮(zhèn)圍棋峰會(huì)上,AlphaGo擊敗柯潔之后可以說在圍棋界里已是“獨(dú)孤求敗”的境界了,幾乎無人是其對(duì)手。人們?cè)谫澷p的同時(shí),也想看到是否會(huì)出現(xiàn)一個(gè)對(duì)手,能夠?qū)LphaGo拉下馬。
事實(shí)就是這樣,越想著什么越會(huì)發(fā)生什么。ALphaGo終于遇到了自己的對(duì)手,這個(gè)對(duì)手甚至以摧枯拉朽之勢擊敗了ALphaGo。
就在上周,據(jù)外媒報(bào)道,英國DeepMind團(tuán)隊(duì)在《自然》雜志上發(fā)表了相關(guān)論文,介紹了新一代的圍棋AI:ALphaGo Zero。使用了強(qiáng)化學(xué)習(xí)技術(shù)的ALphaGo Zero可以通過自我對(duì)弈進(jìn)行訓(xùn)練,棋力大幅度增長,輕輕松松擊敗了曾經(jīng)不可一世的ALphaGo。人們?cè)俅伪徽痼@了,就連柯潔都發(fā)出了“人類多余”的感嘆。
圖片源自微博
ALphaGo Zero到底是何方神圣?
可能有的人認(rèn)為,這沒有什么特別的。ALphaGo Zero是ALphaGo的強(qiáng)化版,比ALphaGo經(jīng)歷了更多的數(shù)據(jù)演練,打敗ALphaGo很正常。然而事實(shí)并不是這么簡單。
在過去,AlphaGo都是使用專業(yè)人類棋手的對(duì)局?jǐn)?shù)據(jù)來進(jìn)行訓(xùn)練,可以說是人類棋手的指導(dǎo)下,讓它一步步的成長起來。而ALphaGo Zero完全不同,它采用了強(qiáng)化學(xué)習(xí)技術(shù),從隨機(jī)對(duì)局開始,不依靠任何人類專家的對(duì)局?jǐn)?shù)據(jù)或者人工監(jiān)管,而是讓其通過自我對(duì)弈來提升棋藝。
據(jù)了解,ALphaGo Zero經(jīng)過3天的訓(xùn)練,就已經(jīng)可以擊敗AlphaGo Lee(去年擊敗韓國頂尖棋手李世石的系統(tǒng)),比分為100比0。經(jīng)歷40天訓(xùn)練后,它總計(jì)運(yùn)行了大約2900萬次自我對(duì)弈,又擊敗AlphaGo Master(今年擊敗世界冠軍柯潔的系統(tǒng)),且比分為89比11。要是說ALphaGo對(duì)陣人類只是略勝一籌,那對(duì)陣ALphaGoZero簡直就是被碾壓的局面。
DeepMind團(tuán)隊(duì)表示,ALphaGo Zero之所以那么強(qiáng),原因在于它采取的強(qiáng)化學(xué)習(xí)技術(shù)。他們發(fā)現(xiàn)AlphaGo Zero自我對(duì)弈僅幾十天,就掌握了人類幾百年來來研究出來的圍棋技術(shù)。由于整個(gè)對(duì)弈過程沒有采用人類的數(shù)據(jù),因此ALphaGo Zero的棋路獨(dú)特,不再拘泥于人類現(xiàn)有的圍棋理論。
何謂強(qiáng)化學(xué)習(xí)技術(shù)?
到底什么是強(qiáng)化學(xué)習(xí)技術(shù)呢?簡單地說,強(qiáng)化學(xué)習(xí)就是讓AI從中學(xué)習(xí)到能夠獲得最大回報(bào)的策略。AlphaGo Zero的強(qiáng)化學(xué)習(xí)主要包含兩個(gè)部分,蒙特卡洛樹搜索算法與神經(jīng)網(wǎng)絡(luò)算法。
在這兩種算法中,神經(jīng)網(wǎng)絡(luò)算法可根據(jù)當(dāng)前棋面形勢給出落子方案,以及預(yù)測當(dāng)前形勢下哪一方的贏面較大;蒙特卡洛樹搜索算法則可以看成是一個(gè)對(duì)于當(dāng)前落子步法的評(píng)價(jià)和改進(jìn)工具,它能夠模擬出AlphaGo Zero將棋子落在哪些地方可以獲得更高的勝率。
AlphaGo Zero的自我強(qiáng)化學(xué)習(xí),圖片源自Nature
假如AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)算法計(jì)算出的落子方案與蒙特卡洛樹搜索算法輸出的結(jié)果越接近,則勝率越大,即回報(bào)越高。因此,每落一顆子,AlphaGo Zero都要優(yōu)化神經(jīng)網(wǎng)絡(luò)算法中的參數(shù),使其計(jì)算出的落子方案更接近蒙特卡洛樹搜索算法的結(jié)果,同時(shí)盡量減少勝者預(yù)測的偏差。
剛開始,AlphaGo Zero的神經(jīng)網(wǎng)絡(luò)完全不懂圍棋,只能盲目落子。但經(jīng)歷無數(shù)盤自我對(duì)弈后,AlphaGo Zero終于從圍棋菜鳥成長為了一代棋神。
AI雖強(qiáng),但超越人類可沒那么容易
我們可以看到,ALphaGo Zero與它的前任相比,技術(shù)上實(shí)現(xiàn)了質(zhì)的飛躍。DeepMind團(tuán)隊(duì)也表示,希望通過培養(yǎng)AI自主學(xué)習(xí)的能力,來解決更多其他領(lǐng)域目前無法解決的棘手問題。但是仍有很多人對(duì)于AlphaGo Zero的這種進(jìn)化表示了深切的擔(dān)憂。
美國加州伯克利大學(xué)博士@Ent_evo就專門針對(duì)ALphaGo Zero發(fā)表了一篇博文,在文中評(píng)論道:這對(duì)人類來說是個(gè)很大的打擊。當(dāng)年AlphaGo至少還學(xué)習(xí)了大量的人類經(jīng)驗(yàn),但是AlphaGo Zero根本就不需要人類棋手這么多年的積累,人類經(jīng)驗(yàn)是好是壞,對(duì)AI而言完全無關(guān),這是所有AI末世中最令人恐懼的一個(gè)場景。
這不禁讓人想起著名物理學(xué)家斯蒂芬·霍金在2017全球移動(dòng)互聯(lián)網(wǎng)大會(huì)(GMIC)發(fā)表的演講。他表示,人工智能的崛起很有可能終結(jié)人類文明。
但是也有不少業(yè)內(nèi)人士對(duì)此表示不用擔(dān)心。新松機(jī)器人總裁曲道奎在接受媒體采訪時(shí)表示,Zero的分量被夸大了,這次突破只能算人工智能在圍棋領(lǐng)域的勝利,但要完成超越人類其他行業(yè)的水平卻為時(shí)尚早。就技術(shù)層面而言,Zero解決了圍棋問題,但更多的問題比如自然語言理解、圖像理解、推理等問題仍然存在。
在筆者看來,ALphaGo Zero的誕生帶來了許多積極意義。它從零開始,證明了“算法優(yōu)先于數(shù)據(jù)”這條長期以來一直爭論的觀點(diǎn);它能夠擺脫對(duì)人類的依賴,不需要人類給出樣本數(shù)據(jù),這為廣泛的行業(yè)應(yīng)用提供了更多可能。
雖然人工智能如此強(qiáng)大,但是“人類多余”的言論還是說的過于嚴(yán)重了。即使ALphaGo Zero是通過自我學(xué)習(xí)進(jìn)行成長,但是它依然沒有屬于自己的思維能力。歸根結(jié)底,AI也只不過是由人類為了某些需求而用技術(shù)加持的一個(gè)工具罷了。這個(gè)工具雖然強(qiáng)大,但超越人類可沒那么容易。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?