谷歌提出非監(jiān)督強(qiáng)化學(xué)習(xí)新方法助力智能體發(fā)現(xiàn)多樣化可預(yù)測新技能
近年來強(qiáng)化學(xué)習(xí)的高速發(fā)展已經(jīng)證明監(jiān)督強(qiáng)化學(xué)習(xí)可以在真實(shí)世界中處理包括任意物體的抓取、靈巧的運(yùn)動(dòng)等復(fù)雜的任務(wù)。然而利用精心設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來教會智能體進(jìn)行復(fù)雜的行為卻面臨著顯著的局限性,一方面在設(shè)計(jì)損失函數(shù)上需要大量的工程性工作,對于大量任務(wù)來說幾乎是不可能的。另一方面針對真實(shí)環(huán)境設(shè)計(jì)獎(jiǎng)勵(lì),其復(fù)雜性不僅來自于獎(jiǎng)勵(lì)函數(shù)本身,同時(shí)還需要一系列的環(huán)境基礎(chǔ)設(shè)施(額外的傳感器)或手工標(biāo)注的目標(biāo)狀態(tài)來進(jìn)行輔助。這種獎(jiǎng)勵(lì)函數(shù)工程方式顯示了智能體學(xué)習(xí)復(fù)雜行為的過程,而無監(jiān)督學(xué)習(xí)的出現(xiàn)為這一問題提供了潛在的解決思路。
在監(jiān)督強(qiáng)化學(xué)習(xí)中,來自環(huán)境的外部獎(jiǎng)勵(lì)將引導(dǎo)智能體學(xué)習(xí)期待的行為,強(qiáng)化對環(huán)境進(jìn)行期待的行為改造。而在非監(jiān)督強(qiáng)化學(xué)習(xí)中,整體則利用內(nèi)在的獎(jiǎng)勵(lì)函數(shù)(例如嘗試環(huán)境中不同事物的好奇心)來生成訓(xùn)練信號,從而可以獲得更為廣泛的任務(wù)無關(guān)的技能行為。內(nèi)部獎(jiǎng)勵(lì)函數(shù)可以繞過外部獎(jiǎng)勵(lì)函數(shù)特有的工程問題,在無需額外設(shè)計(jì)的情況下適用于更廣泛更通用的任務(wù)上去。雖然已經(jīng)有很多研究人員聚焦于實(shí)現(xiàn)非監(jiān)督強(qiáng)化學(xué)習(xí)的不同手段,但這是一個(gè)嚴(yán)重欠約束的問題,沒有環(huán)境獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)是很難學(xué)習(xí)到有用的行為的。那么主體和環(huán)境間交互的有效特性是否可以幫助發(fā)現(xiàn)更好的行為(技能)呢?
這篇文章中將介紹關(guān)于非監(jiān)督強(qiáng)化學(xué)習(xí)的最新研究。在DADS(Dynamics-Aware Unsupervised Discovery of Skills)方法中為非監(jiān)督學(xué)習(xí)引入了可預(yù)測的優(yōu)化目標(biāo),將技能的基礎(chǔ)特性視為可以對環(huán)境帶來可預(yù)測的改變,基于這一觀點(diǎn)開發(fā)出了非監(jiān)督強(qiáng)化學(xué)習(xí)技能發(fā)現(xiàn)算法,并在模擬實(shí)驗(yàn)中展示了其廣泛適應(yīng)性。隨后研究人員還改進(jìn)了樣本效率,展示了非監(jiān)督技能發(fā)現(xiàn)對于真實(shí)世界的可行性。
左圖表示隨機(jī)不可預(yù)測的行為,右圖描述了在可預(yù)測環(huán)境中的系統(tǒng)性運(yùn)動(dòng)。本研究的目標(biāo)在于學(xué)習(xí)像右圖一樣潛在的有用行為而無需獎(jiǎng)勵(lì)函數(shù)工程。
DADS概覽
DADS設(shè)計(jì)了一個(gè)內(nèi)部獎(jiǎng)勵(lì)函數(shù)來鼓勵(lì)主體發(fā)現(xiàn)可預(yù)測、多樣性的技能。在以下三種情況下內(nèi)部獎(jiǎng)勵(lì)函數(shù)值很高:(a).不同技能對于環(huán)境的改變不同(鼓勵(lì)多樣性);(b).給定技能在環(huán)境的造成的改變是可預(yù)測的(可預(yù)測性)。由于DADS無法從環(huán)境中獲取任何獎(jiǎng)勵(lì),技能優(yōu)化的多樣性可以使得智能體抓住盡可能多的潛在有效行為。
為了判斷技能是否具有可預(yù)測性,文章中又訓(xùn)練技能動(dòng)力學(xué)網(wǎng)絡(luò),在給定當(dāng)前狀態(tài)和執(zhí)行技能后來預(yù)測環(huán)境狀態(tài)的改變。技能動(dòng)力學(xué)網(wǎng)絡(luò)對于環(huán)境狀態(tài)的預(yù)測越好,對于技能就越是可預(yù)測的。DADS定義的內(nèi)部獎(jiǎng)勵(lì)可以利用任何傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法來最大化。
DADS的概覽圖
這套算法使得多個(gè)不同的主體可以通過與環(huán)境純粹的無獎(jiǎng)勵(lì)交互來發(fā)現(xiàn)可預(yù)測的技能。DADS與先前的算法不同,可以拓展到高維度的連續(xù)控制環(huán)境中,例如人形機(jī)器人、模擬雙足機(jī)器人等。由于DADS可適應(yīng)多種環(huán)境,可用于在方向性的環(huán)境中定位、操控和運(yùn)動(dòng)。下圖展示了一些實(shí)驗(yàn)中的例子。
旋轉(zhuǎn)跳躍、人形仿真的不同步態(tài)、旋轉(zhuǎn)目標(biāo)的不同方法。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會
-
免費(fèi)參會立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國AI產(chǎn)業(yè)正在崛起成全球力量,市場潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用
- 6 國家數(shù)據(jù)局局長劉烈宏調(diào)研格創(chuàng)東智
- 7 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 8 百億AI芯片訂單,瘋狂傾銷中東?
- 9 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 10 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡單