人工智能之強(qiáng)化學(xué)習(xí)(RL)
當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類:1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-supervised Learning),4)深度學(xué)習(xí)(Deep Learning),5)強(qiáng)化學(xué)習(xí)(Reinforcement Learning),6)遷移學(xué)習(xí)(Transfer Learning),7)其他(Others)。
今天我們重點(diǎn)探討一下強(qiáng)化學(xué)習(xí)(RL)。
強(qiáng)化學(xué)習(xí)(RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。
那么什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進(jìn)行學(xué)習(xí)。通過這種方式,RLS在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改動(dòng)方案以適應(yīng)環(huán)境。
通俗的講,就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷;蚶Щ髸r(shí),如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎(jiǎng)勵(lì)或鼓勵(lì));否則就給他(她)負(fù)反饋(教訓(xùn)或懲罰),激勵(lì)小孩的潛能,強(qiáng)化他(她)自我學(xué)習(xí)能力,依靠自身的力量來主動(dòng)學(xué)習(xí)和不斷探索,最終讓他(她)找到正確的方法或思路,以適應(yīng)外部多變的環(huán)境。
強(qiáng)化學(xué)習(xí)有別于傳統(tǒng)的機(jī)器學(xué)習(xí),不能立即得到標(biāo)記,而只能得到一個(gè)反饋(獎(jiǎng)或罰),可以說強(qiáng)化學(xué)習(xí)是一種標(biāo)記延遲的監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來的。
強(qiáng)化學(xué)習(xí)原理:
如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。
強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程,Agent選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給Agent,Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。
若已知R/A梯度信息,則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)R與Agent產(chǎn)生的動(dòng)作A沒有明確的函數(shù)形式描述,所以梯度信息R/A無法得到。因此,在強(qiáng)化學(xué)習(xí)系統(tǒng)中,需要某種隨機(jī)單元,使用這種隨機(jī)單元,Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。
強(qiáng)化學(xué)習(xí)模型
強(qiáng)化學(xué)習(xí)模型包括下面幾個(gè)要素:
1) 規(guī)則(policy):規(guī)則定義了Agent在特定的時(shí)間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來表示。可以分為兩類:
確定性的policy(Deterministic policy): a=π(s)
隨機(jī)性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]
其中,t是時(shí)間點(diǎn),t=0,1,2,3,……
St∈S,S是環(huán)境狀態(tài)的集合,St代表時(shí)刻t的狀態(tài),s代表其中某個(gè)特定的狀態(tài);
At∈A(St),A(St)是在狀態(tài)St下的actions的集合,At代表時(shí)刻t的行為,a代表其中某個(gè)特定的行為。
2) 獎(jiǎng)勵(lì)信號(hào)(areward signal):Reward是一個(gè)標(biāo)量值,是每個(gè)time step中環(huán)境根據(jù)agent的行為返回給agent的信號(hào),reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。
3) 值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長(zhǎng)期的收益,它可以看作是累計(jì)的reward,常用v來表示。
4) 環(huán)境模型(a modelof the environment):整個(gè)Agent和Environment交互的過程可以用下圖來表示:
Agent作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境Environment的當(dāng)前狀態(tài)信息St,對(duì)環(huán)境采取試探行為At,并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動(dòng)作At導(dǎo)致環(huán)境Environment的正獎(jiǎng)賞(立即報(bào)酬),那么Agent以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,Agent產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在強(qiáng)化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)的方式不斷修改從狀態(tài)到動(dòng)作的映射策略,達(dá)到優(yōu)化系統(tǒng)性能目的。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?