訂閱
糾錯(cuò)
加入自媒體

人工智能之強(qiáng)化學(xué)習(xí)(RL)

當(dāng)前人工智能之機(jī)器學(xué)習(xí)算法主要有7大類:1)監(jiān)督學(xué)習(xí)(Supervised Learning),2)無監(jiān)督學(xué)習(xí)(Unsupervised Learning),3)半監(jiān)督學(xué)習(xí)(Semi-supervised Learning),4)深度學(xué)習(xí)(Deep Learning),5)強(qiáng)化學(xué)習(xí)(Reinforcement Learning),6)遷移學(xué)習(xí)(Transfer Learning),7)其他(Others)。

今天我們重點(diǎn)探討一下強(qiáng)化學(xué)習(xí)(RL)。

blob.png

強(qiáng)化學(xué)習(xí)(RL),又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。

那么什么是強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí),主要表現(xiàn)在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)RLS(reinforcement learning system)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少,RLS必須靠自身的經(jīng)歷或能力進(jìn)行學(xué)習(xí)。通過這種方式,RLS在行動(dòng)評(píng)價(jià)的環(huán)境中獲得知識(shí),改動(dòng)方案以適應(yīng)環(huán)境。

通俗的講,就是當(dāng)一個(gè)小孩學(xué)習(xí)有迷;蚶Щ髸r(shí),如果老師發(fā)現(xiàn)小孩方法或思路正確,就給他(她)正反饋(獎(jiǎng)勵(lì)或鼓勵(lì));否則就給他(她)負(fù)反饋(教訓(xùn)或懲罰),激勵(lì)小孩的潛能,強(qiáng)化他(她)自我學(xué)習(xí)能力,依靠自身的力量來主動(dòng)學(xué)習(xí)和不斷探索,最終讓他(她)找到正確的方法或思路,以適應(yīng)外部多變的環(huán)境。

強(qiáng)化學(xué)習(xí)有別于傳統(tǒng)的機(jī)器學(xué)習(xí),不能立即得到標(biāo)記,而只能得到一個(gè)反饋(獎(jiǎng)或罰),可以說強(qiáng)化學(xué)習(xí)是一種標(biāo)記延遲的監(jiān)督學(xué)習(xí)。強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來的。

blob.png

強(qiáng)化學(xué)習(xí)原理:

如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞強(qiáng)化信號(hào),那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。

強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程,Agent選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給Agent,Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。

若已知R/A梯度信息,則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)R與Agent產(chǎn)生的動(dòng)作A沒有明確的函數(shù)形式描述,所以梯度信息R/A無法得到。因此,在強(qiáng)化學(xué)習(xí)系統(tǒng)中,需要某種隨機(jī)單元,使用這種隨機(jī)單元,Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。

強(qiáng)化學(xué)習(xí)模型

強(qiáng)化學(xué)習(xí)模型包括下面幾個(gè)要素:

1)  規(guī)則(policy):規(guī)則定義了Agent在特定的時(shí)間特定的環(huán)境下的行為方式,可以視為是從環(huán)境狀態(tài)到行為的映射,常用 π來表示。可以分為兩類:

確定性的policy(Deterministic policy): a=π(s)

隨機(jī)性的policy(Stochastic policy): π(a|s)=P[At=a|St=t]

其中,t是時(shí)間點(diǎn),t=0,1,2,3,……

St∈S,S是環(huán)境狀態(tài)的集合,St代表時(shí)刻t的狀態(tài),s代表其中某個(gè)特定的狀態(tài);

At∈A(St),A(St)是在狀態(tài)St下的actions的集合,At代表時(shí)刻t的行為,a代表其中某個(gè)特定的行為。

2)  獎(jiǎng)勵(lì)信號(hào)(areward signal):Reward是一個(gè)標(biāo)量值,是每個(gè)time step中環(huán)境根據(jù)agent的行為返回給agent的信號(hào),reward定義了在該情景下執(zhí)行該行為的好壞,agent可以根據(jù)reward來調(diào)整自己的policy。常用R來表示。

3)  值函數(shù)(valuefunction):Reward定義的是立即的收益,而value function定義的是長(zhǎng)期的收益,它可以看作是累計(jì)的reward,常用v來表示。

4)  環(huán)境模型(a modelof the environment):整個(gè)Agent和Environment交互的過程可以用下圖來表示:

blob.png

Agent作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境Environment的當(dāng)前狀態(tài)信息St,對(duì)環(huán)境采取試探行為At,并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)Rt+1和新的環(huán)境狀態(tài)St+1 。如果Agent的某動(dòng)作At導(dǎo)致環(huán)境Environment的正獎(jiǎng)賞(立即報(bào)酬),那么Agent以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,Agent產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在強(qiáng)化學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)的方式不斷修改從狀態(tài)到動(dòng)作的映射策略,達(dá)到優(yōu)化系統(tǒng)性能目的。

blob.png

1  2  下一頁>  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)