強(qiáng)化學(xué)習(xí)(RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)系統(tǒng)自身的反復(fù)試驗(yàn)實(shí)現(xiàn)最佳的系統(tǒng)控制。
強(qiáng)化學(xué)習(xí)的概念早在AI興起之前就已經(jīng)存在。強(qiáng)化學(xué)習(xí)的原型已在1950年代作為“最優(yōu)控制”的研究而存在,它可以實(shí)現(xiàn)機(jī)器的自主控制。1990年前后,他在加拿大阿爾伯塔大學(xué)的Richard Sutton教授的帶領(lǐng)下進(jìn)行了積極的研究,他也被稱為強(qiáng)化學(xué)習(xí)的創(chuàng)造者。
“深度強(qiáng)化學(xué)習(xí)”為已存在很長(zhǎng)時(shí)間的強(qiáng)化學(xué)習(xí)帶來(lái)了驚人的技術(shù)進(jìn)步。將深度學(xué)習(xí)應(yīng)用于常規(guī)強(qiáng)化學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的出現(xiàn),觸發(fā)了由強(qiáng)化學(xué)習(xí)在社會(huì)中推動(dòng)的AI的實(shí)現(xiàn)。
為了了解強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí),我們將首先概述諸如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之類的技術(shù)。
監(jiān)督學(xué)習(xí)是一種學(xué)習(xí)方法,其中向計(jì)算機(jī)提供學(xué)習(xí)數(shù)據(jù),其中“輸入”和“正確輸出”鏈接在一起,并且是一種算法,當(dāng)接收到某個(gè)輸入時(shí)會(huì)返回正確的輸出。
例如,一種預(yù)測(cè)房?jī)r(jià)的算法。在這種情況下,將某個(gè)房屋的大小和位置,到車站的距離等鏈接為“輸入”,并將房屋的價(jià)格鏈接為“正確的輸出”。如果您輸入房屋的周圍條件,這將創(chuàng)建一種算法,該算法將猜測(cè)合理的房?jī)r(jià)。
另一方面,在無(wú)監(jiān)督學(xué)習(xí)中,僅將“輸入”數(shù)據(jù)提供給計(jì)算機(jī),并且計(jì)算機(jī)獨(dú)立地提取數(shù)據(jù)中固有的模式。
一個(gè)示例是一種算法,該算法根據(jù)訪問(wèn)超級(jí)市場(chǎng)的??客戶的購(gòu)買數(shù)據(jù)將客戶分為幾類。輸入購(gòu)買數(shù)據(jù)(例如購(gòu)買的產(chǎn)品和商店訪問(wèn)時(shí)間),然后計(jì)算機(jī)獨(dú)立提取類似的購(gòu)買行為并輸出客戶組。該輸出不是人類預(yù)定的。
②強(qiáng)化學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)中,計(jì)算機(jī)學(xué)習(xí)特定“環(huán)境”中的動(dòng)作以最大化為此目的設(shè)置的“獎(jiǎng)勵(lì)(分?jǐn)?shù))”。
典型示例是機(jī)器人步行控制。在這種情況下,機(jī)器人會(huì)獲得“可步行距離”的獎(jiǎng)勵(lì)。然后,機(jī)器人將嘗試通過(guò)不同的方式行走,以最大化行走距離。通過(guò)這樣做,構(gòu)造了具有長(zhǎng)步行距離的算法。