东方AⅤ一级黄片在线_色婷婷狠狠97成为人免费_国产综合色在线精品

強(qiáng)化學(xué)習(xí)(RL)是一種機(jī)器學(xué)習(xí)方法，它通過(guò)系統(tǒng)自身的反復(fù)試驗(yàn)實(shí)現(xiàn)最佳的系統(tǒng)控制。

強(qiáng)化學(xué)習(xí)的概念早在AI興起之前就已經(jīng)存在。強(qiáng)化學(xué)習(xí)的原型已在1950年代作為“最優(yōu)控制”的研究而存在，它可以實(shí)現(xiàn)機(jī)器的自主控制。1990年前后，他在加拿大阿爾伯塔大學(xué)的Richard Sutton教授的帶領(lǐng)下進(jìn)行了積極的研究，他也被稱為強(qiáng)化學(xué)習(xí)的創(chuàng)造者。

“深度強(qiáng)化學(xué)習(xí)”為已存在很長(zhǎng)時(shí)間的強(qiáng)化學(xué)習(xí)帶來(lái)了驚人的技術(shù)進(jìn)步。將深度學(xué)習(xí)應(yīng)用于常規(guī)強(qiáng)化學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的出現(xiàn)，觸發(fā)了由強(qiáng)化學(xué)習(xí)在社會(huì)中推動(dòng)的AI的實(shí)現(xiàn)。

為了了解強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)，我們將首先概述諸如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之類的技術(shù)。

監(jiān)督學(xué)習(xí)是一種學(xué)習(xí)方法，其中向計(jì)算機(jī)提供學(xué)習(xí)數(shù)據(jù)，其中“輸入”和“正確輸出”鏈接在一起，并且是一種算法，當(dāng)接收到某個(gè)輸入時(shí)會(huì)返回正確的輸出。

例如，一種預(yù)測(cè)房?jī)r(jià)的算法。在這種情況下，將某個(gè)房屋的大小和位置，到車站的距離等鏈接為“輸入”，并將房屋的價(jià)格鏈接為“正確的輸出”。如果您輸入房屋的周圍條件，這將創(chuàng)建一種算法，該算法將猜測(cè)合理的房?jī)r(jià)。

另一方面，在無(wú)監(jiān)督學(xué)習(xí)中，僅將“輸入”數(shù)據(jù)提供給計(jì)算機(jī)，并且計(jì)算機(jī)獨(dú)立地提取數(shù)據(jù)中固有的模式。

一個(gè)示例是一種算法，該算法根據(jù)訪問(wèn)超級(jí)市場(chǎng)的??客戶的購(gòu)買數(shù)據(jù)將客戶分為幾類。輸入購(gòu)買數(shù)據(jù)(例如購(gòu)買的產(chǎn)品和商店訪問(wèn)時(shí)間)，然后計(jì)算機(jī)獨(dú)立提取類似的購(gòu)買行為并輸出客戶組。該輸出不是人類預(yù)定的。

②強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)中，計(jì)算機(jī)學(xué)習(xí)特定“環(huán)境”中的動(dòng)作以最大化為此目的設(shè)置的“獎(jiǎng)勵(lì)(分?jǐn)?shù))”。

典型示例是機(jī)器人步行控制。在這種情況下，機(jī)器人會(huì)獲得“可步行距離”的獎(jiǎng)勵(lì)。然后，機(jī)器人將嘗試通過(guò)不同的方式行走，以最大化行走距離。通過(guò)這樣做，構(gòu)造了具有長(zhǎng)步行距離的算法。