手机免费看国产欧美精品_久久精品国产9久久综合_免费无码一区二区三区视频_亚洲综合精品一二三区在线

您的位置:首頁(yè)>AI>

什么是人工智能機(jī)制與深度強(qiáng)化學(xué)習(xí)和利用實(shí)例

強(qiáng)化學(xué)習(xí)(RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)系統(tǒng)自身的反復(fù)試驗(yàn)實(shí)現(xiàn)最佳的系統(tǒng)控制。

強(qiáng)化學(xué)習(xí)的概念早在AI興起之前就已經(jīng)存在。強(qiáng)化學(xué)習(xí)的原型已在1950年代作為“最優(yōu)控制”的研究而存在,它可以實(shí)現(xiàn)機(jī)器的自主控制。1990年前后,他在加拿大阿爾伯塔大學(xué)的Richard Sutton教授的帶領(lǐng)下進(jìn)行了積極的研究,他也被稱為強(qiáng)化學(xué)習(xí)的創(chuàng)造者。

“深度強(qiáng)化學(xué)習(xí)”為已存在很長(zhǎng)時(shí)間的強(qiáng)化學(xué)習(xí)帶來(lái)了驚人的技術(shù)進(jìn)步。將深度學(xué)習(xí)應(yīng)用于常規(guī)強(qiáng)化學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的出現(xiàn),觸發(fā)了由強(qiáng)化學(xué)習(xí)在社會(huì)中推動(dòng)的AI的實(shí)現(xiàn)。

為了了解強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí),我們將首先概述諸如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之類的技術(shù)。

監(jiān)督學(xué)習(xí)是一種學(xué)習(xí)方法,其中向計(jì)算機(jī)提供學(xué)習(xí)數(shù)據(jù),其中“輸入”和“正確輸出”鏈接在一起,并且是一種算法,當(dāng)接收到某個(gè)輸入時(shí)會(huì)返回正確的輸出。

例如,一種預(yù)測(cè)房?jī)r(jià)的算法。在這種情況下,將某個(gè)房屋的大小和位置,到車站的距離等鏈接為“輸入”,并將房屋的價(jià)格鏈接為“正確的輸出”。如果您輸入房屋的周圍條件,這將創(chuàng)建一種算法,該算法將猜測(cè)合理的房?jī)r(jià)。

另一方面,在無(wú)監(jiān)督學(xué)習(xí)中,僅將“輸入”數(shù)據(jù)提供給計(jì)算機(jī),并且計(jì)算機(jī)獨(dú)立地提取數(shù)據(jù)中固有的模式。

一個(gè)示例是一種算法,該算法根據(jù)訪問(wèn)超級(jí)市場(chǎng)的??客戶的購(gòu)買數(shù)據(jù)將客戶分為幾類。輸入購(gòu)買數(shù)據(jù)(例如購(gòu)買的產(chǎn)品和商店訪問(wèn)時(shí)間),然后計(jì)算機(jī)獨(dú)立提取類似的購(gòu)買行為并輸出客戶組。該輸出不是人類預(yù)定的。

②強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)中,計(jì)算機(jī)學(xué)習(xí)特定“環(huán)境”中的動(dòng)作以最大化為此目的設(shè)置的“獎(jiǎng)勵(lì)(分?jǐn)?shù))”。

典型示例是機(jī)器人步行控制。在這種情況下,機(jī)器人會(huì)獲得“可步行距離”的獎(jiǎng)勵(lì)。然后,機(jī)器人將嘗試通過(guò)不同的方式行走,以最大化行走距離。通過(guò)這樣做,構(gòu)造了具有長(zhǎng)步行距離的算法。

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!