來自DeepMind,大學學院和哈佛大學的一組研究人員發(fā)現(xiàn),將學習技術(shù)應(yīng)用于AI系統(tǒng)的經(jīng)驗教訓可能有助于解釋獎勵途徑如何在大腦中發(fā)揮作用。該小組在《自然》雜志上發(fā)表的論文中描述了將計算機中的分布強化學習與小鼠大腦中的多巴胺處理進行比較,以及他們從中學到的知識。
先前的研究表明,大腦中產(chǎn)生的多巴胺與獎賞過程有關(guān)-它是在發(fā)生好事時產(chǎn)生的,其表達會帶來愉悅的感覺。一些研究還表明,大腦中對多巴胺的存在做出反應(yīng)的神經(jīng)元都以相同的方式做出反應(yīng)-事件會使人或小鼠感覺好壞。其他研究表明,神經(jīng)元反應(yīng)更多是一個梯度。在這項新工作中,研究人員發(fā)現(xiàn)了支持后一種理論的證據(jù)。
分布式強化學習是一種基于強化的機器學習。在設(shè)計諸如Starcraft II或Go之類的游戲時經(jīng)常使用它。它會跟蹤好動作與壞動作之間的關(guān)系,并學會減少壞動作的數(shù)量,并發(fā)揮更多的性能。但是,這樣的系統(tǒng)不會對所有好的和壞的動作都一視同仁-每個動作在記錄時都經(jīng)過加權(quán),權(quán)重是做出未來動作選擇時所使用的計算的一部分。
研究人員指出,人類似乎也使用類似的策略來提高他們的游戲水平。倫敦的研究人員懷疑,人工智能系統(tǒng)與大腦進行獎勵處理的方式之間的相似性也可能相似。為了確定它們是否正確,他們對小鼠進行了實驗。他們將能夠插入單個多巴胺神經(jīng)元反應(yīng)的設(shè)備插入大腦。然后,對小鼠進行培訓以執(zhí)行一項任務(wù),在這些任務(wù)中,它們會以期望的方式獲得獎勵。
小鼠神經(jīng)元反應(yīng)表明,它們并非都像先前理論所預測的那樣以相同的方式反應(yīng)。取而代之的是,他們以可靠的不同方式做出反應(yīng)-就像團隊所預測的那樣,表明小鼠所體驗到的愉悅程度更多是一種梯度。