人體運(yùn)動(dòng)控制一直很有效地自然,高效地執(zhí)行復(fù)雜的運(yùn)動(dòng),而無(wú)需花費(fèi)太多的精力。這是因?yàn)橹袠猩窠?jīng)系統(tǒng)(CNS)中存在運(yùn)動(dòng)協(xié)同作用。運(yùn)動(dòng)協(xié)同作用使中樞神經(jīng)系統(tǒng)可以使用較小的變量集來(lái)控制一大群肌肉。從而簡(jiǎn)化了對(duì)協(xié)調(diào)復(fù)雜運(yùn)動(dòng)的控制。
現(xiàn)在,東北大學(xué)的研究人員在使用深度強(qiáng)化學(xué)習(xí)(DRL)算法的機(jī)器人代理中觀察到了類似的概念。
DRL使機(jī)器人代理可以在其虛擬環(huán)境中學(xué)習(xí)最佳操作。它可以解決復(fù)雜的機(jī)器人任務(wù),同時(shí)最大程度地減少手動(dòng)操作并達(dá)到最佳性能。另一方面,經(jīng)典算法需要人工干預(yù)才能為出現(xiàn)的每個(gè)新任務(wù)找到特定的解決方案。
然而,將人類之間的電機(jī)協(xié)同作用應(yīng)用于機(jī)器人世界并非易事。盡管許多研究支持在人類和動(dòng)物運(yùn)動(dòng)控制中采用運(yùn)動(dòng)協(xié)同作用,但背景過(guò)程仍是未知之?dāng)?shù)。
在當(dāng)前的研究中,東北大學(xué)的研究人員在行走機(jī)器人代理上使用了兩種DRL算法,分別稱為HalfCheetah和FullCheetah。這兩種算法分別是TD3(經(jīng)典DRL)和SAC(高性能DRL)。
這兩個(gè)機(jī)器人代理的任務(wù)是在給定的時(shí)間內(nèi)盡可能地向前奔跑。機(jī)器人特工總共完成了300萬(wàn)步。沒(méi)有針對(duì)DRL使用協(xié)同作用信息,但是機(jī)器人特工證明了運(yùn)動(dòng)過(guò)程中運(yùn)動(dòng)協(xié)同作用的出現(xiàn)。
東北大學(xué)教授和該研究的合著者林光光弘(Mitsuhiro Hayashibe)指出:“我們首先以定量的方式證實(shí),即使在深度學(xué)習(xí)中,運(yùn)動(dòng)協(xié)同作用也可以像人類一樣出現(xiàn)。”Hayashibe教授補(bǔ)充說(shuō):“在進(jìn)行深度學(xué)習(xí)之后,機(jī)器人代理通過(guò)利用電機(jī)協(xié)同作用改善了電機(jī)性能,同時(shí)限制了能耗。”
展望未來(lái),研究人員旨在探索更多具有不同身體模型的任務(wù),以進(jìn)一步證實(shí)他們的發(fā)現(xiàn)。