這已經(jīng)不是什么秘密,機(jī)器學(xué)習(xí)模型調(diào)整和調(diào)整,以近乎完美的表現(xiàn)在實(shí)驗(yàn)室中真正的設(shè)置往往會失敗。這通常歸因于AI經(jīng)過訓(xùn)練和測試的數(shù)據(jù)與它在世界上遇到的數(shù)據(jù)之間的不匹配,這就是數(shù)據(jù)移位問題。例如,訓(xùn)練有素的AI可以在高質(zhì)量的醫(yī)學(xué)圖像中發(fā)現(xiàn)疾病跡象,而在繁忙的診所中,這些圖像將被廉價相機(jī)捕獲的模糊或裁剪圖像所困擾。
現(xiàn)在,由來自Google的七個不同團(tuán)隊的40名研究人員組成的小組已經(jīng)確定了導(dǎo)致機(jī)器學(xué)習(xí)模型普遍失敗的另一個主要原因。被稱為“規(guī)格不足”的問題可能比數(shù)據(jù)移位更大。負(fù)責(zé)這項(xiàng)研究的Alex D'Amour表示:“我們要求的機(jī)器學(xué)習(xí)模型超出了我們現(xiàn)有方法所不能保證的范圍。”規(guī)格不足是統(tǒng)計中的已知問題,其中觀察到的影響可能有許多可能的原因。擁有因果推理背景的D'Amour想知道為什么自己的機(jī)器學(xué)習(xí)模型在實(shí)踐中經(jīng)常失敗。他想知道規(guī)格不足是否也是這里的問題。D'Amour很快意識到,許多同事在自己的模型中都注意到了同樣的問題。他說:“實(shí)際上這是一個現(xiàn)象,到處都是。”
D'Amour的初步調(diào)查如雨后春筍般涌現(xiàn),數(shù)十名Google研究人員最終研究了從圖像識別到自然語言處理(NLP)到疾病預(yù)測的各種不同的AI應(yīng)用程序。他們發(fā)現(xiàn)規(guī)格不足歸咎于所有人的表現(xiàn)不佳。問題出在對機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練和測試的方式上,而且沒有容易解決的方法。
iRobot的機(jī)器學(xué)習(xí)工程師布蘭登·羅勒(Brandon Rohrer)說,這篇論文是“令人震驚的球”,他曾在Facebook和Microsoft工作過,但并未參與這項(xiàng)工作。
相同但不同
要確切了解正在發(fā)生的事情,我們需要備份一點(diǎn)。粗略地講,建立機(jī)器學(xué)習(xí)模型涉及對大量示例進(jìn)行訓(xùn)練,然后對許多尚未見過的類似示例進(jìn)行測試。模型通過測試后,就可以完成。
Google研究人員指出的是,這個門檻太低了。訓(xùn)練過程可以產(chǎn)生許多都通過測試的不同模型,但是,這是關(guān)鍵部分,這些模型將以小的任意方式有所不同,具體取決于像在訓(xùn)練開始之前為神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)賦予隨機(jī)值之類的事情,選擇或表示訓(xùn)練數(shù)據(jù)的方式,訓(xùn)練的運(yùn)行次數(shù)等。如果這些微小的,通常是隨機(jī)的差異不影響模型在測試中的表現(xiàn),通常會被忽略。但事實(shí)證明,它們可能導(dǎo)致現(xiàn)實(shí)世界中的性能發(fā)生巨大變化。
換句話說,當(dāng)今用于構(gòu)建大多數(shù)機(jī)器學(xué)習(xí)模型的過程無法確定哪些模型可以在現(xiàn)實(shí)世界中工作,哪些模型不能在現(xiàn)實(shí)世界中工作。