一方面是Stockfish8。這個世界冠軍計劃像炸藥一樣處理棋子,以巨大的力量-每秒產(chǎn)生6000萬次潛在動作。在這數(shù)百萬個動作中,Stockfish選出了最好的動作-“最佳”動作是由計算機科學(xué)家和國際象棋大師共同設(shè)計的復(fù)雜,手動調(diào)整的算法定義的。該算法重視典當(dāng)位置及其國王安全性等因素之間的微妙平衡。
另一方面是一個名為AlphaZero的新程序(“零”意味著循環(huán)中沒有任何人類知識),這是一種象棋引擎,在某種程度上比Stockfish弱得多,其每秒移動速度僅為對手的1/100 。但是AlphaZero是完全不同的機器。它沒有通過外部專家設(shè)計的算法來推斷“最佳”動作,而是通過一種稱為機器學(xué)習(xí)的人工智能技術(shù)自行學(xué)習(xí)策略。它的程序員只是用國際象棋的基本規(guī)則對其進行了調(diào)整,并允許它自己對戰(zhàn)幾百萬場比賽。據(jù)了解,AlphaZero逐漸制定了自己的策略。
頭對頭的戰(zhàn)斗是驚人的。在100場比賽中,AlphaZero從未輸過。AI引擎憑借令人眼花sacrifice亂的犧牲,冒險的舉動和漂亮的風(fēng)格贏得了比賽(贏得了28場比賽,其余比賽都吸引了其他人),這是計算機國際象棋世界中全新的風(fēng)格。
英國國際象棋大師Matthew Sadler和數(shù)學(xué)家以及國際象棋大師Natasha Regan仍在他們的新書Game Changer中拼湊出AlphaZero的策略是如何工作的。我們僅在其中一款游戲中就打破了兩招,以展示出侵略性的風(fēng)格,表現(xiàn)以及人類可以從我們的新國際象棋冠軍那里學(xué)到什么。