最新的AlphaGo Zero 系統 能透過自學技術成長

【本刊訊】記得去年在《圍棋》中一舉擊敗世界頂尖高手的人工智慧程序(artificial intelligence program)── AlphaGo 嗎?挾帶強大的功能,更優化的AlphaGo Zero近期又有更令人出乎意料的表現。發展該程序、任職DeepMind的研究員表示,此系統憑一己之力在遊戲中自我提升,其使用的自學技術(self-teaching technique)亦能多方運用在如交通計畫、藥物研發等領域。

人工智慧程序如何在圍棋遊戲中勝出?它必須在遠多過已知原子數量的排列組合中,於19x19的棋盤裡想方設法圈住對手以占領土地,若以一般電腦來說,模擬各式走法與結果基本上不太可行。初代AlphaGo以2條較複雜的路徑評估移動方式:首先是部屬(rollout)動作,利用搜尋樹(search tree)在遊戲中判斷致勝走法,其後使用神經網路程序偵測該棋局的模式、預測每一步的關鍵與必要性,再輔以為數30萬的走棋資料庫,預測人們在圍棋遊戲中的實戰
狀況,再自我對戰1萬次、訓練其擇步網絡(move-selection network)。至此,AI能在經驗而來的戰局中比對資料,取前期部屬與後期神經網絡的預測平均、進而判斷每步走法是否能帶來勝利。

Alpha Go Zero在這方面的執行較簡單、有效率且具彈性。在判斷的一開始,其將挑揀網絡(move- picking)與預測網絡合而為一,並以新型設備交疊出比初代AlphaGo 更多層的可調式人工神經元(tunable artificial neurons)。經過不斷訓練,神經網路與搜尋樹的資訊逐漸一致且相輔相成,除可以跳過從人類身上學習的步驟、也能省略過程繁瑣的部屬階段。

希爾佛(David Silver)偕同團隊比較AlphaGo Zero 與其他電腦程序的能力、建立評量表「Elo」來比較前後代的差異。初代程序經一個月訓練才打敗韓國好手李(Lee Sedol),新一代的Zero僅花36小時便達標,且評量成績由初代3739分成長到5185分。此外,即便僅4個處理器運行、AlphaGo 亦能在近百種遊戲中輕鬆應戰。阿爾伯塔大學計算機科學家穆勒(Martin
Muller)表示,AlphaGo Zero 各項表現相較於初代更加完整。

如此卓越的表現還能有更多可能嗎?巴黎大學科學家卡山納(Tristan Cazenave)指出,即便與人類對戰耗時較長,AlphaGo Zero卻能發現更多未知的排列與走法。而DeepMind的執行長哈瑟畢斯(Demis Hassabits)認為,或許在某些人類花上數千年還未必能有新發現的領域裡,自學系統很快就能理出一條路,更甚者可能發現新的元素或物質。然而穆勒也提到,該程序仍蒙受規則與限制,如何面對未知、混亂又低結構的世界,值得進一步探討。



Matthew Hutson, This computer program can beat humans at Go—with no human instruction, Science, 2017/10/18

沒有留言:

張貼留言