歡迎光臨
每天分享高質量文章

完爆阿爾法狗元,DeepMind用5000臺TPU訓練出新演演算法,1天內稱霸3種棋類


授權轉載自大資料文摘 ID:BigDataDigest

作者:薑範波、Aileen、Yawei Xia、龍牧雪、魏子敏


距離阿爾法狗元版本刷屏一個多月時間,阿爾法狗又進化了,這次不光可以玩圍棋,不再是“狗”了。我一點也不驚訝。


在用阿爾法狗(AlphaGo)和阿爾法狗元(AlphaGo Zero)稱霸圍棋世界後,當地時間週二晚,DeepMind的研究組宣佈已經開發出一個更為廣泛的阿爾法元(AlphaZero)系統,它可以訓練自己在棋盤,將棋和其他規則化遊戲中實現“超人”技能,所有這些都在一天之內完成,並且無需其他幹預,戰績斐然:

  • 4個小時成為了世界級的國際象棋冠軍;

  • 2個小時在將棋上達到世界級水平;

  • 8個小時戰勝DeepMind引以為傲的圍棋選手AlphaGo Zero。

這不禁讓文摘菌想到了落入乾坤一氣袋的張無忌瞬間精進的場景:

在各路高手的真力激蕩之下打通數十處玄關,練成了獨步天下的九陽神功,從此化身武林學霸。短短幾個時辰內就練成了第七層乾坤大挪移,無論是太極拳劍還是聖火令武功都手到擒來,成為武林的百科全書。

儘管如此,阿爾法元(AlphaZero)距離一個真正的通用標的,獨立AI,還有一定的距離 。國際象棋和將棋是比較容易的測試,因為它們比圍棋簡單。而像“星際爭霸2”這樣複雜的影片遊戲完全是另一碼事,更不用說散步、藝術或抽象思維等模糊的概念了。

另外還有速度的問題:雖然用來學習棋盤遊戲的時間少於24小時,但對於AI需要現場適應的情況,速度太慢。DeepMind報告也說,訓練該軟體使用了5064臺功能強大的定製機器學習處理器(被稱為TPU)。(簡直野蠻暴力)

但仍然不可否認,這是人工智慧邁出的重要一步。

回憶人工智慧的歷史,很多人的印象都是一堆“各類技能”冠軍——井字棋、跳棋和國際象棋。幾十年來,研究人員已經研製了一系列超級專業的程式,在越來越高難度的遊戲中擊敗人類。近期在圍棋上,Deepmind的阿爾法狗也超越了人類。但是,這些人造冠軍們的共同弱點是——都只能玩某一種精心設計的遊戲。而人類即使在某些技能上輸了,在精通多種技藝這一點上,仍然完爆人工智慧。

近日,DeepMind官方宣佈了第一個多技能的AI棋類遊戲冠軍程式。當地時間週二晚,Deepmind釋出的一篇論文描述了一款名為AlphaZero的軟體,它可以在三種具有挑戰性的遊戲中自學,表現超越人類:國際象棋,圍棋或將棋(亦稱日本象棋)。

DeepMind在文章中描述了AlphaZero的學習過程。人類不再是國際象棋,圍棋和將棋中最好的選手,所以AlphaZero就用最好的專業人工選手(計算機程式Stockfish、Elmo、AlphaGo Zero)進行測試。這個新程式很快就打敗了這三個人工棋手:

只用了4個小時成為了世界級的國際象棋冠軍;用2個小時在將棋上達到世界級水平;只花了8小時戰勝DeepMind引以為傲、也是之前已知最好的圍棋選手AlphaGo Zero。

圖:經過70萬步訓練的AlphaZero。它的對手是國際象棋的2016TCEC世界冠軍程式Stockfish,將棋的2017CSA世界冠軍程式Elmo,和大家都知道的AlphaGo Zero。每一手棋雙方只有1秒的反應時間。

DeepMind也表示,新程式AlphaZero模仿AlphaGo Zero,透過同樣的自我對練機制學習。AlphaZero核心的演演算法是它的升級版本,能夠搜尋更廣泛的可能策略以適應不同的遊戲。

AlphaZero可以從頭開始學習三個遊戲中的每一個,儘管它需要按照每個遊戲的規則進行程式設計。該程式透過與自己對練提高技能成為專家,嘗試不同的玩法來發現獲勝的途徑。

圖:人類常用的國際象棋的12種開局方式解析

AlphaZero還沒有辦法學會同時參加三場比賽。但是,一個程式學習三種不同的複雜遊戲,能達到如此高的水平,還是驚人的,因為AI系統——包括那些可以“學習”的——通常是非常專業的,需要經歷磨練來解決特定的問題。即使是最好的人工智慧系統也不能在兩個問題之間進行泛化——因此,許多專家認為機器要取代人還有很長一段路要走。

AlphaZero可能是AI系統走向非專門化的一小步。紐約大學教授Julian Togelius在週二釋出的推文中指出,真正泛化的AI還道阻且長,但稱DeepMind的論文“非常出色”。

圖:國際象棋和將棋中,AlphaZero每一手棋的思考時間,和相應的模型表現(Elo)

而DeepMind的這一研究進展對於業界來說也非常重要。更靈活的機器學習軟體可以幫助谷歌加速在業務內部擴充套件人工智慧技術。DeepMind最新發明中的技術也可能幫助團隊挑戰影片遊戲“星際爭霸”(StarCraft),後者已經成為它的下一個標的。一個流行的商業影片遊戲似乎沒有正式而抽象的棋盤遊戲那麼令人生畏。但“星際爭霸”被認為複雜度更高,因為它各種變數和特徵的安排自由度更大,玩家必須預見對手不可見的行為。

相比可以學習三個以上的棋盤遊戲,並能解決各種空間,常識,邏輯,藝術和社會難題的人腦,AlphaZero的智力水平仍然有限。

DeepMind論文中顯示,AlphaZero在三種遊戲中使用了同樣的演演算法設定、神經網路結構和超引數。訓練過程包括70萬步(4096大小的mini-batch),從隨機生成的引數開始,使用了5000臺TPU生成自對抗的棋局,接著使用64臺TPU訓練神經網路。

一共5064臺TPU!文摘菌不得不感慨“何以解憂,唯有暴富”。

相較於阿爾法狗元(AlphaGo Zero)用到的64臺GPU和19臺CPU,AlphaZero的算力可謂得到了指數級提升。演演算法的訓練時間也從阿爾法狗元的“幾天”提升到了現在的“8小時”。

回頭看看戰勝了李世石和柯潔的驚天動地的阿爾法狗,已經顯得像原始人了。它用到了1920臺CPU和280臺GPU,需要訓練幾個月。

人工智慧的發展,有3個驅動力——資料、演演算法、算力。神經網路的“左右互搏”在資料和演演算法上做出了突破,而谷歌的TPU計算資源支援更是AlphaZero致勝的秘訣之一。

從10月底圍棋超人阿爾法狗元的誕生,到12月進化成三種棋類超人阿爾法元,不過只用了短短一個多月的時間。

拓展閱讀:

在這個網站上可以復現AlphaZero和著名國際象棋程式Stockfish的棋譜:

https://lichess.org/study/wxrovYNH

講解AlphaZero在國際象棋中的表現的影片: