首頁  >  文章  >  科技週邊  >  人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

WBOY
WBOY轉載
2023-04-11 13:34:031468瀏覽

2016年,是人工智慧的崛起之年。

自從AlphaGo完勝圍棋世界冠軍李世石之後,代表圍棋頂尖水準的玩家再也不是人類。

然而,今天金融時報的一篇文章讓圍棋重回人們的視野:人類找到了戰勝AI的方法!

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

蟄伏7年,人類棋手要捲土重來了嗎?

圍棋逆風翻盤,人類戰勝AI?

FT報道稱,來自美國的業餘四段棋手Kellin Pelrine,一舉擊敗了頂級的下棋AI——KataGo。

在15場線下比賽中,Perline在沒有電腦的幫助下,贏得了14場比賽。

而這個讓人類棋手奪回圍棋桂冠的計劃,出自加州研究公司FAR AI的研究人員之手。團隊透過分析AI棋手的弱點加以針對,從而獲得最後的勝利。

FAR AI的執行長Adam Gleave表示:「對我們來說,利用這個系統非常容易。」

Gleave表示,團隊研發的AI在與KataGo進行了100多萬次的對局之後,發現了一個人類玩家可以利用的「bug」。

Pelrine說,他們發現的獲勝策略「對人類來說並不難」,中級玩家可以使用它來擊敗機器。他還使用這種方法擊敗了另一個頂級圍棋系統Leela Zero。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

Kellin Pelrine

FT寫道,雖然有電腦的幫助,但這場決定性的勝利還是為人類棋手打開了一扇大門。

七年前,人工智慧在這項最複雜的遊戲中遙遙領先人類。

由DeepMind設計的AlphaGo系統,在2016年以4比1擊敗了圍棋世界冠軍李世石。李世石也在慘敗三年後宣布退役,稱AlphaGo是「無法擊敗的」。

而對於人工智慧的這種強勢,Pelrine不以為然。在他看來,棋局中大量的組合和變化,意味著電腦不可能評估棋手所有可能的未來招式。

簡單來說,Pelrine使用的策略是「聲東擊西」。

一方面,Pelrine在棋盤的各個角落落子,迷惑AI;另一方面,Pelrine認準AI棋手的一片領域,逐漸將其四周包圍。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

Pelrine說,即使包圍即將完成,AI棋手也沒有註意到這一區的危險。他接著說:「但是身為人類,這些漏洞是很容易被發現的。」

#加州大學柏克萊分校電腦科學教授Stuart Russell說,一些最先進的圍棋遊戲機被發現存在弱點,這表明支撐當今最先進AI的深度學習系統存在根本缺陷。

他表示,這些系統只能「理解」他們經歷過的特定情況,並且無法和人類一樣,對策略進行簡單的概括。

能戰勝AI的,只有AI!

不過嚴格來說,研究人員是透過AI打敗了AI,或者說,用AI幫助人類在圍棋中擊敗AI。

作為參考來源的論文,首次發表於2022年11月並在今年1月進行了更新,作者則分別來自於MIT、UC伯克利等機構。在

文中,研究人員訓練了一個具有抗性策略的AI,進而擊敗了最先進的圍棋人工智慧系統KataGo。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

專案地址:https://goattack.far.ai/adversarial-policy-katago#contents

論文網址:https://arxiv.org/abs/2211.00241

結果顯示,當KataGo不使用搜尋樹時,攻擊者在1000盤棋中取得了100%的勝率,而當KataGo使用足夠多的搜尋時,勝率超過97%。

對此,研究人員強調,對抗性策略AI可以擊敗KataGo,但它卻會被人類業餘愛好者戰勝,同時人類業餘愛好者是打不贏KataGo的。

也就是說,這個AI能夠取勝,並不是因為圍棋下得更好,而是它能誘使KataGo去犯下嚴重的錯誤。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

攻擊策略

在此之前,像是KataGo和AlphaZero等等這些下棋AI,都透過自我博弈進行訓練的。

但在這項被作者稱為「受害者遊戲」(victim-play)的研究中,攻擊者(adversary)需要透過與一個固定的受害者(victim)進行博弈,來訓練自己的勝利策略(不是模仿對手的下法)。

對此,研究人員引入了兩個不同的對抗性MCTS(A-MCTS)策略來解決這個問題。

  • 範本A-MCTS-S:研究人員設定的搜尋過程為:當受害者下棋時,從受害者的策略網路中取樣;輪到攻擊者時,從攻擊者的策略網路中採樣。
  • 遞歸A-MCTS-R:由於A-MCTS-S低估了受害者的實力,因此研究人員提出了一種新的策略A-MCTS-R。然而,這種變化增加了攻擊者訓練和推理的計算複雜性。

具體來說,在A-MCTS-R中,研究人員會在受害者節點上使用一個新的(遞歸)MCTS搜尋來進行模擬,從而取代A-MCTS-S中的受害者採樣步驟。

雖然這不再是一個完美的受害者模型,但它往往比A-MCTS-S更準確,因為後者會錯誤地假設受害者不進行搜尋。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

評估結果如下,具體細節可參考原文。

人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝

以上是人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業餘四段棋手完勝的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除