四分鐘對打300多次，Google教會機器人打乒乓球-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

四分鐘對打300多次，Google教會機器人打乒乓球

王林

Apr 10, 2023 am 09:11 AM

Google機器人

讓一位乒乓球愛好者和機器人對打，按照機器人的發展趨勢來看，誰輸誰贏還真說不準。

機器人擁有靈巧的可操作性、腿部運動靈活、抓握能力出色… 已被廣泛應用於各種挑戰任務。但在與人類互動緊密的任務中，機器人的表現又是如何呢？就拿乒乓球來說，這需要雙方高度配合，而且球的運動非常快速，這對演算法提出了重大挑戰。

在乒乓球比賽中，首要的就是速度和精準度，這對學習演算法提出了很高的要求。同時，這項運動具有高度結構化（具有固定的、可預測的環境）和多智能體協作（機器人可以與人類或其他機器人一起對打）兩大特點，使其成為研究人機互動和強化學習問題的理想實驗平台。

來自Google的機器人研究團隊已經建立了這樣一個平台來研究機器人在多人、動態和互動環境中學習所面臨的問題。谷歌為此也特別寫了一篇博客，來介紹他們一直在研究的兩個項目 Iterative-Sim2Real（i-S2R）和 GoalsEye。 i-S2R 讓機器人能夠與人類玩家進行超過 300 次的對打，而 GoalsEye 則使機器人能夠從業餘愛好者那裡學習到一些有用的策略（目標條件策略）。

i-S2R 策略讓機器人和人類對打，雖然機器人的握拍姿勢看起來不太專業，但也不會漏掉一個球：

四分鐘對打300多次，Google教會機器人打乒乓球

#你來我往，還挺像那麼回事，妥妥打出了高質量球的感覺。

而GoalsEye 策略則能將球回到桌面指定位置，就和指哪打哪差不多：

四分鐘對打300多次，Google教會機器人打乒乓球

i-S2R：利用模擬器與人類合作進行遊戲

在這個計畫中，機器人旨在學習與人類合作，即盡可能長時間地與人類進行對打。由於直接針對人類玩家進行訓練既乏味又耗時，因此Google採用了基於模擬的方法。然而，這又面臨一個新的問題，基於模擬的方法很難準確地模擬人類行為、閉環互動任務等。

在 i-S2R 中，Google提出了一種在人機互動任務中可以學習人類行為的模型，並在機器人乒乓球平台上對其進行實例化。谷歌已經建立了一個系統，可以與業餘人類玩家一起實現高達 340 次擊球對打（如下所示）。

四分鐘對打300多次，Google教會機器人打乒乓球

人與機器人對打4 分鐘，來回多達340 次

##學習人類行為模式

讓機器人準確的學習人類行為還面臨以下問題：如果一開始就沒有足夠好的機器人策略，就無法收集關於人類如何與機器人互動的高品質數據。但如果沒有人類行為模型，從一開始就無法獲得機器人策略，這個問題有點繞，就像先有雞還是先有蛋的問題。一種方法是直接在現實世界中訓練機器人策略，但這通常很慢，成本高昂，並且會帶來與安全相關的挑戰，當人們參與其中時，這些挑戰會進一步加劇。

如下圖所示，i-S2R 使用一個簡單的人類行為模型作為近似起點，並在模擬訓練和現實世界部署之間交替進行。每次迭代中，人類行為模型和策略都會被調整。

四分鐘對打300多次，Google教會機器人打乒乓球 #