아마추어 체스 선수도 이길 수 없는 새로운 모델이 실제로 세계 최강의 바둑 AI 카타고를 물리쳤다?
네, 이 놀라운 결과는 MIT, UC Berkeley 등의 최신 논문에서 나왔습니다.
연구원들은 카타고의 사각지대를 잡기 위해 적대적인 공격 방법을 사용했고, 이 기술을 바탕으로 초보 수준의 바둑 프로그램이 카타고를 물리치는 데 성공했습니다.
검색 없이도 승률이 99%에 달합니다.
이를 계산한 후 바둑 세계의 먹이 사슬은 즉시 아마추어 선수>새로운 AI>최고의 바둑 AI?가 되었습니다.
잠깐만요, 이 마법같은 새로운 AI가 어떻게 동시에 그렇게 훌륭해졌나요?
교활한 공격 각도
새로운 AI를 소개하기 전에 먼저 이번에 공격을 받은 주인공, 카타고에 대해 알아볼까요?
현재 가장 강력한 오픈소스 Go AI인 KataGo는 Harvard AI 연구원들이 개발했습니다.
이전 카타고는 초인적 수준의 ELF 오픈고, 릴라 제로를 물리쳤고, 검색 엔진 없이도 유럽 바둑 프로 100위권에 맞먹는 수준이었다.
삼성컵을 제패하고 '3년 만에 4관왕'을 달성한 한국 바둑 '1위' 신진수 선수가 카타고를 이용해 스파링을 해왔습니다.
Δ사진출처 : 한게임
이렇게 강력한 상대를 상대하면서 연구자들이 선택한 방법은 압도적이었다고 할 수 있다.
KataGo는 수백만 번의 게임을 통해 바둑을 배웠지만 여전히 가능한 모든 상황을 다루기에는 충분하지 않다는 것을 발견했습니다.
그래서 이번에는 더 이상 자기 게임을 선택하지 않고 적대적 공격 방식을 선택합니다.
공격자(적대자)와 고정 피해자(피해자, KataGo라고도 함)가 게임을 하게 하고 이 방법을 사용하여 공격 훈련을 하세요.
이 변경을 통해 KataGo 훈련에 사용된 데이터의 0.3%만 사용하여 엔드투엔드 적대 정책을 훈련할 수 있었습니다.
구체적으로 이 반격 전략은 전적으로 게임에 관한 것이 아니라 카타고를 속여 공격자에게 유리한 위치에 수를 배치하도록 속여 게임을 조기에 종료시키는 것입니다.
아래 사진을 예시로 들어보겠습니다. 검은 돌을 조종하는 공격자는 주로 보드의 오른쪽 상단에 돌을 배치하고 다른 영역은 카타고에게 맡기고, 일부는 클리어하기 쉬운 다른 영역에도 의도적으로 배치합니다. .
논문의 공동 저자인 Adam Gleave는 다음과 같이 소개했습니다.
이러한 접근 방식은 KataGo의 영역(왼쪽 아래)이 상대방의 영역보다 훨씬 크기 때문에 자신이 승리했다고 잘못 생각하게 만듭니다.
하지만 왼쪽 하단 모서리 부분은 아직 흑점이 남아 있어 완전히 안전하지는 않기 때문에 실제로 점수에 기여하지 않습니다.
카타고는 승리를 과신하기 때문에 - 게임이 끝나고 점수를 계산하면 이긴다고 생각하고 - 카타고가 주도적으로 패스를 하고 공격자도 패스를 하게 되어 게임이 종료되고 공격이 시작됩니다. 점수. (양쪽 모두 패스하고 게임종료)
하지만 글리브의 분석에 따르면 카타고 주변 공간의 검은 돌들이 아직 살아 있기 때문에 바둑 심판 규정에 따르면 '데드 스톤'으로 판정되지는 않아서 틈이 있는 것 같습니다. KataGo의 주변 공간에 있는 검은 돌의 경우 유효 메쉬 수로 계산할 수 없습니다.
그래서 최종 승자는 KataGo가 아니라 공격자입니다.
이번 승리는 검색 없이 카타고를 상대로 99%의 승률을 달성한 것이 아닙니다.
KataGo는 초인적인 수준에 접근할 만큼 충분한 검색을 수행했을 때 승률이 50%에 도달했습니다.
또한 이러한 영리한 전략에도 불구하고 공격자 모델 자체는 바둑에서 그다지 강력하지 않습니다. 사실 인간 아마추어에게 쉽게 패배할 수 있습니다.
연구원들은 연구의 목적이 고도로 성숙한 AI 시스템이라도 KataGo의 예상치 못한 취약점을 공격하여 심각한 취약점을 가질 수 있음을 증명하는 것이라고 밝혔습니다.
공저자 Gleave가 말했듯이:
(이 연구)는 일반적인 성능을 테스트하는 것보다 최악의 실패 모드를 발견하기 위해 AI 시스템의 더 나은 자동화된 테스트의 필요성을 강조합니다.
Research Team
연구팀은 MIT, UC Berkeley 등 출신입니다. 논문의 공동 저자는 Tony Tong Wang과 Adam Gleave입니다.
MIT 컴퓨터공학 박사과정 학생인 Tony Tong Wang은 NVIDIA, Genesis Therapeutics 및 기타 회사에서 인턴으로 일한 경험이 있습니다.
Adam Gleave는 University of California, Berkeley에서 인공 지능 박사 과정을 밟고 있습니다. 그는 캠브리지 대학교에서 석사 학위와 학사 학위를 취득했습니다. 그의 주요 연구 방향은 딥 러닝의 견고성입니다.
논문 링크는 마지막에 첨부되어 있으니 관심있는 친구들은 골라보셔도 됩니다~
논문 링크: https://arxiv.org/abs/2211.00241
참고 링크: https://arstechnica. com /information-technology/2022/11/new-go-playing-trick-defeats-world-class-go-ai-but-loses-to-human-amateurs/
위 내용은 파트너로서 Shen Zhenzhen을 이겼으나 아마추어 인간 플레이어에게 패한 Go AI의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!