찾다
기술 주변기기일체 포함알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

체스는 항상 AI의 시험장이었습니다. 70년 전, 앨런 튜링(Alan Turing)은 스스로 학습하고 경험을 통해 지속적으로 발전할 수 있는 체스 게임 기계를 만드는 것이 가능할 것이라는 가설을 세웠습니다. 지난 세기에 등장한 '딥블루'는 처음으로 인간을 이겼으나 인간의 체스 지식을 암호화하기 위해 전문가에 의존했고, 2017년 탄생한 알파제로는 튜링의 추측을 신경망 기반 강화학습 기계로 실현했다.

AlphaZero는 인위적으로 설계된 휴리스틱 알고리즘을 사용할 필요도 없고 인간이 체스를 두는 것을 지켜볼 필요도 없으며 전적으로 체스 자체를 두는 방식으로 훈련됩니다.

그렇다면 정말 체스에 대한 인간의 개념을 배우는 걸까요? 이것은 신경망 해석 가능성 문제입니다.

이에 대한 응답으로 AlphaZero의 저자인 Demis Hassabis는 DeepMind의 동료 및 Google Brain의 연구원과 협력하여 AlphaZero의 신경망에서 인간 체스 개념의 증거를 찾는 연구를 진행했으며, 훈련 중에 네트워크가 어떻게 획득했는지 보여줍니다. 이러한 개념의 배치는 또한 AlphaZero가 인간과 다른 체스 플레이 스타일을 드러냈습니다. 이 논문은 최근 PNAS에 게재되었습니다.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

문서 주소: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero는 훈련을 통해 인간 체스 개념을 습득합니다.

AlphaZero의 네트워크 아키텍처에는 다음이 포함됩니다. 백본 네트워크 잔여 네트워크(ResNet)와 별도의 정책 헤드 및 값 헤드는 네트워크 블록과 스킵 연결로 구성된 일련의 레이어로 구성됩니다.

훈련 반복 측면에서 AlphaZero는 무작위로 초기화된 매개변수가 있는 신경망으로 시작하여 반복적으로 자신과 체스를 두고 체스 말의 위치 평가를 학습하며 생성된 데이터를 기반으로 여러 번 훈련됩니다. 프로세스.

AlphaZero 네트워크가 인간이 이해하는 체스 개념을 얼마나 잘 나타내는지 확인하기 위해 이 연구에서는 희소 선형 프로빙 방법을 사용하여 훈련 중 네트워크 매개변수의 변화를 인간이 이해할 수 있는 개념의 변화로 매핑했습니다.

그림 1의 주황색으로 표시된 것처럼 개념을 사용자 정의 함수로 정의하는 것부터 시작하세요. 일반화된 선형 함수 g는 체스 개념 c에 근접하기 위한 프로브로 훈련됩니다. 근사값 g의 품질은 레이어가 개념을 얼마나 잘 (선형적으로) 인코딩하는지 나타냅니다. 주어진 개념에 대해 각 네트워크의 모든 계층에 대한 훈련 프로세스 중에 생성된 네트워크 시퀀스에 대해 프로세스가 반복됩니다.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

그림 1: AlphaZero 네트워크에서 인간이 인코딩한 체스 개념 탐색(파란색).

예를 들어 함수를 사용하여 우리 편이나 장소에 "주교"(♗)가 있는지 확인할 수 있습니다.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

물론 이보다 더 복잡한 체스 개념이 많이 있습니다. 예를 들어 체스 말 Mobility(이동성)의 경우 체스 말을 움직일 때 우리와 적의 점수를 비교하는 함수를 작성할 수 있습니다.

이 실험에서는 체스의 특정 분야에 대한 지식을 요약하여 개념 함수를 미리 지정했습니다.

다음 단계는 프로브를 훈련시키는 것입니다. 연구원들은 ChessBase 데이터 세트에서 자연적으로 발생하는 10^5개의 체스 위치를 훈련 세트로 사용하고 깊이 d의 네트워크 활성화로부터 희소 회귀 프로브 g를 훈련하여 주어진 개념 c의 값을 예측했습니다.

AlphaZero 자체 학습 주기의 다양한 훈련 단계에서 네트워크를 비교하고 각 네트워크의 다양한 계층에 있는 다양한 개념 프로브의 점수를 비교함으로써 네트워크가 특정 개념을 학습한 시간과 위치를 알 수 있습니다. 추출되었습니다.

마지막으로 "계산되는 개념이 무엇인지", "네트워크에서 계산이 발생하는 위치", "개념이 언제 나타나는지"에 대한 세 가지 지표인 각 개념의 언제 어디서 다이어그램을 얻습니다. 네트워크 훈련 중" 시각화. 그림 2와 같습니다.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

그림 2: A부터 B까지의 개념은 '총점 평가', '일반화되었는가', '위협 평가', '적을 물리칠 수 있는가' 편의 여왕?", "적의 움직임이 우리 편을 죽일 것인가?", "말의 힘의 점수 평가", "말의 힘의 점수", "우리에게 왕의 병사가 있습니까?"

그림 C에서 볼 수 있듯이 AlphaZero가 강력해짐에 따라 "위협" 개념의 기능과 AlphaZero의 표현(선형 프로브로 감지할 수 있음)이 점점 더 관련성이 없어집니다.

이러한 What-When-Where 플롯에는 감지 방법을 비교하는 데 필요한 두 개의 기준선이 포함됩니다. 하나는 레이어 0에 표시된 입력 회귀이고 다른 하나는 훈련 시 무작위 가중치를 사용하는 네트워크 활성화의 회귀입니다. 모든 곳에 0단계가 표시됩니다. 위 그림의 결과로부터 회귀 정확도의 변화는 전적으로 네트워크 표현의 변화에 ​​의해 결정된다는 결론을 내릴 수 있습니다.

그리고 많은 What, When, Where 그래프의 결과는 동일한 패턴을 보여줍니다. 즉, 전체 네트워크의 회귀 정확도는 약 32k 단계까지 매우 낮으며, 네트워크 깊이가 증가하면 후속 레이어에서 안정화되고 변경되지 않습니다. 따라서 모든 개념 관련 계산은 네트워크 초기에 상대적으로 발생하는 반면 후속 잔차 블록은 이동 선택을 수행하거나 주어진 개념 집합 외부의 기능을 계산합니다.

또한 훈련이 진행됨에 따라 AlphaZero의 표현을 통해 인간이 정의한 많은 개념을 높은 예측 정확도로 예측할 수 있습니다.

더 발전된 개념의 경우 연구원들은 AlphaZero가 이를 마스터한 위치에서 차이점을 발견했습니다. 첫째, 2k 훈련 단계에서 0과 크게 다른 개념은 "물질"과 "공간"입니다. "king_safety", "위협" 및 "이동성"과 같은 더 복잡한 개념은 8k 훈련 단계에서 0과 크게 다릅니다. 0이며 32,000개의 훈련 단계가 끝날 때까지 실질적으로 증가하지 않습니다. 이 결과는 그림 2의 What-When-Where 플롯에 표시된 급격한 상승점과 일치합니다. 알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

또한 대부분의 What-When-Where 그래프의 주목할만한 특징은 네트워크의 회귀 정확도가 처음에는 급격히 증가하다가 정체기에 도달하거나 감소한다는 것입니다. 이는 지금까지 AlphaZero에서 발견된 일련의 개념이 네트워크의 초기 레이어만 감지하고 이후 레이어를 이해하려면 새로운 개념 감지 기술이 필요함을 시사합니다.

AlphaZero의 오프닝 전략은 인간과 다릅니다

AlphaZero가 인간의 체스 개념을 학습한 것을 관찰한 후, 연구원들은 오프닝 전략 측면에서 AlphaZero의 체스 전술에 대한 이해를 더욱 탐구했습니다. 왜냐하면 오프닝의 선택은 플레이어가 관련 개념에 대한 이해도 의미하기 때문입니다. .

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

연구원들은 AlphaZero와 인간이 서로 다른 개방 전략을 가지고 있음을 관찰했습니다. 시간이 지남에 따라 AlphaZero는 선택 범위를 좁힌 반면 인간은 선택 범위를 확장했습니다.

그림 3A는 흰색의 첫 번째 움직임에 대한 인류의 선호의 역사적 진화를 보여줍니다. 초기 단계에서는 e4가 첫 번째 움직임으로 인기를 얻었고 나중에는 개방 전략이 더욱 균형 잡히고 유연해졌습니다.

그림 3B는 훈련 단계와 함께 AlphaZero의 개방 전략의 진화를 보여줍니다. 보시다시피 AlphaZero는 항상 모든 옵션에 균등한 가중치를 두는 것부터 시작한 다음 점차적으로 옵션의 범위를 좁혀갑니다.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

그림 3: 훈련 단계 및 시간에 대한 첫 번째 단계에 대한 AlphaZero와 인간 선호도의 비교.

이는 e4부터 점진적으로 확장되는 인간 지식의 진화와 뚜렷한 대조를 이루는 반면 AlphaZero는 훈련 후반 단계에서 분명히 d4를 선호합니다. 그러나 자가 플레이 훈련은 탐색을 용이하게 하기 위해 많은 무작위성이 추가된 빠른 플레이를 기반으로 하기 때문에 이러한 선호도를 과도하게 설명할 필요는 없습니다.

이 차이의 이유는 불분명하지만 인간과 인공 신경망의 근본적인 차이를 반영합니다. 한 가지 가능한 요인은 인간 체스에 대한 역사적 데이터가 마스터 플레이어의 집단적 지식을 강조하는 반면 AlphaZero의 데이터에는 초보자 수준의 체스 플레이와 단일 진화 전략이 포함되어 있다는 것입니다.

그렇다면 AlphaZero의 신경망이 여러 번 훈련되면 특정 개방 전략에 대해 안정적인 선호도를 보일까요?

연구 결과, 이러한 선호도는 다양한 훈련에서 안정적이지 않은 경우가 많으며 AlphaZero의 개방 전략은 매우 다양합니다. 예를 들어, 클래식 Ruy Lopez 오프닝(일반적으로 "스페인 오프닝"으로 알려짐)에서 AlphaZero는 초기 단계에서 검정색을 선택하는 것을 선호하며 일반적인 플레이 방식, 즉 1.e4 e5, 2.Nf3 Nc6, 3을 따릅니다. .Bb5.

알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재

그림 4: Ruy Lopez 시작

다른 학습에서 AlphaZero는 점차적으로 3.f6 및 3.a6 중 하나로 수렴됩니다. 또한 AlphaZero 모델의 다양한 버전은 각각 특정 작업에 대해 다른 작업보다 강한 선호도를 보였으며 이러한 선호도는 훈련 초기에 확립되었습니다.

이것은 성공적인 체스 플레이에는 다양성이 있다는 추가적인 증거이며, 이러한 다양성은 인간과 기계 사이뿐만 아니라 AlphaZero의 다양한 훈련 반복에도 존재합니다.

알파제로의 지식 습득 과정

그렇다면, 위의 오프닝 전략 연구 결과와 알파제로의 개념 이해는 어떤 연관이 있을까요?

이번 연구를 통해 다양한 개념의 What-When-Where 그래프에 뚜렷한 변곡점이 있음을 발견했는데, 이는 개방 선호도의 중요한 변화와 일치합니다. 특히, 소재와 모빌리티의 개념은 개방성과 직접적인 관련이 있는 것으로 보입니다. 오프닝 전략 .

재료의 개념은 주로 훈련 단계 10k와 30k 사이에 학습되었으며, 같은 기간 동안 조각 이동성의 개념은 점차 AlphaZero의 가치 머리에 통합되었습니다. 체스 말의 물질적 가치에 대한 기본적인 이해는 체스 말의 이동성에 대한 이해보다 먼저 이루어져야 합니다. 그런 다음 AlphaZero는 이 이론을 25,000개에서 60,000개 훈련 단계 사이의 개방 설정에 통합했습니다.

저자는 체스에 대한 AlphaZero 네트워크 지식의 진화를 추가로 분석했습니다. 먼저 체스의 힘을 발견한 다음, 주로 이동성과 관련된 개념, 마지막으로 개선 단계에서 짧은 시간 내에 기본 지식의 폭발적인 성장을 이루었습니다. 신경망의 개방 전략은 수십만 개의 훈련 단계를 통해 개선됩니다. 전체적인 학습 시간은 길지만 구체적인 기본 능력은 상대적으로 짧은 시간 내에 빠르게 발현됩니다.

이 결론을 뒷받침하기 위해 전 세계 체스 챔피언 Vladimir Kramnik도 참여했으며, 그의 관찰은 위의 과정과 일치했습니다.

마지막으로 이 작업은 AlphaZero 네트워크에서 학습한 체스판 표현이 많은 인간 체스 개념을 재구성할 수 있음을 보여주고, 네트워크에서 학습한 개념적 내용, 훈련 시간에 개념을 학습하는 데 걸리는 시간, 계산 개념 네트워크 위치. 더욱이 AlphaZero의 체스 플레이 스타일은 인간과 동일하지 않습니다.

이제 인간이 정의한 체스 개념의 관점에서 신경망을 이해했으므로 다음 질문은 다음과 같습니다. 신경망이 인간 지식 이상의 것을 배울 수 있습니까?

위 내용은 알파제로의 블랙박스가 오픈되었습니다! PNAS에 DeepMind 논문 게재의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
ai合并图层的快捷键是什么ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开谷歌超强AI超算碾压英伟达A100!TPU v4性能提升10倍,细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

ai顶部属性栏不见了怎么办ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑GPT-4的研究路径没有前途?Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元AI抢饭碗成真!近500家美国企业用ChatGPT取代员工,有公司省下超10万美元Apr 07, 2023 pm 02:57 PM

自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。然鹅,现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计,在1000多家受访美国企业中,用ChatGPT取代部分员工的,比例已达到惊人的48%。在这些企业中,有49%已经启用ChatGPT,还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道:相关话题还曾一度冲上了知乎热榜,众网友表示,不得不承认,现在ChatGPT等AIGC工具已势不可挡——浪潮既来,不进则退。有程序员还指出:用过Copil

ai移动不了东西了怎么办ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구