アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました-AI-php.cn

ホームページ

テクノロジー周辺機器

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

王林

Apr 12, 2023 pm 08:37 PM

aiニューラルネットワーク

チェスは常に AI の実験場でした。 70 年前、アランチューリングは、自ら学習し、自身の経験から継続的に改善できるチェスマシンを構築することが可能であるという仮説を立てました。前世紀に出現した「ディープ・ブルー」は初めて人類を破ったが、人間のチェスの知識を暗号化するのは専門家に依存しており、2017年に誕生したアルファゼロはニューラルネットワーク駆動の強化学習マシンとしてチューリング予想を実現した。

AlphaZero は、人工的に設計されたヒューリスティックを使用したり、人間がチェスをプレイするのを観察したりする必要はなく、完全にそれ自体と対戦することによってトレーニングされます。

それでは、チェスについての人間の概念を本当に学習したのでしょうか?これはニューラルネットワークの解釈可能性の問題です。

これに関して、AlphaZero の作者である Demis Hassabis は、DeepMind の同僚および Google Brain の研究者と協力して、AlphaZero のニューラルネットワーク内で人間のチェスの概念の証拠を見つける研究を行いました。トレーニングの過程で、ネットワークはこれらの概念を獲得し、AlphaZero のチェスのプレイスタイルが人間とは異なることも発見します。この論文は最近 PNAS に掲載されました。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

#文書アドレス: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero はトレーニングで人間のチェスの概念を取得します

AlphaZero のネットワークアーキテクチャには、バックボーンネットワーク残余ネットワーク (ResNet) と個別のポリシーヘッドとバリューヘッドが含まれています。ResNet は A シリーズで構成されていますネットワークブロックとスキップ接続で構成される層の数。

トレーニングの反復に関しては、AlphaZero はランダムに初期化されたパラメーターを持つニューラルネットワークから開始し、それ自体に対して繰り返し再生し、ピースの位置の評価を学習し、データに基づいて複数のテストを実行します。プロセス中に生成されるトレーニング時間。

AlphaZero ネットワークが人間の持つチェスの概念をどの程度表現しているかを判断するために、この研究では、スパース線形プローブ法を使用して、トレーニング中のネットワークのパラメーターの変化をマッピングしました。人間が理解できる概念で。

図 1 のオレンジ色に示すように、概念をユーザー定義関数として定義することから始めます。一般化線形関数 g は、チェスの概念 c を近似するためのプローブとしてトレーニングされます。近似 g の品質は、層が概念をどの程度うまく (線形に) エンコードしているかを示します。特定の概念について、このプロセスは、各ネットワークのすべての層のトレーニングプロセス中に生成されたネットワークシーケンスに対して繰り返されます。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 1: AlphaZero ネットワークで人間がエンコードしたチェスの概念を探索する (青)。

たとえば、関数を使用して、私たちの国または場所に「司教」がいるかどうかを判断できます (♗):

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

もちろん、この例よりも複雑なチェスの概念はたくさんあります。たとえば、チェスの駒の可動性については、こちらと敵のスコアを比較する関数を作成できます。動く駒。

この実験では、概念関数が事前に指定されており、チェスの特定の分野の知識がカプセル化されています。

次のステップは、プローブをトレーニングすることです。研究者らは、ChessBase データセット内の 10^5 の自然に発生するチェスの局面をトレーニングセットとして使用し、深さ d のネットワークアクティベーションからスパース回帰プローブ g をトレーニングして、特定の概念 c の値を予測しました。

AlphaZero 自己学習サイクルのさまざまなトレーニングステップでのネットワークと、各ネットワークのさまざまな層でのさまざまなコンセプトプローブのスコアを比較することで、ネットワークが持つ情報を抽出できます。時間と場所という特定の概念について学びました。

最後に、各概念の「いつ、どこで、何を計算するか」の図が得られます。これは、「計算される概念は何か」、「ネットワーク内のどこで計算が行われるか」、「概念がいつ行われるか」に関するものです。ネットワークトレーニング中に表示される」これら 3 つの指標を視覚化します。図 2 に示すように。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図2：AからBまでの概念は「総合スコアの評価」と「負けたか？」、「脅威の評価」、「敵の女王を捕まえることができるか」、「敵の動きで殺されるか」、「駒のスコアの評価」、「駒のスコア」、「我々の側に王国の兵士はいますか？」

C 図では、AlphaZero が強力になるにつれて、「脅威」概念の機能と AlphaZero の表現 (これは、リニアプローブ) の変更はますます重要ではなくなります。

このような「いつ、どこで」プロットには、検出方法の比較に必要な 2 つのベースラインが含まれています。1 つはレイヤー 0 で示される入力回帰で、もう 1 つはネットワークからのものです。ランダムな重みアクティブ化された回帰。トレーニングステップ 0 で示されます。上図の結果から、回帰精度の変化は完全にネットワーク表現の変化によって決定されると結論付けることができます。

さらに、多くの What-When-Where グラフの結果は同じパターンを示しています。つまり、ネットワーク全体の回帰精度は、約 32k ステップまでは非常に低く、その後はネットワークの深さが増すにつれて急速に増加し、その後安定し、後続の層では変化しません。したがって、すべての概念関連の計算はネットワークの比較的早い段階で行われ、その後の残差ブロックは移動選択を実行するか、指定された概念セットの外で特徴を計算します。

さらに、トレーニングが進むにつれて、人間が定義した多くの概念が、AlphaZero の表現から高い予測精度で予測できるようになります。

より高度な概念については、研究者は、AlphaZero がそれらを習得する場所に違いがあることを発見しました。まず、2k トレーニングステップでゼロから大きく異なる概念は「マテリアル」と「空間」であり、「king_safety」、「脅威」、「モビリティ」などのより複雑な概念は、8k トレーニングステップでゼロから大きく異なります。ゼロであり、32,000 トレーニングステップが終了するまで大幅には増加しません。この結果は、図 2 の「いつ、どこで」プロットで示されている急激な上昇点と一致しています。アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

さらに、ほとんどの What-When-Where グラフの注目すべき特徴は、ネットワークの回帰精度が最初に急速に増加し、その後プラトーに達するか低下することです。これは、AlphaZero からこれまでに発見された一連の概念はネットワークの初期の層のみを検出し、後の層を理解するには新しい概念検出技術が必要であることを示唆しています。

AlphaZero の序盤戦略は人間とは異なります

AlphaZero が人間のチェスの概念を学習したことを観察した後、研究者らは、序盤戦略の観点から AlphaZero のチェスの戦術の理解をさらに調査しました。 , なぜなら、オープニングの選択は、プレイヤーが関連する概念を理解していることも意味するからです。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

研究者らは、AlphaZero が人間とは異なる開始戦略を持っていることを観察しました。時間の経過とともに、AlphaZero は選択肢を狭めましたが、人間はその範囲を拡大しました。選択肢。

図 3A は、白の初手に対する人間の好みの歴史的進化を示しています。初期段階では、初手として e4 を使用するのが一般的でした。その後、序盤の戦略は次のようになりました。よりバランスが取れ、より柔軟になります。

図 3B は、AlphaZero のオープニング戦略の進化をトレーニングステップとともに示しています。ご覧のとおり、AlphaZero は常にすべてのオプションを均等に評価することから始めて、徐々にオプションを絞り込んでいきます。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 3: トレーニングのステップと時間に対する最初のステップに対する AlphaZero と人間の好みの比較。

これは、人間の知識の進化が e4 から徐々に拡大するのに対し、AlphaZero は明らかにトレーニングの後期段階で d4 を支持するのとは対照的です。ただし、セルフプレイトレーニングは、探索を容易にするために多くのランダム性が追加されたクイックプレイに基づいているため、この好みについて詳しく説明する必要はありません。

この違いの理由は不明ですが、人間と人工ニューラルネットワークの根本的な違いを反映しています。考えられる要因の 1 つは、人間のチェスの歴史的データがマスタープレイヤーの集合的な知識を強調しているのに対し、AlphaZero のデータには初心者レベルのチェスのプレイと単一の進化した戦略が含まれていることです。

では、AlphaZero のニューラルネットワークが複数回トレーニングされた場合、特定のオープニング戦略に対して安定した優先順位を示すのでしょうか?

調査結果では、多くの場合、この好みはトレーニングが異なると安定せず、AlphaZero のオープニング戦略は非常に多様です。たとえば、古典的な Ruy Lopez のオープニング (一般に「スパニッシュオープニング」として知られています) では、AlphaZero は初期段階で黒を選択することを好み、典型的なプレイ方法、つまり 1.e4 e5、2.Nf3 Nc6、3 に従います。 .Bb5。

アルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されました

図 4: ルイ・ロペスがスタート

そして別のトレーニングで、 AlphaZero は、3.f6 または 3.a6 のいずれかに徐々に収束します。さらに、AlphaZero モデルのさまざまなバージョンはそれぞれ、あるアクションを別のアクションよりも強く好むことを示しており、この好みはトレーニングの早い段階で確立されました。

これは、成功するチェスのプレイが人間と機械の間だけでなく、AlphaZero のさまざまなトレーニング反復間でも多様であることのさらなる証拠です。

AlphaZero の知識習得のプロセス

それでは、オープニング戦略に関する上記の研究結果と AlphaZero の概念理解との間にはどのような関係があるのでしょうか?

この研究では、さまざまなコンセプトの「いつ、どこで」のグラフに明確な変曲点があり、これは開口部の好み、特に素材とモビリティの大幅な変化と一致していることがわかりました。はオープニング戦略に直接関係しているようです。

マテリアルの概念は主にトレーニングステップ 10k と 30k の間に学習され、ピースモビリティの概念は同じ期間に AlphaZero のバリューヘッドに徐々に統合されます。チェス駒の物質的価値についての基本的な理解は、チェス駒の可動性についての理解に先立って行う必要があります。 AlphaZero は、この理論を 25k から 60k のトレーニングステップの間の初期設定に組み込みました。

著者は、チェスに関する AlphaZero ネットワークの知識の進化をさらに分析しました: 最初にチェスの強さの発見、次に主に移動性に関連する基本的な知識が短期間で爆発的に増加しましたいくつかの概念、そして最後に、ニューラルネットワークの開始戦略が数十万のトレーニングステップにわたって洗練される洗練フェーズです。全体の学習時間は長くなりますが、特定の基礎能力は比較的短期間ですぐに身につきます。

元チェスの世界チャンピオン、ウラジミール・クラムニク氏もこの結論を支持するために招かれましたが、彼の観察は上記のプロセスと一致していました。

最後に、この研究は、AlphaZero ネットワークによって学習されたチェス盤表現が多くの人間のチェスの概念を再構築できることを実証し、トレーニング時にかかった時間でネットワークによって学習された概念的な内容を詳しく説明します。コンセプトと、計算されたコンセプトのネットワーク上の場所を学習します。さらに、AlphaZero のチェスのプレイスタイルは人間と同じではありません。

人間が定義したチェスの概念という観点からニューラルネットワークを理解したところで、次の疑問は、ニューラルネットワークは人間の知識を超えたものを学習できるのかということです。

以上がアルファゼロのブラックボックスが開かれる！ DeepMind の論文が PNAS に掲載されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ai合并图层的快捷键是什么Jan 07, 2021 am 10:59 AM

ai合并图层的快捷键是“Ctrl+Shift+E”，它的作用是把目前所有处在显示状态的图层合并，在隐藏状态的图层则不作变动。也可以选中要合并的图层，在菜单栏中依次点击“窗口”-“路径查找器”，点击“合并”按钮。

ai橡皮擦擦不掉东西怎么办Jan 13, 2021 am 10:23 AM

ai橡皮擦擦不掉东西是因为AI是矢量图软件，用橡皮擦不能擦位图的，其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

谷歌超强AI超算碾压英伟达A100！TPU v4性能提升10倍，细节首次公开Apr 07, 2023 pm 02:54 PM

虽然谷歌早在2020年，就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日，谷歌才首次公布了这台AI超算的技术细节。论文地址：https://arxiv.org/abs/2304.01433相比于TPU v3，TPU v4的性能要高出2.1倍，而在整合4096个芯片之后，超算的性能更是提升了10倍。另外，谷歌还声称，自家芯片要比英伟达A100更快、更节能。与A100对打，速度快1.7倍论文中，谷歌表示，对于规模相当的系统，TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式吗Feb 22, 2023 pm 05:56 PM

ai可以转成psd格式。转换方法：1、打开Adobe Illustrator软件，依次点击顶部菜单栏的“文件”-“打开”，选择所需的ai文件；2、点击右侧功能面板中的“图层”，点击三杠图标，在弹出的选项中选择“释放到图层（顺序）”；3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”；4、在弹出的“导出”对话框中，将“保存类型”设置为“PSD格式”，点击“导出”即可；

ai顶部属性栏不见了怎么办Feb 22, 2023 pm 05:27 PM

ai顶部属性栏不见了的解决办法：1、开启Ai新建画布，进入绘图页面；2、在Ai顶部菜单栏中点击“窗口”；3、在系统弹出的窗口菜单页面中点击“控制”，然后开启“控制”窗口即可显示出属性栏。

GPT-4的研究路径没有前途？Yann LeCun给自回归判了死刑Apr 04, 2023 am 11:55 AM

Yann LeCun 这个观点的确有些大胆。「从现在起 5 年内，没有哪个头脑正常的人会使用自回归模型。」最近，图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归，正是当前爆红的 GPT 家族模型所依赖的学习范式。当然，被 Yann LeCun 指出问题的不只是自回归模型。在他看来，当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai移动不了东西了怎么办Mar 07, 2023 am 10:03 AM

ai移动不了东西的解决办法：1、打开ai软件，打开空白文档；2、选择矩形工具，在文档中绘制矩形；3、点击选择工具，移动文档中的矩形；4、点击图层按钮，弹出图层面板对话框，解锁图层；5、点击选择工具，移动矩形即可。

AI抢饭碗成真！近500家美国企业用ChatGPT取代员工，有公司省下超10万美元Apr 07, 2023 pm 02:57 PM

自从ChatGPT掀起浪潮，不少人都在担心AI快要抢人类饭碗了。然鹅，现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计，在1000多家受访美国企业中，用ChatGPT取代部分员工的，比例已达到惊人的48%。在这些企业中，有49%已经启用ChatGPT，还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道：相关话题还曾一度冲上了知乎热榜，众网友表示，不得不承认，现在ChatGPT等AIGC工具已势不可挡——浪潮既来，不进则退。有程序员还指出：用过Copil

See all articles