アンドリュー・ンが気に入っています！ハーバード大学とマサチューセッツ工科大学の学者はチェスを使って、大規模な言語モデルが実際に世界を「理解」していることを証明しました

アンドリュー・ンが気に入っています！ハーバード大学とマサチューセッツ工科大学の学者はチェスを使って、大規模な言語モデルが実際に世界を「理解」していることを証明しました

王林

Sep 15, 2023 am 11:29 AM

ai電車

2021 年、ワシントン大学の言語学者エミリー M. ベンダーは、大規模な言語モデルは「確率論的なオウム」にすぎないと主張する論文を発表しました。特定の統計、単語の出現確率を計算し、オウムのように一見合理的な単語をランダムに生成します。

ニューラルネットワークは解釈できないため、学術コミュニティでは言語モデルがランダムなオウムであるかどうか確信が持てず、さまざまな関係者の意見が大きく異なります。

広く認識されているテストが不足しているため、モデルが「世界を理解」できるかどうかは、科学的な問題ではなく哲学的な問題になっています。

最近、ハーバード大学とマサチューセッツ工科大学の研究者は、単純なボードゲームにおける内部表現の有効性を検証した新しい研究「Othello-GPT」を共同発表しました。確かに内部的に世界モデルを確立しており、単なる記憶や統計ではなく、その能力の源は不明です。

論文リンク: https://arxiv.org/pdf/2210.13382.pdf

実験プロセスは非常に単純で、オセロのルールに関する事前知識がなくても、研究者らはこのモデルが合法的な動きの操作を予測し、チェス盤の状態を非常に高い精度で捉えることができることを発見しました。

Ng Enda は、「Letter」コラムでこの研究を高く評価しました。彼は、この研究に基づいて、大規模な言語モデルが十分に複雑な世界を構築したと信じる理由があると信じました。私はモデルであり、ある意味では世界をある程度理解しています。

ブログリンク: https://www.deeplearning.ai/the-batch/does-ai-under-the-world/

ただし、Andrew Ng 氏は、哲学は重要だが、そのような議論には終わりがないかもしれないので、プログラミングを選んだほうがよいとも言いました。

チェス盤の世界モデル

チェス盤を単純な「世界」として想像し、ゲーム中にモデルが継続的に意思決定を行う必要がある場合、最初にシーケンスをテストできます。モデル世界表現を学習できるかどうか。

研究者らは、実験プラットフォームとしてシンプルなオセロゲーム「Othello」を選択しました。そのルールは 8*8 チェス盤の中央にあります。、最初に 4 つのチェスの駒 (黒と白に 2 つずつ) を置きます。その後、両側が順番に、直線または斜めの方向にプレイし、2 つの自分の駒の間にあるすべての敵の駒 (スペースを含めることはできません) が自分の駒になります (キャプチャと呼ばれます)ピース)、ピースが配置されるたびに、キャプチャするピースが存在する必要があり、最終的にはボードが完全に占有され、最も多くのピースを持っているプレイヤーが勝ちます。

チェスと比較すると、オセロのルールははるかに単純ですが、同時に、チェスゲームの検索空間は十分に大きく、モデルはメモリを通じてシーケンスの生成を完了できないため、モデル世界表現の学習能力をテストするのに非常に適しています。

オセロ言語モデル

研究者らはまず、ゲームスクリプト (オセロによって作成された一連のチェスの駒) を組み合わせた GPT バリアント言語モデル (Othello-GPT) をトレーニングしました。プレーヤー（プレーヤー）の移動操作）はモデルに入力されますが、モデルにはゲームと関連するルールに関する事前知識がありません。

モデルは、戦略の改善やゲームの勝利などを追求するために明示的にトレーニングされていませんが、合法的なオセロの動き操作を生成する際には比較的高い精度を持っています。

データセット

研究者らは 2 つのトレーニングデータセットを使用しました:

Championship は、主に 2 つのオセロトーナメントで人間のプロプレイヤーが採用したより戦略的思考の動きから、データの品質により注意を払っていますが、それぞれ 7605 個と 132921 個のゲームサンプルしか収集できませんでした。データセットが結合された後、それらはランダムに分割されました。トレーニングセット (2,000 万サンプル) と検証セット (379 万 6000 サンプル) の比率は 8:2 です。

Synthetic は、データのスケールにさらに注意を払い、ランダムで合法的な移動操作で構成されます。データの分布はチャンピオンシップデータセットとは異なりますが、オセロゲームツリーから均等に抽出されます。サンプリングが取得され、そのうち 2,000 万個のサンプルがトレーニングに使用され、379 万 6,000 個のサンプルが検証に使用されます。

各ゲームの説明は一連のトークンで構成され、語彙サイズは 60 (8*8-4)です。

モデルとトレーニング

モデルのアーキテクチャは、8 つのヘッドと 512 の隠れ次元を備えた 8 層 GPT モデルです。

次の重みモデルは単語を含めて完全にランダムに初期化されます。埋め込み層では、チェス盤の位置を表す語彙に幾何学的関係がありますが (C4 が B4 より低いなど)、この帰納的バイアスは明示的に表現されず、モデルの学習に委ねられます。。

正当な動きの予測

モデルの主な評価指標は、モデルによって予測された移動操作が準拠しているかどうかです。オセロのルールで。

トレーニングされていないオセロと比較して、合成データセットでトレーニングされたオセロ GPT のエラー率は 0.01%、チャンピオンシップデータセットでは 5.17% でした。GPT のエラー率は次のとおりです。 93.29%。これは、両方のデータセットでモデルがゲームのルールをある程度学習できることを意味します。

考えられる説明の 1 つは、モデルがオセロゲームのすべての移動アクションを記憶しているということです。

この推測を検証するために、研究者たちは新しいデータセットを合成しました。各ゲームの開始時に、オセロには 4 つの可能な開始位置 (C5、D6、E3、F4) があり、すべて C5 です。冒頭の動きは削除されてトレーニングセットとして使用され、次に C5 の冒頭データがテストとして使用されました。つまり、ゲームツリーのほぼ 1/4 が削除されました。その結果、モデルのエラー率はまだわずか 0.02% であることがわかりました。

Othello-GPT の高いパフォーマンスは、トレーニングプロセス中にテストデータがまったく表示されないため、メモリによるものではありません。

内部表現の探索

ニューラルネットワークの内部表現を検出するために一般的に使用されるツールはプローブです。各プローブは分類子または回帰子です。入力はネットワークの内部表現で構成されます。アクティベーションを実行し、関心のある特徴を予測するようにトレーニングされています。

このタスクでは、Othello-GPT の内部アクティベーションに現在のチェス盤の状態の表現が含まれているかどうかを検出するために、動きシーケンスを入力した後、内部アクティベーションベクトルを使用して次の動作ステップを予測します。

線形プローブを使用する場合、トレーニングされた Othello-GPT の内部表現は、ランダムな推測よりもわずかに正確です。

非線形プローブ (2 層 MLP) を使用すると、エラー率が大幅に低下し、チェス盤の状態が単純なメソッドはネットワークアクティベーションに保存されます。

介入実験

モデルの予測と創発世界の表現の間の因果関係、つまりチェス盤の状態が実際に To に影響を与えるかどうかを判断するため。ネットワークの結果を予測するために、研究者らは一連の介入試験を実施し、その結果生じる影響を測定しました。

Othello-GPT からの一連のアクティベーションが与えられた場合、プローブを使用してボードの状態を予測し、関連する手の予測を記録してから、アクティベーションを変更して、プローブが更新されたボードの状態を予測できるようにします。。

介入操作には、特定の位置のチェスの駒を白から黒に変更するなどが含まれます。小さな変更を行うと、モデルは次のことを検出します。内部表現は予測が確実に行われます。つまり、内部表現とモデル予測の間には因果関係があります。

視覚化

内部表現の有効性を検証するための介入実験に加えて、研究者らは予測結果も視覚化しました。モデルが介入技術を使用してチェスの駒を変更する場合、モデルの予測結果がどのように変化するかは、予測結果の重要性に対応します。

その後、現在のチェス盤の状態のtop1が予測した顕著性に基づいてカードが色付けされ、視覚化されます。描かれた絵はネットワークの潜在空間に基づいて入力されるため、図（潜在的顕著性マップ）。

ご覧のとおり、合成データセットとトーナメントデータセットの両方でトレーニングされたオセロ GPT のトップ 1 予測の潜在顕著性マップには、明確なパターンが示されています。

オセロ GPT の合成バージョンは、経験の少ないプレイヤーにとって、正当な操作位置でより高い有意値を示し、不正な操作の有意値は大幅に低くなります。

トーナメントバージョンの顕著性マップはより複雑です。正当な操作位置の顕著性値は比較的高いですが、他の位置もより高い顕著性値を示します。 , オセロマスターはよりグローバルな機能を考慮しているためかもしれません。

以上がアンドリュー・ンが気に入っています！ハーバード大学とマサチューセッツ工科大学の学者はチェスを使って、大規模な言語モデルが実際に世界を「理解」していることを証明しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。