ホームページ  >  記事  >  テクノロジー周辺機器  >  ACL 2024 論文の最終結論: 大規模言語モデル ≠ ワールド シミュレーター、Yann LeCun: その通りです

ACL 2024 論文の最終結論: 大規模言語モデル ≠ ワールド シミュレーター、Yann LeCun: その通りです

PHPz
PHPzオリジナル
2024-06-16 22:31:09702ブラウズ

常識的なタスクに基づいて状態変化をシミュレートする場合、GPT-4 の精度が約 60% しかない場合、それでも大規模な言語モデルをワールド シミュレーターとして使用することを検討する必要がありますか?


ここ 2 日間で、ACL 2024 に選ばれた論文「言語モデルはテキストベースの世界シミュレータとして機能できるか?」がソーシャル メディア X で熱い議論を巻き起こし、チューリング賞受賞者のヤン・ルカン氏も受賞しました。関与した。

この論文で検討する質問は次のとおりです:
現在の言語モデル自体が世界シミュレーターとして機能し、アクションがさまざまな世界の状態をどのように変化させるかを正確に予測して、大規模な手動コーディングの必要性を回避できるでしょうか?

この問題に対して、アリゾナ大学、ニューヨーク大学、ジョンズ・ホプキンス大学、マイクロソフト・リサーチ、アレン人工知能研究所およびその他の機関の研究者は、「テキストベースのシミュレーター」という観点から次のような答えを出しました。で与えられます。

彼らは、
言語モデルを世界シミュレータとして使用することはできないと信じています。たとえば、お湯を沸かすなどの常識的なタスクに基づいて状態変化をシミュレートする場合、GPT-4 の精度は約 60% のみです。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了 「世界モデルがなければ計画はない」と信じている

タスクトレーニングの精度は 60 % に達する可能性があります。これは、少なくとも「世界レベル」であることを意味するのではないでしょうか。ある程度のモデル」?そして、LLM が反復されるにつれて改善され続けます。 LeCun はまた、世界モデルは LLM ではないと述べました。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了論文に戻ると、研究者らは「ByteSized32-State-Prediction」と呼ばれる新しいベンチマークを構築して使用しました。これには、テキスト形式のゲーム状態遷移と付随するゲームタスクで構成されるデータセットが含まれています。彼らは、このベンチマークを初めて使用して、テキストベースのワールド シミュレーターとしての大規模言語モデル (LLM) のパフォーマンスを直接定量化しました。

このデータセットで GPT-4 をテストしたところ、研究者らは、その優れたパフォーマンスにもかかわらず、更なる革新がなければ依然として信頼性の低い世界シミュレーターであることを発見しました。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

したがって、研究者らは、自分たちの研究が現在の LLM の機能と弱点についての新たな洞察と、新しいモデルの出現に伴う将来の進歩を追跡するための新しいベースラインの両方を提供すると信じています。

論文アドレス: https://arxiv.org/pdf/2406.06485

方法の概要

研究者らは、テキストベースの仮想環境でワールドシミュレーターとして機能するLLMの能力を調査しました。この環境では、エージェントは観察を受け取り、何らかの目標を達成するために自然言語でアクションを提案します。

各テキスト環境は、7 つのタプル (S、A、T、O、R、C、D) を備えた目標条件付き部分観察可能なマルコフ決定プロセス (POMDP) として形式的に表すことができ、S は状態空間を表します、A は行動空間を表し、T : S×A→S は変換関数を表し、O は観察関数を表し、R : S×A→R は報酬関数を表し、C はターゲットを説明する自然言語「コンテキスト メッセージ」を表し、アクション セマンティクス、D: S×A→{0,1} はバイナリ完了インジケーター関数を表します。

Large Model Simulator (LLM-Sim) タスク

研究者らは、言語モデルの能力を定量的に評価するために、LLM as-a-Simulator (LLM-Sim) と呼ばれる予測タスクを提案しました。信頼できるシミュレーターとして機能します

LLM-Sim タスクは、関数 F : C×S×A→S×R×{0,1} をワールド シミュレーターとして実装することです。実際には、完全な状態遷移シミュレーター F は、アクション駆動型遷移と環境駆動型遷移という 2 つのタイプの状態遷移を考慮する必要があります。

図 1 は、LLM をテキスト ゲーム シミュレーターとして使用する例です。シンクを開いた後、シンク内のカップが水で満たされます。アクション駆動型の遷移では、シンクを開くアクションを実行した後、シンクが開きます (isOn=true)。一方、環境駆動型の遷移では、シンクが開くと、シンク内のカップが水で満たされます。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

各遷移をモデル化する LLM の機能をよりよく理解するために、研究者らはシミュレータ関数 F をさらに 3 つのステップに分解しました:

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

  • アクション駆動型遷移シミュレータ: c、s_t、a_t が与えられた場合、F_act: C×S×A→S は s^act_t+1 を予測します。ここで、s^act_t+1 はアクションによって引き起こされる直接の状態変化を表します。
  • 環境駆動型遷移シミュレーター: c および s^act_t+1 が与えられると、F_env: C×S→S は s_t+1 を予測します。ここで、s_t+1 は環境駆動型遷移の結果生じる状態です。
  • ゲーム進行シミュレーター: c、s_t+1、a_t が与えられると、F_R: C×S×A→R×{0,1} は報酬 r_t+1 とゲーム完了状態 d_t+1 を予測します。

さらに、研究者らは、LLM-Sim タスクの 2 つの変形を検討しました

  • : LLM は完全な状態を出力します。
  • 状態差予測: LLM は入力状態と出力状態の差のみを出力します。

データと評価

このタスクを達成するために、研究者たちは新しいテキストゲーム状態遷移データセットを導入しました。データ セットは「BYTESIZED32-State-Prediction (BYTESIZED32-SP)」で、(c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1 ,d_t として表される) 76,369 個の変換が含まれています。 +1) タプル
。これらのトランジションは 31 の異なるテキスト ゲームから収集されました。

以下の表 1 は、追加のコーパス統計をまとめたものです。

LLM-Sim のパフォーマンスは、テスト サンプル データセットの真のラベルに対するモデルの予測精度によって決まります。実験条件に従って、LLM は次のように定義されるオブジェクト プロパティ (F_act、F_env または F をシミュレート) および/またはゲームの進行状況 (F_R または F をシミュレート) をシミュレートする必要があります:

  • オブジェクト プロパティ: 内のすべてのオブジェクトゲーム、それぞれのオブジェクトのプロパティ (温度、サイズなど)、および他のオブジェクトとの関係 (別のオブジェクト内または別のオブジェクト上にあるなど)。
  • ゲームの進行状況: 全体的な目標に対するエージェントのステータス (現在の累計報酬、ゲームが終了したかどうか、全体的な目標が達成されたかどうかなど)。

研究者らは、いずれの場合も、LLM がグラウンド トゥルースの前の状態 (関数が F_env の場合、前の状態は s^act_t+1) と全体的なタスク コンテキストを提供していることに気づきました。つまり、LLM は常にシングルステップ予測を実行します。

実験結果

上の図 1 は、研究者が LLM-Sim タスクにおけるモデルのパフォーマンスを評価するために文脈学習を使用したことを示しています。彼らは、完全な状態および状態差の予測メカニズムにおける GPT-4 の精度を評価しました。モデルは、以前の状態 (JSON オブジェクトとしてエンコードされた)、以前のアクション、およびコンテキスト メッセージを受け取り、その後の状態を (完全な JSON オブジェクトまたは差分として) 生成します。

以下の表 2 は、完全な状態遷移をシミュレートする場合と、アクション駆動型の遷移と環境駆動型の遷移を個別にシミュレートする場合の GPT-4 の精度を示しています。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

研究者らは次の重要な発見をしました:

環境主導のコンバージョンを予測するよりも、アクション主導のコンバージョンを予測する方が簡単です。最良の場合、GPT-4 は動的なアクション主導の遷移の 77.1% を正確にシミュレートできます。比較すると、GPT-4 は、動的環境主導型変換の最大 49.7% を正確にシミュレートします。

動的遷移よりも静的遷移を予測する方が簡単です。予想どおり、ほとんどの場合、動的変換よりも静的変換をモデル化する方がはるかに簡単です。

動的状態の場合は完全なゲーム状態を予測する方が簡単ですが、静的状態の場合は状態の違いを予測する方が簡単です。動的状態での状態の違いを予測すると、静的遷移をシミュレートする場合はパフォーマンスが大幅に向上します (10% 以上) が、動的遷移をシミュレートするとパフォーマンスが低下します。

ゲームルールは非常に重要です。LLM は十分に優れたゲームルールを生成できます。コンテキスト メッセージでゲーム ルールが指定されていない場合、ほとんどの場合、3 つのシミュレーション タスクすべてで GPT-4 のパフォーマンスが低下します。

GPT-4 は、ほとんどの場合、ゲームの進行状況を予測できます。以下の表 3 は、GPT-4 によるゲーム進行の予測結果を示しています。ゲーム ルール情報がコンテキストに追加されると、GPT-4 はテスト ケースの 92.1% でゲームの進行状況を正確に予測できます。これらのルールの存在は状況において非常に重要です。これらのルールがないと、GPT-4 の予測精度は 61.5% に低下します。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

LLM-Sim タスクにおける人間のパフォーマンスは GPT-4 よりも優れています。研究者らは、LLM-Sim タスクに関する予備的な人体研究を実施しました。結果を以下の表4に示す。

人間の全体的な精度は 80% であるのに対し、サンプリングされた LLM の精度は 50% であり、異なるアノテーター間でほとんど差がないことがわかりました。これは、このタスクは一般に直観的で人間にとっては比較的簡単ですが、LLM にはまだ改善の余地がかなりあることを示しています。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

GPT-4 は、算術、常識、科学的知識が必要な場合にエラーが発生しやすくなります。以下の図 2 は、全体的な状態遷移、アクション主導の遷移、および環境主導の遷移について、正しかった予測結果の割合、属性を誤った値に設定した割合、または属性値の変更に失敗した割合を示しています。

GPT-4 がほとんどの単純なブール属性を非常にうまく処理できることがわかります。エラーは、算術演算 (例: 温度、timeAboveMaxTemp)、常識 (例: current_aperture、current_focus)、または科学的知識 (例: on) を必要とする重要なプロパティの周囲に集中します。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

技術的な詳細と実験結果については、元の論文を参照してください。

以上がACL 2024 論文の最終結論: 大規模言語モデル ≠ ワールド シミュレーター、Yann LeCun: その通りですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。