ホームページ  >  記事  >  テクノロジー周辺機器  >  トランスフォーマー + ワールド モデル、深層強化学習を節約できるか?

トランスフォーマー + ワールド モデル、深層強化学習を節約できるか?

王林
王林転載
2023-05-04 09:19:061132ブラウズ

多くの人が知っているように、李世ドル、柯潔、その他の国際トップ棋士を破ったAlphaGoには、李世ドルを破った第一世代AlphaGo Leeと、第二世代AlphaGo Masterという3回のバージョンがあった。柯潔を破り、前2世代を破った第3世代AlphaGo Zero。

AlphaGo のチェスのスキルは世代を重ねるごとに向上する可能性がありますが、その背後には実は AI テクノロジーにおける明らかな傾向があり、強化学習の割合が増加しています。

近年、強化学習はさらなる「進化」を遂げており、この「進化した」強化学習を人々は深層強化学習と呼んでいます。

しかし、深層強化学習エージェントのサンプル効率は低いため、実際の問題への応用は大きく制限されます。

最近、この問題を解決するために多くのモデルベースの方法が設計されており、世界モデルの想像力による学習は最も著名な方法の 1 つです。

ただし、シミュレートされた環境とのほぼ無制限のインタラクションは魅力的に聞こえますが、世界モデルは長期間にわたって正確さを維持する必要があります。

シーケンス モデリング タスクにおける Transformer の成功に触発されて、コーネル大学の Vincent Micheli、Eloy Alonso、François Fleure は IRIS を導入しました。これは、離散オートエンコーダと自己回帰トランスフォーマー。

Atari 100k ベンチマークでは、わずか 2 時間のゲームプレイに相当し、IRIS は人間による正規化平均スコア 1.046 を達成し、26 試合中 10 試合で人間を上回りました。

以前、LeCun は強化学習は行き詰まりにつながるだろうと述べたことがあります。

トランスフォーマー + ワールド モデル、深層強化学習を節約できるか?

現在、コーネル大学の Vincent Micheli、Eloy Alonso、Francois Fleure らがワールド モデルと強化学習 (より正確には深層強化) を統合しているようです。学習中)、その2つをつなぐ架け橋がトランスフォーマーです。

深層強化学習の違い

人工知能テクノロジーというと、多くの人が思い浮かべるのは深層学習です。

実はAIの分野ではディープラーニングは今でも活発に行われていますが、多くの問題点も明らかになってきています。

現在、深層学習で最も一般的に使用されている方法は教師あり学習です。教師あり学習は「参照回答による学習」として理解できますが、その特徴の 1 つは、データを学習に使用する前にデータにラベルを付ける必要があることです。しかし現在、大量のデータはラベルのないデータであり、ラベルを付けるコストは非常に高くなっています。

この状況を受けて、「人工知能と同じくらいの知能がある」と冗談を言う人もいたほどです。

多くの専門家を含む多くの研究者が、ディープラーニングが「間違っている」かどうかを熟考しています。

そこで、強化学習が台頭し始めました。

強化学習は教師あり学習や教師なし学習とは異なり、エージェントを使って試行錯誤を繰り返し、その結果に応じてAIに賞罰を与える学習です。これは、DeepMind がさまざまなチェスやカード AI、ゲーム AI を作成するための手法です。この道の信奉者は、報酬インセンティブが正しく設定されている限り、強化学習によって最終的には本物の AGI が作成されると信じています。

しかし、強化学習にも問題があり、LeCun 氏の言葉を借りると、「強化学習では、最も単純なタスクを実行するようにモデルをトレーニングするために、膨大な量のデータが必要です。」

つまり、強化学習と深層学習が結合されて、深層強化学習になりました。

深層強化学習、強化学習は骨格、深層学習は魂です。これは何を意味しますか?深層強化学習の主な動作メカニズムは、実際には基本的に強化学習と同じですが、このプロセスを完了するためにディープ ニューラル ネットワークが使用される点が異なります。

さらに、一部の深層強化学習アルゴリズムは、既存の強化学習アルゴリズムにディープ ニューラル ネットワークを追加するだけで、新しい深層強化学習アルゴリズムのセットを実装します。非常に有名な深層強化学習アルゴリズム DQN は、その典型的な例です。

トランスフォーマーの魅力

トランスフォーマーは 2017 年に初めて登場し、Google の論文「Attending is All You Need」で提案されました。

Transformer が登場するまで、言語タスクにおける人工知能の進歩は他の分野の発展に比べて遅れていました。マサチューセッツ大学ローウェル校のコンピューター科学者、アンナ・ラムシスキー氏は、「過去 10 年間に起こった深層学習革命において、自然言語処理はやや後発の存在でした。ある意味、NLP はコンピューター ビジョン、Transformer に比べて遅れをとっていたのです」と述べています。

近年、Transformer 機械学習モデルは、ディープ ラーニングとディープ ニューラル ネットワーク テクノロジーの進歩の主なハイライトの 1 つとなっています。主に自然言語処理の高度なアプリケーションに使用されます。 Google は、検索エンジンの結果を強化するためにこれを使用しています。

Transformer は、テキストの分析と予測に重点を置いた単語認識などのアプリケーションですぐにリーダーになりました。これは、数千億の単語をトレーニングして一貫した新しいテキストを生成できる OpenAI の GPT-3 のようなツールの波を引き起こしました。

現在、Transformer アーキテクチャは進化を続け、言語タスクから他のドメインまで拡張し、さまざまなバリエーションに拡張されています。たとえば、Transformer は時系列予測に使用されており、DeepMind のタンパク質構造予測モデル AlphaFold の背後にある重要な革新でもあります。

トランスフォーマーは、最近コンピューター ビジョンの分野にも参入しており、多くの複雑なタスクにおいて、徐々に畳み込みニューラル ネットワーク (CNN) に取って代わりつつあります。

ワールドモデルとトランスフォーマーが手を組む、他の人はどう思うか

コーネル大学の研究結果について、一部の海外ネットユーザーは次のようにコメントした。は環境からのショットの長さであり、GPU でのトレーニングには 1 週間かかります。」

また、次のような疑問を持つ人もいます。つまり、このシステムは特に正確な潜在世界モデルに基づいて学習するのでしょうか?モデルには事前トレーニングは必要ありませんか?

さらに、コーネル大学の Vincent Micheli らの研究結果は画期的な進歩ではないと感じている人もいます。「彼らは、世界モデル、vqvae、俳優評論家を訓練しただけのようで、それらはすべて、 2 時間のエクスペリエンス (および約 600 エポック) からの再生バッファー。」

参考: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

以上がトランスフォーマー + ワールド モデル、深層強化学習を節約できるか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。