ホームページ  >  記事  >  テクノロジー周辺機器  >  清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査

清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査

PHPz
PHPz転載
2023-04-13 14:01:031057ブラウズ

Transformer モデルは、そのリリース以来、すぐに自然言語処理とコンピューター ビジョンの分野の教師あり学習設定における主流のニューラル アーキテクチャになりました。

Transformer の流行が 強化学習 分野全体に広がり始めていますが、独自の機能の必要性など、RL 自体の特性により、 、アーキテクチャ設計など。Transformer と強化学習の現在の組み合わせはスムーズではなく、その開発パスにはそれを包括的に要約するための関連論文が不足しています。

最近、清華大学、北京大学、テンセントの研究者は、Transformer と強化学習の組み合わせに関する研究論文を共同で発表し、強化学習における Transformer の使用を体系的にレビューしました。開発プロセス。

清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査

紙のリンク: https://arxiv.org/pdf/2301.03044.pdf

#この記事では、既存の関連研究成果を分類し、各サブ分野について詳細な議論を行い、最後にこの研究方向の将来の展望をまとめています。

RL を備えたトランスフォーマー

強化学習 (RL) は、逐次的な意思決定のための数学的形式を提供し、モデルが自動的にインテリジェントな動作を取得できるようにします。

RL は学習ベースの制御のための一般的なフレームワークを提供します。ディープ ニューラル ネットワークの導入により、深層強化学習 (DRL) の汎用性も近年大きく進歩しました。しかし、サンプル効率の問題が現実世界での DRL の広範な適用を妨げています。

この問題を解決するための効果的なメカニズムは、DRL フレームワークに誘導バイアスを導入することです。より重要なのは、関数近似器アーキテクチャの選択です。たとえば、 DRL エージェントのニューラル ネットワーク。

ただし、DRL でのアーキテクチャ設計の選択の問題は、教師あり学習 (SL) でのアーキテクチャ設計と比較してまだ十分に検討されておらず、RL アーキテクチャに関する既存の研究のほとんどがその作業の動機となっていました。 (半)教師あり学習コミュニティの成功によって。

たとえば、DRL で高次元の画像ベースの入力を処理する一般的な方法は、畳み込みニューラル ネットワーク (CNN) を導入することです。部分的な可観測性を処理する別の一般的な方法は、再帰を導入することです。ニューラル ネットワーク (RNN)。

近年、Transformer アーキテクチャは、幅広い SL タスクにおける学習パラダイムに革命をもたらし、CNN や RNN よりも優れたパフォーマンスを示しています。関係をモデル化し、優れたスケーラビリティを備えています。

SL の成功に触発されて、強化学習への Transformer の適用に対する業界の関心が高まっています。そのきっかけは、セルフ アテンション メカニズムについて述べた 2018 年の論文に遡ります。状態表現の構造化されたリレーショナル推論に使用されます。

その後、多くの研究者が自己注意を表現学習に適用してエンティティ間の関係を抽出し、より優れたポリシー学習につなげようと試み始めました。

清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査

#状態表現の学習に加えて、以前の研究では、部分的な可観測性の問題に対処するために、Transformer を使用してマルチステップの時間依存性をキャプチャしました。

近年、オフラインの大規模データセットを活用できるオフライン RL が注目を集めており、Transformer アーキテクチャがシーケンスのモデルとして直接利用できることも関連研究結果で示されています。意思決定を可能にし、複数のタスクと領域に一般化できます。

この研究論文の目的は、強化学習におけるトランスフォーマー (TransformRL) の分野を紹介することです。

Transformer は、最新の SL 研究の基本モデルと考えられていますが、RL コミュニティではまだあまり調査されていません。実際、SL フィールドと比較して、RL で関数近似器として Transformer を使用するには、いくつかの異なる問題を解決する必要があります:

#1. 通常、RL エージェントのトレーニング データは現在のポリシーです。これは、Transformer の学習プロセスで非定常性を引き起こします。

2. 既存の RL アルゴリズムは、通常、ネットワーク アーキテクチャや容量など、トレーニング プロセス中の設計の選択に非常に敏感です。

3. トランスフォーマーベースのアーキテクチャでは、コンピューティングとメモリのコストが高くつくことが多く、これはトレーニングと推論に時間がかかり、コストがかかることを意味します。

たとえば、ゲームにおける人工知能の一部のケースでは、サンプル生成の効率がトレーニングのパフォーマンスに大きく影響し、RL ポリシー ネットワークと値ネットワークの計算コストに依存します。

TransformRL の将来

この論文では、Transformers for RL の進歩について簡単にレビューします。その利点は主に次のとおりです。

1. Transformer は、表現モジュールやワールド モデルなど、RL の強力なモジュールとして使用できます;

2. Transformer はシーケンスの意思決定者として使用できます;

3. Transformer は、タスクおよびドメイン全体にわたる汎化パフォーマンスを向上させることができます。

Transformer が広範な人工知能コミュニティで優れたパフォーマンスを示していることを考えると、研究者は、Transformer と RL を組み合わせることが有望な研究の方向性であると信じています。方向。

強化学習と (自己) 教師あり学習の組み合わせ

TransformRL の開発を追跡すると、次のことがわかります。そのトレーニング方法は、Covers RL と (自己) 教師あり学習の両方です。

従来の RL フレームワークの下でトレーニングされた表現モジュールとして使用される場合、Transformer アーキテクチャの最適化は通常不安定です。 (自己)教師あり学習パラダイムは、Transformers を使用してシーケンス モデリングを通じて意思決定の問題を解決する場合に、致命的なトライアド問題を排除できます。

(自己)教師あり学習のフレームワークでは、戦略のパフォーマンスはオフライン データの品質によって深く制約され、活用と探索の間の明確なトレードオフはもはや存在しません。が存在するため、Transformer 学習で RL と (自己) 教師あり学習を組み合わせると、より良い戦略が学習される可能性があります。

いくつかの研究では、RL を含む教師付き事前トレーニングおよび微調整スキームを試みていますが、比較的固定された戦略の下では探索が制限され、これも解決すべきボトルネックの 1 つです。

また、これに沿って、パフォーマンス評価に使用されるタスクも比較的単純です。Transformer は、この種の (自己) 教師あり学習をより大規模なデータ セットやより複雑な環境に拡張できますか?現実世界のアプリケーションもさらに検討する価値があります。

さらに、研究者らは、将来の研究によって、そのような(自己)教師あり学習が良好に機能すると予想される条件について、さらなる理論的および経験的な洞察が得られることを期待しています。

清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査

Transformer を通じてオンライン学習とオフライン学習を接続する

オフライン RL にステップアップするこれは TransformRL にとってマイルストーンですが、実際、Transformer を使用して意思決定シーケンスや抽象的な戦略の依存関係を把握することは、主に、使用される大量のオフライン データのサポートと切り離すことができません。

ただし、一部の意思決定タスクでは、実際のアプリケーションでオンライン フレームワークを取り除くのは現実的ではありません。

タスクによっては、専門家のデータを取得するのはそれほど簡単ではありませんが、一方で、一部の環境 (Minecraft など) は無制限です。オンラインでのやり取りでは見られないタスクを処理するには、戦略を常に調整する必要があります。

したがって、研究者たちは、オンライン学習とオフライン学習を結び付ける必要があると考えています。

Decision Transformer 以降の研究の進歩のほとんどはオフライン学習フレームワークに焦点を当てており、一部の研究ではオフラインの事前トレーニングとオンラインの微調整のパラダイムを採用しようとしています。ただし、オンライン微調整における分布の変化はオフライン RL アルゴリズムにも依然として存在しており、研究者らは、Decision Transformer のいくつかの特別な設計を通じてこの問題を解決できると期待しています。

さらに、オンライン Decision Transformer をゼロからトレーニングする方法は、興味深い未解決の質問です。

意思決定問題に合わせたトランスフォーマーの構造

現在の Decision Transformer シリーズのメソッドにおけるトランスフォーマーの構造主に、 vanilla Transformer。元々はテキスト シーケンス用に設計されており、決定問題には適さないプロパティがいくつかある可能性があります。

たとえば、軌跡シーケンスにバニラの自己注意メカニズムを使用するのは適切でしょうか?位置埋め込みでは、決定シーケンス内の異なる要素、または同じ要素の異なる部分を区別する必要がありますか?

さらに、さまざまな Decision Transformer アルゴリズムのシーケンスとして軌跡を表す方法には多くのバリエーションがあるため、その中から選択する方法についての体系的な研究がまだ不足しています。

たとえば、このようなアルゴリズムを業界に導入する場合、堅牢な HindSight 情報を選択するにはどうすればよいでしょうか?

そして、バニラの Transformer も膨大な計算コストを伴う構造であるため、トレーニングと推論の段階でコストがかかり、メモリ使用量が多く、キャプチャ能力も制限されます。依存関係の長さ。

これらの問題を軽減するために、NLP の一部の作業により Transformer の構造が改善されましたが、同様の構造を意思決定の問題に使用できるかどうかも検討する価値があります。

Transformer を使用してより一般的なエージェントを実装する

この論文では、ゼネラリスト エージェント (ジェネラリスト エージェント) Transformer について説明しています。レビューでは、一般的な戦略としてのトランスフォーマーの可能性が示されています。

実際、Transformer の設計では、ブロックの処理と同様の方法で複数のモダリティ (画像、ビデオ、テキスト、音声など) の処理が可能であり、超高速処理の必要性を示しています。 -大容量ネットワークと巨大なデータセットに対する優れた拡張性。

最近の研究では、マルチモーダルおよびクロスドメインのタスクを実行できるエージェントのトレーニングにおいても大幅な進歩が見られました。

ただし、これらのエージェントが大規模なデータ セットでトレーニングされていることを考えると、エージェントがデータ セットを記憶するだけなのか、効果的な汎化を実行できるのかはまだわかりません。

したがって、強い仮定を持たずに目に見えないタスクを一般化できるエージェントを学習する方法は、まだ研究する価値のある問題です。

さらに、研究者は、Transformer がさまざまなタスクやシナリオに使用できる一般的な世界モデルを学習するのに十分強力であるかどうかに興味を持っています。

Transformers のための RL

この記事では、RL が Transformer モデルからどのようにメリットを受けるかを説明しましたが、その逆は次のとおりです。そうは言っても、RL を使用して Transformer トレーニングを改善することは、十分に調査されていない興味深い未解決の問題のままです。

最近のヒューマン フィードバックからの強化学習 (RLHF) では、報酬モデルを学習し、RL アルゴリズムを使用してトランスフォーマーを微調整して、言語モデルを一致させることができることがわかります。人間の意図は一貫しています。

研究者らは、将来的には、RL が他の分野で Transformer のパフォーマンスをさらに向上させるための有用なツールになる可能性があると考えています。

以上が清北との共同制作! 「Transformer+Reinforcement Learning」の詳細を理解するための調査の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。