Transformer から Diffusion Model まで、シーケンス モデリングに基づく強化学習手法について 1 つの記事で学びます
大規模な生成モデルは、過去 2 年間で自然言語処理、さらにはコンピューター ビジョンに大きな進歩をもたらしました。最近、この傾向は強化学習、特に決定変換 (DT)[1]、軌道変換 (TT)[2]、Gato[3]、ディフューザー [4] などのオフライン強化学習 (オフライン RL) にも影響を与えています。この手法では、強化学習データ (状態、行動、報酬、復帰など) を非構造化された一連のシーケンス データとみなして、これらのシーケンス データを学習の中核タスクとしてモデル化します。これらのモデルは、教師ありまたは自己教師ありの学習方法を使用してトレーニングでき、従来の強化学習における不安定な勾配信号を回避できます。複雑なポリシー改善および値推定手法を使用しても、オフライン強化学習で非常に優れたパフォーマンスを示します。
この記事では、シーケンス モデリングに基づくこれらの強化学習手法について簡単に説明し、次の記事では、新しく提案されたベクトル量子化変分を使用する Trajectory Autoencoding Planner (TAP) について紹介します。 AutoEncoder (VQ-VAE) は、潜在アクション空間におけるシーケンス モデリングと効率的な計画のための手法です。
Transformer と強化学習
Transformer アーキテクチャ [5] は 2017 年に提案され、ゆっくりと自然言語処理の革命を引き起こしました。その後の BERT と GPT-3 は徐々に自己教師型 Transformer の組み合わせは、新たな高みに押し上げられ続けており、自然言語処理の分野では少数ショット学習などの特性が出現し続けていますが、コンピューター ビジョンなどの分野にも広がり始めています [6][7] ] 。
ただし、強化学習の場合、このプロセスは 2021 年までは特に明らかではないようです。 2018 年には、マルチヘッド アテンション メカニズムも強化学習に導入されました [8]。このタイプの研究は基本的に、強化学習の一般化の問題を解決するために、半記号 (サブシンボリック) と同様の分野に適用されます。それ以来、そのような試みは鈍いものとなった。筆者の個人的な経験によれば、実はTransformerは強化学習において安定した圧倒的な優位性を示しておらず、訓練も難しい。 20 年ぶりの強化学習に Relational GCN を使用した研究 [9] の 1 つでは、舞台裏で Transformer を実際に試しましたが、基本的に従来の構造 (CNN に似た) よりもはるかに劣っており、安定して学習し、学習するのが困難でした。使用可能なポリシーを取得します。なぜ Transformer が従来のオンライン強化学習 (オンライン RL) と互換性がないのかはまだ未解決の問題ですが、たとえば Melo [10] は、従来の Transformer のパラメータ初期化が強化学習に適していないためであると説明しています。さらにここで。
2021 年半ば、Decision Transformer (DT) と Trajectory Transformer (TT) のリリースにより、RL での Transformer アプリケーションの新たな波が始まりました。これら 2 つの研究のアイデアは実際には非常に単純です。Transformer とオンライン強化学習アルゴリズムにあまり互換性がない場合、強化学習を単純に自己教師あり学習タスクとして扱ってはどうでしょうか?オフライン強化学習の概念も非常に人気があるという事実を利用して、これらの研究は両方とも、主要なターゲット タスクをオフライン データセットのモデリングに固定し、このシーケンス モデルを制御と意思決定に使用しています。
強化学習の場合、いわゆるシーケンスは状態 (state) s、アクション (action) 、報酬 (reward) r およびvalue ( value) v
で構成される軌跡。現在、この値は通常、モンテカルロ推定とみなせる return-to-go に置き換えられています。オフライン データセットはこれらの軌跡で構成されます。軌道の生成は、環境の力学と行動方針に関連しています。いわゆるシーケンス モデリングは、このシーケンスを生成する確率分布 (分布)、または厳密には条件付き確率の一部をモデル化することです。
Decision Transformer
DT のアプローチは、過去のデータと値からアクション (リターン条件付きポリシー) へのマッピングをモデル化することです。これは、条件付き確率の数学的期待をモデル化することです。アクション。 #########。このアイデアは Upside Down RL [11] に非常に似ていますが、その背後にある直接の動機は、プロンプトに基づいてダウンストリーム タスクを完了する GPT2/3 の方法を模倣することである可能性が非常に高くなります。このアプローチの問題の 1 つは、最適な目標値を決定する体系的な方法がないことです。しかし、DT の作成者は、目標値がデータセット全体の中で最も高いリターンに設定されている場合でも、DT の最終的なパフォーマンスが非常に優れている可能性があることを発見しました。
Decision Transformer、図 1
強化学習 人間の感覚で言えば、DT のような手法で強力なパフォーマンスを達成できるというのは非常に直観に反します。 DQN やポリシー勾配などの手法がニューラル ネットワークを補間汎化に使用できるフィッティング関数としてしかみなすことができない場合、強化学習におけるポリシーの改善と評価は依然としてポリシー構築の中核となります。 DT は完全にニューラル ネットワークに基づいていると言えますが、非現実的である可能性のある高い目標値を適切なアクションに結び付けるプロセス全体は完全にブラック ボックスです。 DTの成功は強化学習の観点からは少々無理があるとも言えますが、それがこの種の実証研究の魅力だと思います。著者は、ニューラル ネットワーク (トランスフォーマー) の一般化能力が、RL コミュニティ全体のこれまでの期待を超える可能性があると信じています。
DT はすべてのシーケンス モデリング手法の中でも非常にシンプルであり、強化学習の中核となる問題のほぼすべてが Transformer 内で解決されます。このシンプルさが現在最も人気のある理由の1つです。ただし、そのブラックボックスの性質により、アルゴリズム設計レベルで多くの把握が失われ、従来の強化学習での成果の一部を強化学習に組み込むのは困難です。これらの結果の有効性は、いくつかの非常に大規模な実験 (AlphaGo、AlphaStar、VPT など) で繰り返し確認されています。
Trajectory TransformerTT のアプローチは、従来のモデルベースの強化学習 (モデルベース RL) 計画手法によく似ています。モデリングに関しては、シーケンス全体の要素を離散化し、GPT-2 のような離散自己回帰手法を使用してオフライン データセット全体をモデル化します。これにより、特定のシーケンスからリターンツーゴーを差し引いた継続をモデル化できます。 TT は後続のシーケンスの分布をモデル化するため、実際にはシーケンス生成モデルになります。 TT は、生成されたシーケンスの中でより良い値の推定を行うシーケンスを探すことにより、「最適な計画」を出力できます。最適なシーケンスを見つける方法として、TT は自然言語で一般的に使用される方法、つまりビーム探索の変形を使用します。基本的には、展開されたシーケンスの最適なシーケンス 部分を常に保持し、それらを基に次の最適なシーケンス セット
を見つけることです。
強化学習の観点から見ると、TT は DT ほど型破りなものではありません。興味深いのは、(DT と同様に) 強化学習における元のマルコフ決定プロセスの因果グラフ構造を完全に放棄していることです。 PETS、ワールド モデル、dramerv2 などの以前のモデルベースの手法はすべて、マルコフ プロセス (または暗黙的マルコフ) におけるポリシー関数、伝達関数、報酬関数などの定義、つまり次の条件に従います。状態分布は前のステップの状態であり、アクション、報酬、値はすべて現在の状態によって決まります。強化学習コミュニティ全体は一般に、これによりサンプル効率が向上すると信じていますが、そのようなグラフ構造は実際には制約となる可能性があります。自然言語の分野における RNN から Transformer への移行、およびコンピューター ビジョンの分野における CNN から Transformer への移行は、実際に次のことを反映しています。データが増加するにつれて、ネットワークにグラフ構造を自力で学習させるほうが、よりパフォーマンスの高いモデルを取得するのに役立ちます。 。
DreamerV2、図 3TT は基本的にすべてのシーケンス予測タスクを With Transformer、Transformer に引き渡すため、データからより柔軟に、より適切なグラフ構造を学習できるようになります。以下の図に示すように、TT によってモデル化された行動戦略は、さまざまなタスクとデータセットに応じてさまざまなグラフ構造を示します。図の左側は従来のマルコフ戦略に対応し、図の右側はアクション移動平均戦略に対応します。
#Trajectory Transformer、図 4
Transformer 強力なシーケンス モデリングの機能下の図は、100 ステップを超える TT の予測が依然として高い精度を維持しているのに対し、マルコフ特性に従う単一ステップ予測モデルは、予測誤差の重ね合わせの問題によりすぐに崩壊することを示しています。
TT ただし、特定のモデリングと予測の点で従来の方法とは異なります。それは異なりますが、それが提供する予測能力は、将来的に強化学習に統合される他の結果への優れた出発点を残します。ただし、TT には予測速度という重要な問題があります: シーケンス全体の分布をモデル化する必要があるため、シーケンス内のすべての要素が次元に従って離散化されます。これは、100 次元の状態がシーケンス内の 100 個の要素を占有する必要があることを意味します。 . 位置にあるため、モデル化されるシーケンスの実際の長さが特に長くなりやすくなります。 Transformer の場合、シーケンス長 N の計算複雑さは であり、TT からの将来予測のサンプリングに非常にコストがかかります。 100 次元未満のタスク TT であっても、ワンステップの判断に数秒から数十秒を要するため、リアルタイムのロボット制御やオンライン学習に導入することは困難です。 Gato
Gato は Deepmind によって公開されている「ジェネラリスト モデル」で、実際にはクロスモーダル マルチタスク生成モデルです。同じ Transformer を使用して、自然言語による質問応答、画像の説明、ビデオ ゲームのプレイからロボット制御まで、さまざまなタスクを実行できます。連続制御をモデル化する Gato のアプローチは、基本的に TT と似ています。ただし、Gato は厳密に強化学習を行っているわけではなく、エキスパート戦略によって生成されたシーケンス データをモデル化し、アクションを実行するときに次のアクションをサンプリングするだけであり、実際にはエキスパート戦略の模倣です。
その他のシーケンス生成モデル:拡散モデル
最近画像生成の分野では拡散モデル(Diffusion Model)が非常に普及していると言え、DALLE-2やStable Diffusionもこれに基づいて画像生成を行っています。 Diffuser はこの手法をオフライン強化学習にも適用しています。アイデアは TT に似ています。最初にシーケンスの条件付き分布をモデル化し、次に現在の状態に基づいて将来の可能性のあるシーケンスをサンプリングします。
ディフューザーは TT よりも柔軟性が高く、開始点と終了点を設定しながらモデルに中間パスを埋めることができるため、(報酬を最大化するのではなく) 目標主導型の関数制御を行うことができます。また、複数の目標と目標を達成するための先験的な条件を組み合わせて、モデルがタスクを完了できるようにすることもできます。
##ディフューザー 図 1ディフューザーも、従来の強化学習モデルと比較して非常に破壊的です。計画は時間軸上で徐々に展開していくのではなく、全体の流れという意味では漠然としたものから徐々に正確になっていきます。拡散モデル自体のさらなる研究もコンピュータ ビジョンの注目のテーマであり、今後数年以内にモデル自体にブレークスルーが起こる可能性があります。
しかし、現状では普及モデル自体が他の世代モデルに比べて生成速度が遅いという特殊な欠陥を抱えています。関連分野の多くの専門家は、この問題は今後数年間で緩和される可能性があると考えています。ただし、強化学習でリアルタイム制御が必要なシナリオでは、数秒という生成時間は現時点では受け入れがたいものです。 Diffuser は生成速度を向上させる方法として、前のステップの計画に少量のノイズを追加して次のステップの計画を再生成する方法を提案しましたが、これを行うとモデルのパフォーマンスがある程度低下します。
以上がTransformer から Diffusion Model まで、シーケンス モデリングに基づく強化学習手法について 1 つの記事で学びますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

HiddenLayerの画期的な研究は、主要な大規模な言語モデル(LLMS)における重大な脆弱性を明らかにしています。 彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。 この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65%の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。 この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。 ただし、人工知能

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudの次の2025年:インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。 特定の発表の詳細な分析については、私の記事を参照してください

今週はAIとXR:AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。 見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり:テクノロジーコンサルタントのShelly Palme


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

メモ帳++7.3.1
使いやすく無料のコードエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ホットトピック









