あなたが部屋に立ってドアに向かって歩く準備をしているときに、自己回帰による経路を徐々に計画していると想像してみてください。実際には、パス全体が一度に生成されます。
最新の研究では、拡散モデルを使用した計画モジュールは、人間の意思決定方法により沿った長いシーケンス軌道計画を同時に生成できることが指摘されています。さらに、拡散モデルは、ポリシー表現とデータ合成の観点から、既存の意思決定インテリジェンス アルゴリズムに対して、より最適化されたソリューションを提供することもできます。
上海交通大学のチームによって書かれた総説論文「強化学習のための拡散モデル: 調査」は、関連分野における拡散モデルの応用を組み合わせたものです。強化学習。このレビューでは、既存の強化学習アルゴリズムが長期シーケンス計画におけるエラーの蓄積、制限されたポリシー表現機能、不十分なインタラクティブデータなどの課題に直面している一方、拡散モデルは強化学習の問題を解決し、長期的な計画に対処するための新しいアイデアをもたらす利点を実証していると指摘しています。 - 前述の立ち向かう課題。 論文リンク: https://arxiv.org/abs/2311.01223
このレビューでは、強化学習における拡散モデルの役割を分類し、さまざまな強化学習シナリオにおける拡散モデルの成功事例を要約します。最後に、このレビューでは、拡散モデルを使用して強化学習の問題を解決するという将来の開発の方向性を展望しています。
図は、従来のエージェント、環境、エクスペリエンスの再生プール サイクルにおける拡散モデルの役割を示しています。従来のソリューションと比較して、普及モデルはシステムに新しい要素を導入し、より包括的な情報のやり取りと学習の機会を提供します。このようにして、エージェントは環境の変化によりよく適応し、意思決定を最適化できます
##強化学習における拡散モデルの役割
この記事では、強化学習において拡散モデルが果たすさまざまな役割に基づいて、拡散モデルの適用方法と特性を分類および比較します。
図 2: 強化学習において拡散モデルが果たすさまざまな役割。
軌道計画
強化学習における計画とは、動的モデルを使用して想像力で意思決定を行い、選択することを指します。累積報酬を最大化するための適切なアクション。計画のプロセスでは、意思決定の長期的な有効性を向上させるために、一連のアクションと状態を検討することがよくあります。モデルベースの強化学習 (MBRL) フレームワークでは、計画シーケンスが自己回帰的な方法でシミュレートされることが多く、その結果、エラーが蓄積されます。拡散モデルは、複数ステップの計画シーケンスを同時に生成できます。既存の記事が拡散モデルを使って生成するターゲットは、(s,a,r)、(s,a)、sのみ、aのみなど非常に多様です。オンライン評価中に高い報酬の軌跡を生成するために、多くの作品では、分類子の有無にかかわらず、ガイド付きサンプリング手法が使用されています。
#ポリシー表現
#拡散プランナーは、従来の強化学習における MBRL によく似ています。普及計画者は、ポリシーとしてのモデルはモデルフリーの強化学習に似ています。 Diffusion-QL は、まず、普及戦略と Q ラーニング フレームワークを組み合わせます。拡散モデルは従来のモデルよりもはるかに多峰性分布に適合する能力が高いため、拡散戦略は複数の行動戦略によってサンプリングされた多峰性データセットで良好に機能します。拡散戦略は通常の戦略と同じであり、通常は状態を条件として使用し、Q (s,a) 関数の最大化を考慮しながらアクションを生成します。 Diffusion-QL などの手法では、拡散モデルのトレーニング時に重み付けされた値関数項が追加されますが、CEP ではエネルギーの観点から重み付けされた回帰ターゲットが構築され、その値関数が拡散モデルによって学習されたアクション分布を調整する係数として使用されます。
データ合成
拡散モデルは、オフラインまたはオンライン強化におけるデータ不足を軽減するデータ合成装置として使用できます。学習 問題。従来の強化学習データ強化手法では通常、元のデータをわずかに混乱させるだけですが、拡散モデルの強力な分布フィッティング機能により、データセット全体の分布を直接学習して、新しい高品質データをサンプリングできます。
その他のタイプ
上記のカテゴリに加えて、他の方法で拡散モデルを使用した作品もいくつか点在しています。たとえば、DVF は拡散モデルを使用して価値関数を推定します。 LDCQ は、まず軌道を潜在空間にエンコードし、次に潜在空間に拡散モデルを適用します。 PolyGRAD は拡散モデルを使用して学習環境を動的に転送し、ポリシーとモデルの相互作用を可能にしてポリシーの学習効率を向上させます。
#さまざまな強化学習関連の問題への応用
##オフライン強化学習
拡散モデルの導入により、オフライン強化学習戦略がマルチモーダルなデータ分布に適合し、戦略の表現能力が拡張されます。 Diffuser は、分類子ガイダンスに基づいた高報酬軌道生成アルゴリズムを最初に提案し、その後の多くの研究に影響を与えました。同時に、拡散モデルはマルチタスクおよびマルチエージェントの強化学習シナリオにも適用できます。
#図 3: ディフューザー軌道生成プロセスとモデル図
オンライン強化学習
#研究者らは、拡散モデルにはオンライン強化学習における価値関数と戦略を最適化する機能もあることを証明しました。たとえば、DIPO はアクション データのラベルを変更し、拡散モデル トレーニングを使用して、価値に基づくトレーニングの不安定性を回避しています。CPQL は、戦略としてのシングル ステップ サンプリング拡散モデルがインタラクション中の探索と利用のバランスを取れることを検証しました。
#模倣学習
模倣学習は、専門家のデモンストレーション データから学習することによって専門家の行動を再構築します。普及モデルの適用は、政策表現能力を向上させ、多様なタスクスキルを学習するのに役立ちます。ロボット制御の分野では、拡散モデルが時間的安定性を維持しながら閉ループ動作シーケンスを予測できることが研究でわかっています。 Diffusion Policy は、画像入力の拡散モデルを使用してロボットのアクション シーケンスを生成します。実験では、拡散モデルがタイミングの一貫性を確保しながら効果的な閉ループ アクション シーケンスを生成できることが示されています。
#図 4: 拡散政策モデル図
軌道生成
強化学習における拡散モデルの軌道生成は、人間の行動生成とロボット制御の 2 種類のタスクに主に焦点を当てています。拡散モデルによって生成されたアクション データまたはビデオ データは、シミュレーション シミュレーターの構築または下流の意思決定モデルのトレーニングに使用されます。 UniPi は、一般的な戦略としてビデオ生成拡散モデルをトレーニングし、さまざまな逆動力学モデルにアクセスして基礎となる制御コマンドを取得することにより、クロスボディ ロボット制御を実現します。
図 5: UniPi の意思決定プロセスの概略図。
データ強化
拡散モデルは、信頼性を維持しながら、元のデータ分布に直接適合させることもできます。動的に拡張されたデータ。たとえば、SynthER と MTDiff-s は、拡散モデルを通じてトレーニング タスクの完全な環境伝達情報を生成し、政策改善に適用します。その結果、生成されたデータの多様性と精度が従来の方法より優れていることが示されています。
図 6: マルチタスクの計画とデータ強化のための MTDiff の概略図
生成シミュレーション環境
図 1 に示すように、既存の研究では主に拡散モデルを使用して問題を解決しています。エクスペリエンス再生プールの制限により、拡散モデルを使用してシミュレーション環境を強化することに関する研究は比較的少数です。 Gen2Sim は、ヴィンセント グラフ拡散モデルを使用して、シミュレーション環境で多様な操作可能なオブジェクトを生成し、精密なロボット操作の汎化能力を向上させます。拡散モデルには、シミュレーション環境におけるマルチエージェント相互作用における状態遷移関数、報酬関数、または敵対者の行動を生成する可能性もあります。
#セキュリティ制約の追加
安全制約をモデルのサンプリング条件として使用することにより、拡散モデルに基づくエージェントは特定の制約を満たす意思決定を行うことができます。拡散モデルのガイド付きサンプリングにより、元のモデルのパラメーターは変更されずに、追加の分類器を学習することで新しいセキュリティ制約を継続的に追加できるため、追加のトレーニング オーバーヘッドが節約されます。
検索拡張生成
検索拡張生成テクノロジは、大規模な言語で外部データ セットにアクセスすることでモデルの機能を強化できます。このモデルは広く使用されています。これらの状態における拡散ベースの意思決定モデルのパフォーマンスは、エージェントの現在の状態に関連する軌跡を取得し、それをモデルに入力することによっても改善される可能性があります。検索データセットが常に更新されている場合、エージェントは再トレーニングせずに新しい動作を示す可能性があります。
複数のスキルの組み合わせ
拡散モデルは、分類子ガイダンスと組み合わせるか、分類子ガイダンスなしで組み合わせることができます。さまざまなシンプルなスキル複雑なタスクを完了するために。オフライン強化学習の初期の結果は、拡散モデルが異なるスキル間で知識を共有できることを示唆しており、異なるスキルを組み合わせることによってゼロショット転送や継続学習を実現できるようになります。
#表
図 7: 関連論文の概要と分類表。
以上が普及モデルはどのようにして新世代の意思決定主体を構築するのでしょうか?自己回帰を超えて、長いシーケンス計画軌道を同時に生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

WebStorm Mac版
便利なJavaScript開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Dreamweaver Mac版
ビジュアル Web 開発ツール

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。
