01 はじめに
この論文は、攻撃に抵抗するための深層強化学習の取り組みについて説明しています。この論文では、著者はロバスト最適化の観点から、敵対的攻撃に対する深層強化学習戦略のロバスト性を研究します。ロバストな最適化の枠組みの下では、戦略の期待利益を最小限に抑えることで最適な敵対的攻撃が与えられ、それに応じて最悪のシナリオに対処する戦略のパフォーマンスを向上させることで優れた防御メカニズムが実現されます。
攻撃者は通常、トレーニング環境では攻撃できないことを考慮して、環境と対話することなく戦略の期待利益を最小限に抑えようとする貪欲な攻撃アルゴリズムを提案します。さらに、著者は、最大最小ゲームを使用して深層強化学習アルゴリズムの敵対的トレーニングを実行する防御アルゴリズム。
Atari ゲーム環境での実験結果は、著者が提案した敵対的攻撃アルゴリズムが既存の攻撃アルゴリズムよりも効果的であり、戦略の返還率が低いことを示しています。この論文で提案されている敵対的防御アルゴリズムによって生成される戦略は、既存の防御方法よりもさまざまな敵対的攻撃に対して堅牢です。
02 予備知識
2.1 敵対的攻撃
任意のサンプル (x, y) とニューラル ネットワーク f が与えられた場合、敵対的サンプルを生成する最適化目標は次のとおりです。
は x を中心とし、半径。 PGD 攻撃を通じて敵対的サンプルを生成するための計算式は次のとおりです:
は投影演算を表します。入力が標準球の外側にある場合、入力はx を中心とし、半径として球上に投影されることは、PGD 攻撃の 1 ステップの外乱サイズを表します。
の 5 つ組として定義できます。ここで、S は状態空間、A はアクション空間、 は状態遷移確率、r は割引係数を表します。強学習学習の目標は、値関数
を最大化するパラメータ ポリシー分布を学習することです。ここで、 は初期状態を表します。強力な学習には、アクション価値関数の評価が含まれます。
上記の式は、状態が実行された後にポリシーに従うという数学的な期待を表します。この定義から、価値関数と行動価値関数が次の関係を満たすことがわかります。
#表現を容易にするため、著者は主にマルコフ過程に焦点を当てています。ただし、すべてのアルゴリズムと結果は、連続する設定に直接適用できます。
03 論文法
深層強化学習戦略の敵対的攻撃と防御は、ロバストな最適化 PGD
のフレームワークに基づいています。
ここで、 は、敵対的な摂動シーケンスのセットを表します
、すべての
について、満足のいく
上記の式は、攻撃と防御に対抗するための深層強化学習のための統一フレームワークを提供します。
一方、内部最小化最適化は、現在の戦略に誤った決定をさせる対立的な摂動シーケンスを見つけようとします。一方、外部最大化の目的は、摂動戦略の下で期待される収益を最大化するための戦略分布パラメータを見つけることです。上記の敵対的攻撃と防御ゲームの後、トレーニング プロセス中の戦略パラメーターは敵対的攻撃に対する耐性が高くなります。
目的関数の内部最小化の目的は敵対的摂動を生成することですが、強化学習アルゴリズムが最適な敵対的摂動を学習するには非常に時間と労力がかかり、またトレーニング環境が脅威となるためです。ブラックボックスであるため、この論文では、攻撃者がさまざまな状態で摂動を注入するという実際的な設定を検討します。教師あり学習攻撃シナリオでは、攻撃者は分類器モデルを騙して誤分類させ、間違ったラベルを生成するだけで済みます。強化学習攻撃シナリオでは、アクション値関数が追加情報、つまり小さな動作値を攻撃者に提供します。その結果、期待される収益はわずかになります。これに対応して、著者は、深層強化学習における最適な敵対的摂動を次のように定義します。
定義 1: 状態 s に対する最適な敵対的摂動は、状態の期待されるリターンを最小限に抑えることができます
上記の式の最適化と解決は非常に難しいことに注意してください。攻撃者がエージェントをだまして最悪の意思決定動作を選択できるようにする必要があります。ただし、攻撃者にとって、エージェントのアクション値は関数は不可知論的であるため、摂動に対して最適であるという保証はありません。次の定理は、政策が最適であれば、アクション値関数
にアクセスせずに最適な敵対的摂動を生成できることを示しています。 定理 1: 制御戦略 が最適な場合、アクション値関数と戦略は次の関係を満たす
# ここで、 はポリシーのエントロピーを表し、 は状態に依存する定数で、 0 に変化すると、それも 0 に変化します。 さらに、次の式
は次のことを証明します。ランダム戦略 が最適に達すると、価値関数
も最適に達します。これは、各状態で、次のような他の行動分布を見つけることは不可能であることを意味します。価値関数
が増加すること。同様に、最適なアクション値関数
が与えられた場合、制約付き最適化問題を解くことで最適な戦略を取得できます。
2 行目と 3 行目は確率を表します。 KKT 条件に従って、上記の最適化問題は次の形式に変換できます:
がすべてのアクション に対して正定であると仮定すると、次のようになります。
が存在し、その後に任意の ' が存在する必要があります。 s 、次に
上の最初の方程式を 2 番目の方程式に組み込むと、
ここで
## になります。
はソフトマックス形式の確率分布を表し、そのエントロピーは に等しい。が 0 に等しいときは 0 になります。この場合、 は 0 より大きいので、この時点では
になります。定理 1 は、戦略が最適であれば、摂動戦略と元の戦略のクロスエントロピーを最大化することで最適な摂動を取得できることを示しています。議論を簡単にするため、著者は定理 1 の攻撃を戦略的攻撃と呼び、PGD アルゴリズム フレームワークを使用して最適な戦略的攻撃を計算します。具体的なアルゴリズムのフローチャートを以下のアルゴリズム 1 に示します。
はポリシーのトレーニングを支援するために推定されます。
具体的な詳細は、価値関数が減少することが保証されていないにもかかわらず、著者が最初に戦略的攻撃を使用してトレーニング段階で摂動を生成していることです。トレーニングの初期段階では、ポリシーはアクション価値関数に関連していない可能性がありますが、トレーニングが進むにつれて、それらは徐々にソフトマックス関係を満たすようになります。
摂動ポリシーを実行することで軌跡が収集され、これらのデータを使用してアクション価値関数を推定するため、扱いが困難です。動揺しない方針は非常に不正確である可能性があります。
PPO を使用した最適化された摂動戦略 の目的関数は
であり、 は摂動戦略の平均関数
の推定値です。実際には、
は GAE 手法によって推定されます。具体的なアルゴリズムのフローチャートを下図に示します。
以上が深層強化学習における敵対的な攻撃と防御の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

激動ゲーム:AIエージェントとのゲーム開発に革命をもたらします BlizzardやObsidianなどの業界の巨人の退役軍人で構成されるゲーム開発スタジオであるUpheavalは、革新的なAIを搭載したPlatforでゲームの作成に革命をもたらす態勢を整えています。

UberのRobotaxi戦略:自動運転車用の乗車エコシステム 最近のCurbivore Conferenceで、UberのRichard Willderは、Robotaxiプロバイダーの乗車プラットフォームになるための戦略を発表しました。 で支配的な位置を活用します

ビデオゲームは、特に自律的なエージェントと現実世界のロボットの開発において、最先端のAI研究のための非常に貴重なテストの根拠であることが証明されています。 a

進化するベンチャーキャピタルの景観の影響は、メディア、財務報告、日常の会話で明らかです。 ただし、投資家、スタートアップ、資金に対する特定の結果はしばしば見落とされています。 ベンチャーキャピタル3.0:パラダイム

Adobe Max London 2025は、アクセシビリティと生成AIへの戦略的シフトを反映して、Creative Cloud and Fireflyに大幅な更新を提供しました。 この分析には、イベント以前のブリーフィングからの洞察がAdobeのリーダーシップを取り入れています。 (注:ADOB

MetaのLlamaconアナウンスは、Openaiのような閉じたAIシステムと直接競合するように設計された包括的なAI戦略を紹介し、同時にオープンソースモデルの新しい収益ストリームを作成します。 この多面的なアプローチはBOをターゲットにします

この結論に関して、人工知能の分野には深刻な違いがあります。 「皇帝の新しい服」を暴露する時が来たと主張する人もいれば、人工知能は普通の技術であるという考えに強く反対する人もいます。 それについて議論しましょう。 この革新的なAIブレークスルーの分析は、AIの分野での最新の進歩をカバーする私の進行中のForbesコラムの一部です。 一般的な技術としての人工知能 第一に、この重要な議論の基礎を築くためには、いくつかの基本的な知識が必要です。 現在、人工知能をさらに発展させることに専念する大量の研究があります。全体的な目標は、人工的な一般情報(AGI)を達成し、さらには可能な人工スーパーインテリジェンス(AS)を達成することです

企業のAIモデルの有効性は、現在、重要なパフォーマンス指標になっています。 AIブーム以来、生成AIは、誕生日の招待状の作成からソフトウェアコードの作成まで、すべてに使用されてきました。 これにより、言語modが急増しました


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









