検索
ホームページテクノロジー周辺機器AI細分化されたバックドアトレーニングのバックドア防御手法:DBD

香港中文大学(深セン)のウー・バオユアン教授の研究グループと浙江大学のチン・ザン教授の研究グループは、バックドア防御の分野で共同論文を発表し、無事受理されました。 ICLR2022による。

近年、バックドアの問題が広く注目を集めています。バックドア攻撃が提案され続けるにつれ、一般的なバックドア攻撃に対する防御方法を提案することはますます困難になっています。この論文では、セグメント化されたバックドア トレーニング プロセスに基づいたバックドア防御方法を提案します。

この記事では、バックドア攻撃が、バックドアを特徴空間に投影するエンドツーエンドの教師ありトレーニング手法であることを明らかにしています。これに基づいて、この記事ではバックドア攻撃を回避するためのトレーニング プロセスを分割します。この手法の有効性を証明するために、この手法と他のバックドア防御手法との比較実験が行われました。

#インクルージョン カンファレンス: ICLR2022

##記事リンク: https://arxiv.org/pdf/ 2202.03423 .pdf

コードリンク: https://github.com/SCLBD/DBD

1

背景の紹介

バックドア攻撃の目的は、トレーニング データを変更したりトレーニング プロセスを制御したりすることで、モデルが正しくクリーンなサンプルを予測できるようにすることですが、バックドアのあるサンプルはターゲット ラベルとして判断されます。 。たとえば、バックドア攻撃者は、固定位置の白いブロックを画像 (つまり、毒された画像) に追加し、画像のラベルをターゲット ラベルに変更します。これらのポイズニングされたデータを使用してモデルをトレーニングした後、モデルは特定の白いブロックを持つ画像がターゲット ラベルであると判断します (次の図を参照)。

DBD: 基于分割后门训练过程的后门防御方法基本的なバックドア攻撃

モデルはトリガーとターゲット タグ ラベルを確立します)。

2

関連作品

2.1 バックドア攻撃

既存のバックドア攻撃手法は以下のとおりです。ポイズニング イメージのラベル変更は、次の 2 つのカテゴリに分類されます。ポイズニングされたイメージのラベルを変更するポイズン ラベル バックドア攻撃と、ポイズニングされたイメージの元のラベルを維持するクリーン ラベル バックドア攻撃です。

1. ポイズニング ラベル攻撃: BadNets (Gu et al., 2019) は、最初で最も代表的なポイズニング ラベル攻撃です。その後 (Chen et al., 2017) は、毒された画像の不可視性はその良性の画像の不可視性と同様であるべきであると提案し、これに基づいて混合攻撃が提案されました。最近 (Xue et al., 2020; Li et al., 2020; 2021) は、ポイズニング タグのバックドア攻撃をより秘密裏に実行する方法をさらに研究しました。最近、よりステルスで効果的な攻撃である WaNet (Nguyen & Tran、2021) が提案されました。 WaNet は、画像の歪みをバックドア トリガーとして使用し、画像のコンテンツを変形しながら保持します。

2. クリーン タグ攻撃: ユーザーがイメージとタグの関係をチェックすることでバックドア攻撃に気づくことができるという問題を解決するために、Turner et al. (2019) はクリーン タグ攻撃パラダイムを提案しました。ターゲットラベルは、汚染されたサンプルの元のラベルと一致します。このアイデアは (Zhao et al., 2020b) で攻撃ビデオ分類に拡張され、ターゲット全体の敵対的摂動 (Moosavi-Dezfooli et al., 2017) をトリガーとして採用しました。クリーン タグのバックドア攻撃はポイズン タグのバックドア攻撃よりも巧妙ですが、通常、そのパフォーマンスは比較的低く、バックドアを作成することさえできない可能性があります (Li et al., 2020c)。

#2.2 バックドア防御

既存のバックドア防御のほとんどは経験に基づくもので、次の 5 つのカテゴリに分類できます。

1. 検出ベースの防御 (Xu et al, 2021; Zeng et al, 2011; Xiang et al, 2022) は、疑わしいモデルまたはサンプルが攻撃されているかどうかをチェックし、悪意のあるオブジェクトの使用を拒否します。 。

2. 前処理ベースの防御 (Doan et al, 2020; Li et al, 2021; Zeng et al, 2021) は、攻撃サンプルに含まれるトリガー パターンを破壊することを目的としています。バックドアのアクティベーションを防ぐために、モデルに画像を入力する前に前処理モジュールが導入されます。

3. モデルの再構築に基づく防御 (Zhao et al, 2020a; Li et al, 2021;) は、モデルを直接変更することでモデル内の隠れたバックドアを排除することです。

4. 包括的な防御 (Guo et al, 2020; Dong et al, 2021; Shen et al, 2021) を発動するには、まずバックドアを学習し、次にその影響を抑制することで隠れたバックドアを排除します。

5. ポイズニング抑制に基づく防御 (Du et al, 2020; Borgnia et al, 2021) は、隠れたバックドアの生成を防ぐために、トレーニング プロセス中にポイズニングされたサンプルの有効性を低下させます

2.3 半教師あり学習と自己教師あり学習

##1. 半教師あり学習: 現実世界の多くのアプリケーションでは、ラベル付きデータ 多くの場合、手動のラベル付けに依存しますが、これは非常にコストがかかります。それに比べて、ラベルのないサンプルを入手するのははるかに簡単です。ラベルなしサンプルとラベル付きサンプルの両方の力を活用するために、多数の半教師あり学習方法が提案されています (Gao et al., 2017; Berthelot et al, 2019; Van Engelen & Hoos, 2020)。最近では、モデルのセキュリティを向上させるために半教師あり学習も使用されており (Stanforth et al, 2019; Carmon et al, 2019)、敵対的トレーニングでラベルのないサンプルを使用します。最近 (Yan et al、2021) は、半教師あり学習をバックドアする方法について議論しました。ただし、この方法では、トレーニング サンプルの変更に加えて、他のトレーニング コンポーネント (トレーニング損失など) も制御する必要があります。

2. 自己教師あり学習: 自己教師あり学習パラダイムは教師なし学習のサブセットであり、データ自体によって生成された信号を使用してモデルがトレーニングされます (Chen et al、2020a) ;グリルら、2020;リューら、2021)。これは、敵対的な堅牢性を高めるために使用されます(Hendrycks et al、2019; Wu et al、2021; Shi et al、2021)。最近、いくつかの記事 (Saha et al, 2021; Carlini & Terzis, 2021; Jia et al, 2021) では、自己教師あり学習にバックドアを導入する方法が検討されています。ただし、これらの攻撃では、トレーニング サンプルの変更に加えて、他のトレーニング コンポーネント (トレーニング損失など) の制御も必要になります。

3 バックドア機能

CIFAR-10 データセットに対して BadNets 攻撃とクリーンラベル攻撃を実施しました (Krizhevsky、2009)。有害なデータセットでの教師あり学習とラベルのないデータセットでの自己教師あり学習 SimCLR (Chen et al., 2020a)。

DBD: 基于分割后门训练过程的后门防御方法

#バックドアの特性の T-sne 表示

に示すように、上の図 (a) ~ (b) に示すように、標準的な教師付きトレーニング プロセスの後、ポイズニングされたサンプル (黒い点で表されます) は、ポイズン ラベル攻撃またはクリーン ラベル攻撃に関係なく、クラスターとなって個別のクラスターを形成する傾向があります。この現象は、既存のポイズニング ベースのバックドア攻撃の成功を示唆しています。過剰学習により、モデルはバックドア トリガーの特性を学習できるようになります。このモデルをエンドツーエンドの教師ありトレーニング パラダイムと組み合わせることで、特徴空間内の汚染されたサンプル間の距離を縮め、学習されたトリガー関連の特徴をターゲット ラベルと結び付けることができます。逆に、上記の図 (c) ~ (d) に示すように、ラベルのない汚染データ セットでは、自己教師ありトレーニング プロセスの後、汚染されたサンプルは元のラベルが付いているサンプルに非常に近くなっています。これは、自己教師あり学習によってバックドアを防止できることを示しています。

4

セグメンテーションに基づくバックドア防御

バックドアの特性分析に基づいて、セグメンテーションのトレーニングフェーズでのバックドア防御を提案します。以下の図に示すように、これは 3 つの主要な段階で構成されます。(1) 自己教師あり学習による精製された特徴抽出器の学習、(2) ラベル ノイズ学習による信頼性の高いサンプルのフィルタリング、および (3) 半教師ありの詳細な学習チューニング。

#方法フローチャートDBD: 基于分割后门训练过程的后门防御方法4.1 学習特徴抽出器

モデルを学習するためにトレーニング データ セットを使用します。モデルのパラメータには 2 つの部分が含まれており、1 つはバックボーン モデルのパラメータ、もう 1 つは全結合層のパラメータです。自己教師あり学習を利用してバックボーン モデルのパラメーターを最適化します。

DBD: 基于分割后门训练过程的后门防御方法 ここで、 は自己教師あり損失です (たとえば、SimCLR の NT-Xent (Chen et al、2020))。 、特徴抽出者がバックドアの機能を学習するのは難しいことがわかります。

4.2 ラベル ノイズ学習のフィルター処理されたサンプル

特徴抽出器がトレーニングされたら、特徴抽出器のパラメーターを修正し、トレーニング データ セットを使用して、さらに完全に学習します。接続層パラメータ ,

DBD: 基于分割后门训练过程的后门防御方法

# ここで、 は教師あり学習損失 (たとえば、クロス エントロピー損失 (クロス エントロピー)) です。

このようなセグメンテーション プロセスにより、モデルがバックドアを学習することが困難になりますが、2 つの問題があります。まず、教師あり学習を通じて学習された方法と比較して、学習された特徴抽出器が第 2 段階でフリーズされるため、クリーン サンプルの予測精度がある程度低下します。次に、汚染されたラベル攻撃が発生すると、汚染されたサンプルが「外れ値」として機能し、学習の第 2 段階がさらに妨げられます。これら 2 つの問題は、汚染されたサンプルを削除し、モデル全体を再トレーニングまたは微調整する必要があることを示しています。

サンプルにバックドアがあるかどうかを判断する必要があります。モデルがバックドア サンプルから学習することは困難であると考えられるため、信頼性を区別指標として使用します。信頼性の高いサンプルはクリーンなサンプルであり、信頼性の低いサンプルは汚染されたサンプルです。実験を通じて、以下の図に示すように、対称クロスエントロピー損失を使用してトレーニングされたモデルは、2 つのサンプル間の損失ギャップが大きいため、識別度が高いことがわかります。

DBD: 基于分割后门训练过程的后门防御方法

対称クロスエントロピー損失とクロスエントロピー損失の比較

したがって, 対称クロスエントロピー損失を使用した固定特徴抽出器で全結合層をトレーニングし、信頼度のサイズによってデータセットを信頼性の高いデータと信頼性の低いデータにフィルタリングします。

4.3 半教師あり微調整

まず、信頼性の低いデータのラベルを削除します。半教師あり学習を使用してモデル全体を微調整します。

DBD: 基于分割后门训练过程的后门防御方法

ここで、 は半教師あり損失 (MixMatch の損失関数 (Berthelot et al、2019)) です。

半教師あり微調整では、モデルがバックドア トリガーを学習するのを防ぐだけでなく、クリーンなデータ セットでモデルが適切にパフォーマンスを発揮できるようにすることもできます。

5 実験

5.1 データセットとベンチマーク

この記事は 2 つの古典的なベンチマークに基づいていますデータ すべての防御は、CIFAR-10 (Krizhevsky、2009) および ImageNet (Deng et al.、2009) (サブセット) を含むセットで評価されます。この記事では ResNet18 モデルを使用しています (He et al., 2016)

この記事では、4 つの典型的な攻撃、すなわちバッドネット (Gu et al., 2019) から防御するためのすべての防御方法を研究しています。混合戦略 バックドア攻撃(混合)(Chen et al、2017)、WaNet(Nguyen & Tran、2021)、および敵対的摂動を伴うクリーンラベル攻撃(ラベル一貫性)(Turner et al、2019)。

DBD: 基于分割后门训练过程的后门防御方法

#バックドア攻撃の例の写真

5.2 実験結果

実験の判定基準は、BA が清浄サンプルの判定精度、ASR が汚染サンプルの判定精度です。

DBD: 基于分割后门训练过程的后门防御方法

バックドア防御の比較結果

上の表に示されているように、DBD は、すべての攻撃に対して、同じ要件を持つ防御 (つまり、DPSGD と ShrinkPad) よりも大幅に優れています。すべてのケースにおいて、DBD は DPSGD よりも BA が 20% 多く、ASR が 5% 低いという点で優れています。 DBD モデルの ASR はすべてのケースで 2% 未満 (ほとんどの場合 0.5% 未満) であり、DBD が隠れたバックドアの作成を首尾よく防止できることが確認されています。 DBD は、他の 2 つの方法、つまり NC および NAD と比較されます。どちらの方法でも、防御側はクリーンなローカル データ セットを持つ必要があります。

上の表に示すように、NC と NAD は、ローカルのクリーン データ セットからの追加情報を利用するため、DPSGD と ShrinkPad よりも優れたパフォーマンスを発揮します。特に、NAD と NC は追加情報を使用しますが、DBD はそれらよりも優れています。特に ImageNet データセットでは、NC による ASR 削減効果は限定的です。比較すると、DBD は最小の ASR を達成しますが、DBD の BA はほとんどすべてのケースで最高か 2 番目に高くなります。また、防御トレーニングを行わなかったモデルと比較して、毒タグ攻撃に対する防御時のBAの低下は2%未満でした。比較的大きなデータセットでは、すべてのベースライン手法の効果が低下するため、DBD の方がさらに優れています。これらの結果は、DBD の有効性を検証します。

#5.3 アブレーション実験

DBD: 基于分割后门训练过程的后门防御方法

##各段階でのアブレーション実験

# CIFAR-10 データセットで、提案された DBD とその 4 つのバリアント (

1 を含む) を比較しました。SS なしの DBD は自己教師あり学習からバックボーンを生成します。トレーニング済みのバックボーンに置き換えます。 CE を使用して、教師ありの方法で他の部分を変更しないでください。

#2.SS を使用して、自己教師あり学習を通じて学習したバックボーンをフリーズし、すべてのトレーニング サンプルで実行します。残りの完全に接続された層

3.SS (SCE あり)。2 番目のバリアントと似ていますが、対称クロスエントロピー損失を使用してトレーニングされています。

4.SS と SCE チューニング。3 番目のバリアントでフィルタリングされた信頼性の高いサンプルの完全に接続されたレイヤーをさらに微調整します。

上の表に示すように、元のエンドツーエンドの教師ありトレーニング プロセスを切り離すことは、隠れたバックドアの作成を防ぐのに効果的です。さらに、2 番目と 3 番目の DBD 亜種を比較して、ポイズン タグ バックドア攻撃に対する防御における SCE 損失の有効性を検証します。さらに、4 番目の DBD 変異の ASR および BA は、3 番目の DBD 変異よりも低くなります。この現象は、信頼性の低いサンプルが削除されたことによるものです。これは、信頼性の低いサンプルからの有用な情報を利用しながら副作用を軽減することが防御にとって重要であることを示唆しています。

5.4 潜在的な適応型攻撃に対する耐性

攻撃者が DBD の存在を知っている場合、適応型攻撃を設計する可能性があります。攻撃者が防御者が使用するモデル構造を知ることができれば、以下に示すように、自己教師あり学習後にポイズニングされたサンプルが新しいクラスターに残るようにトリガー パターンを最適化することで適応型攻撃を設計できます。

攻撃設定

分類問題では、汚染する必要があるクリーンなサンプルを表し、サンプルを元のラベルで表し、訓練されたバックボーンであるとします。攻撃者による事前に汚染された画像の生成器が与えられた場合、適応型攻撃は、汚染された画像間の距離を最小限に抑えながら、汚染された画像の中心と、異なるラベルが付いた無害な画像のクラスターの中心との間の距離を最大化することにより、トリガー パターンを最適化することを目的としています。 .距離、つまり。

DBD: 基于分割后门训练过程的后门防御方法

# は距離の決定です。

DBD: 基于分割后门训练过程的后门防御方法実験結果

防御なしの適応攻撃のBAは94.96%、ASRは99.70%でした。ただし、DBDの防御結果はBA93.21%、ASR1.02%でした。言い換えれば、DBD はそのような適応型攻撃に対して耐性があります。

6 概要

ポイズニングベースのバックドア攻撃のメカニズムは、トレーニング プロセス中にトリガー パターンとターゲット ラベルの間に潜在的な接続を確立することです。この論文では、この接続が主にエンドツーエンドの教師ありトレーニング パラダイム学習によるものであることを明らかにしています。この理解に基づいて、この記事ではデカップリングに基づくバックドア防御方法を提案します。多数の実験により、DBD 防御が良性サンプルの予測において高い精度を維持しながらバックドアの脅威を軽減できることが検証されています。

以上が細分化されたバックドアトレーニングのバックドア防御手法:DBDの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。