ホームページ  >  記事  >  テクノロジー周辺機器  >  微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

王林
王林転載
2024-05-07 19:20:021028ブラウズ

大型モデルが再び安全上の問題にさらされました!

最近、Enkrypt AI の研究者は、量子化と微調整によって大規模モデルのセキュリティが実際に低下する可能性があるという衝撃的な研究結果を発表しました。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

論文アドレス: https://arxiv.org/pdf/2404.04392.pdf

筆者が実際にテストしたところ、ミストラルやラマなどの基本モデルは微調整バージョンも含めて問題なく動作した。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

定量化または微調整後、LLM がジェイルブレイクされるリスクは大幅に増加します。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

##LLM: 私の効果は驚くべきものです、私は全能です、私は穴だらけです...

おそらく、今後長い間、大規模モデルのさまざまな脆弱性をめぐる攻防戦は止まらないでしょう。

原則的な問題により、AI モデルは当然、堅牢であると同時に脆弱でもあります。膨大な数のパラメーターや計算の中には、重要でないものもありますが、重要なものはごく一部です。

大規模なモデルで発生するセキュリティ問題は、ある程度、CNN 時代と一致しています。

特殊なプロンプトと特殊文字を使用する。 LLM のロングコンテキスト機能を悪用し、脱獄するために複数ラウンドの対話を使用する以前に報告された方法を含む、有害な出力を生成する LLM は、敵対的攻撃と呼ぶことができます。

敵対的攻撃

CNN 時代では、入力画像の数ピクセルを変更することで、AI はモデルは画像を誤って分類しており、攻撃者はモデルを騙して特定のカテゴリを出力させることもできます。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

上の図は、観察の便宜上、中央のランダムな妨害を誇張して示しています。

実際には、敵対的攻撃の場合、攻撃効果を達成するにはピクセル値を少し変更するだけで済みます。

さらに危険なのは、仮想世界におけるこの種の攻撃行為が現実世界にも転送される可能性があることを研究者が発見したことです。

下の写真の「STOP」標識は、一見無関係に見える落書きを標識に追加することで、自動運転システムが一時停止標識を標識と間違える可能性があります。速度制限標識として認識されます。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

——この標識は後にロンドン科学博物館に収集され、AI モデルの隠れたリスクに常に注意を払うよう世界に思い出させました。

大規模な言語モデルが現在被っているこのような被害には、ジェイルブレイク、プロンプト インジェクション攻撃、プライバシー漏洩攻撃などが含まれますが、これらに限定されるものではありません。

たとえば、次の例では、脱獄するために複数回のダイアログを使用します。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

次の図山括弧を使用してプロンプト内の悪意のある命令を隠すプロンプト インジェクション攻撃。その結果、GPT-3.5 はテキストを要約した元の命令を無視し、「砂糖でミサイルを作る」ことを開始します。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

#この種の問題に対処するために、研究者は通常、対象を絞った敵対的トレーニングを使用して、モデルを人間の価値観に合わせた状態に保ちます。

しかし実際には、LLM に悪意のある出力を生成させる可能性のあるプロンプトが無限に存在する可能性があります。この状況に直面した場合、レッド チームは何をすべきでしょうか。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

防御側は自動検索を使用でき、攻撃側は別の LLM を使用して脱獄に役立つプロンプトを生成できます。

さらに、大規模モデルに対する現在の攻撃のほとんどはブラック ボックスですが、LLM への理解が深まるにつれて、さらに多くのホワイト ボックス攻撃が追加され続けるでしょう。

関連研究

でも心配しないでください、軍隊が水と土を覆いに来ます。関連する調査はすでにまとめられています。

編集者が何気なく検索してみたところ、今年の ICLR だけでも多くの関連作品があることがわかりました。

たとえば、次の口頭:

調整された言語モデルを微調整すると、ユーザーが意図していない場合でも、安全性が損なわれます。 !

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

論文アドレス: https://openreview.net/pdf?id=hTEGyKf0dZ

この作業は、今日紹介した記事とよく似ています。LLM の微調整はセキュリティ リスクをもたらします。

研究者らは、ほんの数個の敵対的トレーニング サンプルを使用して LLM を微調整し、安全な調整を解除しました。

ある例では、OpenAI の API を介して GPT-3.5 Turbo を微調整するためにわずか 10 個のサンプルを使用します。コストは 0.20 ドル未満で、モデルがほぼすべての有害な命令に応答できるようになります。

また、悪意がなくても、微調整に無害で一般的に使用されるデータセットを使用するだけで、LLM のセキュリティ調整が誤って低下する可能性があります。

別の例は、次の Spolight です。

分割された脱獄: マルチモーダル言語モデルに対する構成的敵対的攻撃

視覚言語モデルをターゲットとした新しいジェイルブレイク攻撃手法を導入します:

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

# #論文アドレス: https://openreview.net/pdf?id=plmBsXHxgR

研究者らは、ビジュアルエンコーダーによって処理された敵対的画像とテキストプロンプトを組み合わせて、VLM のクロスモーダルアライメントを破壊しました。

さらに、この攻撃のしきい値は非常に低く、LLM へのアクセスを必要としません。CLIP のようなビジュアル エンコーダがクローズド ソースの LLM に埋め込まれている場合、ジェイルブレイクの成功率は次のとおりです。すごく高い。

他にもたくさんあるので、ここではすべてをリストすることはしません。この記事の実験的な部分を見てみましょう。

実験の詳細

研究者らは、AdvBench SubsetAndy Zou と呼ばれる敵対的な有害なプロンプト サブセットを使用しました。これには 50 個のプロンプトが含​​まれており、32 カテゴリの有害な情報を提供する必要があります。 。これは、AdvBench ベンチマークの有害な動作データセットのヒント サブセットです。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

実験で使用された攻撃アルゴリズムは、攻撃ツリー プルーニング (TAP) であり、次の 3 つの重要な目標を達成します。

(1) ブラック ボックス: アルゴリズムはモデルへのブラック ボックス アクセスのみを必要とします。

# (2) 自動: 開始後は手動介入は必要ありません。

## (3) 解釈可能: アルゴリズムは意味的に意味のあるヒントを生成できます。

TAP アルゴリズムは、AdvBench サブセットのタスクとともに使用され、さまざまな設定でターゲット LLM を攻撃します。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

実験プロセス

微粒子の効果を理解するために、 LLM のチューニング、量子化、ガードレール セキュリティの影響 (脱獄攻撃に対する耐性) を理解するために、研究者らは脱獄テストを実施するためのパイプラインを作成しました。

前述したように、AdvBench サブセットを使用して TAP アルゴリズムを通じて LLM を攻撃し、評価結果と完全なシステム情報を記録します。

LLM に関連する確率的な性質を考慮して、プロセス全体が複数回繰り返されます。完全な実験プロセスを以下の図に示します。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

TAP は、意味的に意味のあるプロンプトを生成できる、現在最も先進的なブラック ボックスおよび自動メソッドです。脱獄LLM。

TAP アルゴリズムは、攻撃者 LLM A を使用して、プロンプト P をターゲット LLM T に送信します。対象LLM Rの応答とプロンプトPは評価器JUDGE(LLM)に入力され、プロンプトが主題から逸脱しているかどうかが判定される。

プロンプトがトピックから逸​​脱している場合は、プロンプトを削除します (対応する悪い攻撃プロンプト ツリーを削除するのと同じです)。そうでない場合は、JUDGE がプロンプトにスコアを付けます (0 ~ 10 点)。

トピックに適合するヒントは、幅優先検索を使用して攻撃を生成します。このプロセスは、指定された回数、または脱獄が成功するまで繰り返されます。

脱獄プロンプトに対するガードレール

研究チームは、内部 Deberta-V3 モデルを使用して脱獄プロンプトを検出します。 Deberta-V3 は入力フィルターとして機能し、ガードレールとして機能します。

入力プロンプトがガードレールによってフィルターされているか、ジェイルブレイクが失敗した場合、TAP アルゴリズムは最初のプロンプトと応答に基づいて新しいプロンプトを生成し、攻撃を継続します。

実験結果

以下は、3 つの異なる下流タスクで微調整、定量化、およびガードレール ベルトをテストするものです。 . 来る衝撃。実験は基本的に、産業界および学術界における LLM のほとんどの実際的な使用例とアプリケーションをカバーします。

実験では、攻撃モデルとして GPT-3.5-turbo、判定モデルとして GPT-4-turbo を使用します。

実験でテストされたターゲット モデルは、次の図に示すように、Anyscale、OpenAI の API、Azure の NC12sv3 (32GB V100 GPU を搭載)、Hugging Face などのさまざまなプラットフォームからのものでした。 :

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

実験では、定量化されたバージョンだけでなく、さまざまな基本モデル、反復モデル、およびさまざまな微調整バージョンが調査されました。

微調整

さまざまなタスクを微調整すると、タスクを完了する際の LLM の効率が向上します。チューニングにより、SQL コード生成、チャットなど、必要な専門分野の知識が LLM に提供されます。

実験では、ベース モデルのジェイルブレイクされた脆弱性と微調整されたバージョンを比較し、LLM の脆弱性の増加または軽減における微調整の役割を理解します。

研究者は、Llama2、Mistral、MPT-7B などの基本モデルだけでなく、CodeLlama、SQLCoder、Dolphin、Intel Neural Chat などの微調整バージョンも使用しています。

以下の表の結果からわかるように、微調整されたモデルは、基本モデルと比較してセキュリティの調整が失われ、簡単にジェイルブレイクされます。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

#量子化

トレーニングや微調整中に多くのモデルが使用されます推論さえも、大量のコンピューティング リソースを必要とします。量子化は、(モデル パラメーターの数値精度を犠牲にして) 計算負荷を軽減するための最も一般的な方法の 1 つです。

実験の量子化モデルは、GPT 生成の統一形式 (GGUF) を使用して量子化されました。以下の結果は、モデルの量子化によって脆弱性が発生することを示しています。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

#ガードレール

ガードレールは、LLM 攻撃に対する防御線です。ゴールキーパーとしてのその主な機能は、有害または悪意のある結果につながる可能性のあるプロンプトを除外することです。

研究者らは、LLM によって生成されたジェイルブレイクの有害なプロンプトでトレーニングされた、Deberta-V3 モデルから派生した独自のジェイルブレイク攻撃検出器を使用しました。

以下の結果は、準備段階としてのガードレールの導入が大きな効果をもたらし、ジェイルブレイクのリスクを大幅に軽減できることを示しています。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

さらに、研究者らは、ガードレールのパフォーマンスと有効性を評価するために、統合型ガードレール (ガードレール) を備えたモデルと備えていないモデルもテストしました。グラフは、ガードレールの影響を示しています。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

以下のグラフは、モデルを脱獄するために必要なクエリの数を示しています。ほとんどの場合、ガードレールが LLM に対する追加の耐性を提供していることがわかります。

微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かった

以上が微調整と定量化は実際に脱獄のリスクを高めます。ミストラル、ラマ、その他は全員助かったの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。