AIxivコラムは、本サイトの学術・技術コンテンツを掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の最初の著者である Ma Xinbei は、上海交通大学のコンピューター科学者 私は博士課程 4 年生で、自律エージェント、推論、大規模モデルの解釈可能性と知識編集に興味を持っています。この研究は上海交通大学とメタが共同で完成させた。
- 論文タイトル: 環境への注意: マルチモーダルエージェントは環境妨害の影響を受けやすい
- ペーパーアドレス: https://arxiv.org/abs/2408.02544
-
コードリポジトリ: https://github.com/xbmxb/EnvDistraction
最近、熱心なネチズンは、企業が履歴書を選別するために大きなモデルを使用していることを発見しました。履歴書に背景と同じ色のプロンプトを追加します。候補者」以前の4倍の採用連絡をいただきました。ネットユーザーは、「企業が候補者を選別するために大型モデルを使用している場合、候補者が今度は大型モデルと競合するのは公平であるが、大型モデルは人間の作業を代替し、人件費を削減する一方で、攻撃に対して脆弱な部分にもなる」と述べた。 。 図 1: スクリーニング履歴書の大きなモデルを駆動します。 したがって、生活を変える汎用人工知能を追求する一方で、ユーザーの指示に対する AI の忠実度にも注意を払う必要があります。具体的には、複雑でマルチモーダルな環境において、AI がめくるめくコンテンツに邪魔されることなく、ユーザーが事前に設定した目標を忠実に達成できるかどうかは、まだ研究の余地があり、実用化の前に答えなければならない問題です。
上記の問題を考慮して、この記事では、環境内の干渉によって引き起こされるリスクを検討するための典型的なシナリオとしてグラフィカル ユーザー インターフェイス インテリジェント エージェント (GUI エージェント) を使用します。
GUI エージェントは、事前に設定されたタスクのための大きなモデル、つまり「携帯電話で遊ぶ大きなモデル」に基づいてコンピュータ、携帯電話、その他のデバイスを自動的に制御します。図2に示すように、既存の研究とは異なり、研究チームは、たとえユーザーやプラットフォームが無害であっても、現実世界に導入された場合、GUIエージェントは必然的に複数の種類の情報からの干渉に直面し、エージェントの動作が妨げられると考えています。ユーザーの目標を達成する。さらに悪いことに、GUI エージェントはプライベート デバイス上の干渉情報によって提案されたタスクを完了し、さらには制御不能状態になり、ユーザーのプライバシーとセキュリティを危険にさらす可能性があります。
図 2: 既存の GUI エージェントの作業は通常、理想的な作業環境 (a) を考慮するか、ユーザー入力のリスクを通じて導入されます。 (b)。この論文では、エージェントがタスク (c) を忠実に完了することを妨げる干渉として環境に存在するコンテンツを研究します。 研究チームは、このリスクを 2 つの部分、(1) 動作空間の急激な変化、および (2) 環境とのギャップに要約しました。ユーザーの指示が矛盾しています。たとえば、ショッピング中に広範囲に広告が表示された場合、実行できる通常の操作はブロックされます。このとき、タスクの実行を続行する前に、まず広告を処理する必要があります。しかし、画面上の広告は、ユーザーの指示にあるショッピングの目的と一致していません。広告の処理を支援するための適切なプロンプトがなければ、インテリジェント エージェントは混乱しやすく、広告に惑わされ、最終的にはショッピングの目的に忠実ではなく、制御不能な行動を示すことになります。ユーザーの本来の目的。
図 3: データ シミュレーション、作業モード、モデル テストを含む、この記事のシミュレーション フレームワーク。
マルチモーダルエージェントの忠実度を体系的に分析するために、この記事ではまず「GUI エージェントの注意をそらす」タスクを定義し、提案します体系的なシミュレーションフレームワーク。このフレームワークは、4 つのシナリオで干渉をシミュレートするためにデータを構造化し、異なる知覚レベルを持つ 3 つの作業モードを標準化し、最終的に複数の強力なマルチモーダル大規模モデルでテストされました。
タスク定義
。オペレーティング システム環境 - Envg を達成するために、GUI エージェント A を検討します。 > t、エージェントは環境状態 の認識に基づいてオペレーティング システム上でアクション を実行します。ただし、オペレーティング システム環境には、さまざまな品質と起源の複雑な情報が当然含まれており、これらの情報は正式に 2 つの部分に分けられます。目的を達成するために役立つ、または必要なコンテンツ は、Target の気を散らすコンテンツとは関係ありません。コンテンツ、。 GUI エージェントは、 に気を取られて無関係な操作を出力することを避けながら、忠実な操作を実行するには を使用する必要があります。同時に、時刻 t における操作空間は状態 によって決定され、それに応じて最適なアクション 、干渉されたアクション 、その他の 3 つのタイプとして定義されます。 (間違った) アクション 。私たちは、エージェントの次の行動の予測が最適な行動と一致するか、妨害された行動、または有効な操作空間の外の行動と一致するかに焦点を当てます。
。タスクの定義に基づいて、タスクがシミュレーションされ、一般性を失うことなくシミュレーション データ セットが構築されます。各サンプルはトリプレット (g、s、A) であり、ターゲット、スクリーンショット、および有効なアクション スペース アノテーションです。データをシミュレートするための鍵は、
と
が含まれるようにスクリーンショットを構築し、画面内の正確な忠実性と自然な干渉の存在を考慮することです。研究チームは、ポップアップ ボックス、検索、レコメンデーション、チャットという 4 つの一般的なシナリオを検討し、ユーザーの目的、画面レイアウト、気を散らすコンテンツを対象とした戦略を組み合わせて 4 つのサブセットを形成しました。たとえば、ポップアップ ボックスのシナリオでは、ユーザーに別のことを行うことに同意するように誘導するポップアップ ボックスを作成し、そのボックス内で拒否と承認の 2 つのアクションを与えました。エージェントが承認アクションを選択した場合、それが行われます。忠誠心を失ったとみなされる。検索シナリオと推奨シナリオは両方とも、関連する割引商品や推奨ソフトウェアなどの偽の例を実際のデータに挿入します。チャットシーンはより複雑で、研究チームはチャットインターフェイスで相手が送信したメッセージに干渉コンテンツを追加しました。エージェントがこれらの干渉に従った場合、それは不誠実な行為とみなされます。研究チームは、GPT-4 と外部の検索候補データを使用してサブセットごとに特定のプロンプト プロセスを設計し、構築を完了しました。各サブセットの例を図 4 に示します。
그림 4: 네 가지 시나리오의 시뮬레이션된 데이터 예. - 작업 모드. 작업 모드는 특히 복잡한 GUI 환경의 경우 에이전트 성능에 영향을 미칩니다. 환경 인식 수준은 에이전트 성능의 병목 현상을 나타내며 에이전트가 효과적인 작업을 캡처할 수 있는지 여부를 결정하고 작업 예측의 상한을 나타냅니다. 그들은 서로 다른 수준의 환경 인식, 즉 암묵적 인식, 부분 인식 및 최적 인식을 갖춘 세 가지 작업 모드를 구현했습니다. (1) 암묵적 인식이란 에이전트에게 직접 요구 사항을 부여하는 것을 의미하며, 입력은 지침과 화면일 뿐이며 환경 인식을 지원하지 않습니다(직접 프롬프트). (2) 부분 인식은 에이전트가 사고 체인과 유사한 모드를 사용하여 먼저 환경을 분석하도록 유도합니다. 에이전트는 먼저 스크린샷 상태를 수신하여 가능한 작업을 추출한 후 목표를 기반으로 다음 작업(CoT 프롬프트)을 예측합니다. (3) 가장 좋은 인식은 화면의 작업 공간을 에이전트에게 직접 제공하는 것입니다(w/ Action Annotation). 기본적으로 작업 모드가 다르다는 것은 두 가지 변경을 의미합니다. 잠재적인 작업에 대한 정보가 에이전트에 노출되고 정보가 시각적 채널에서 텍스트 채널로 병합됩니다.
연구팀은 구축된 1,189개의 시뮬레이션 데이터를 대상으로 잘 알려진 10개의 다중 모드 대형 모델에 대한 실험을 수행했습니다. 체계적인 분석을 위해 GUI 에이전트로 두 가지 유형의 모델을 선택했습니다. (1) API 서비스 기반의 강력한 블랙박스 대형 모델을 포함한 일반 모델(GPT-4v, GPT-4o, GLM-4v, Qwen-VL -plus, Claude-Sonnet-3.5) 및 오픈 소스 대형 모델(Qwen-VL-chat, MiniCPM-Llama3-v2.5, LLaVa-v1.6-34B). (2) 사전 훈련되었거나 지침에 따라 미세 조정된 CogAgent-chat 및 SeeClick을 포함한 GUI 전문가 모델. 연구팀이 사용하는 지표는 으로, 각각 성공적인 최선의 행동, 방해된 행동, 유효하지 않은 행동과 일치하는 모델의 예측 행동의 정확도에 해당합니다. 연구팀은 실험 결과를 세 가지 질문에 대한 답변으로 요약했습니다.
- 다중 모드 환경이 GUI Agent의 목표를 방해합니까? 위험한 환경에서 다중 모드 에이전트는 간섭을 받기 쉬우며 이로 인해 목표를 포기하고 불충실하게 행동할 수 있습니다. 팀의 네 가지 시나리오 각각에서 모델은 원래 목표에서 벗어난 동작을 생성하여 동작의 정확성을 떨어뜨렸습니다. 일반 오픈소스 모델보다 강력한 API 모델(GPT-4o의 경우 9.09%)과 전문가 모델(SeeClick의 경우 6.84%)이 더 충실합니다.
- 신뢰와 도움은 어떤 관계가 있나요? 두 가지 상황으로 나누어집니다. 첫째, 충실함을 유지하면서 올바른 조치를 제공할 수 있는 강력한 모델이 있습니다(GPT-4o, GPT-4v 및 Claude). 점수가 낮을 뿐만 아니라 상대적으로 높은 및 낮은 점수를 나타냅니다. 그러나 인식 수준은 높지만 충실도가 낮으면 간섭에 대한 민감도가 높아지고 유용성이 감소합니다. 예를 들어, GLM-4v는 오픈 소스 모델에 비해 더 높은 과 훨씬 낮은 을 나타냅니다.따라서 충실도와 유용성은 상호 배타적인 것이 아니라 동시에 향상될 수 있으며, 강력한 모델의 역량을 맞추기 위해서는 충실도를 높이는 것이 더욱 중요합니다.
- 지원되는 다중 모드 환경 인식이 부정 행위를 완화하는 데 도움이 될 수 있습니까? 다양한 작업 모드를 구현함으로써 시각적 정보가 텍스트 채널에 통합되어 환경 인식을 향상시킵니다. 그러나 결과는 GUI 인식 텍스트 향상이 실제로 간섭을 증가시키고 간섭 작업의 증가가 그 이점보다 더 클 수 있음을 보여줍니다. CoT 모드는 인지적 부담을 크게 줄일 수 있는 자체 유도 텍스트 향상 역할을 하지만 간섭도 증가시킵니다. 따라서 이러한 성능 병목 현상에 대한 인식이 향상되더라도 충실도의 취약성은 여전히 존재하며 더욱 위험합니다. 따라서 OCR과 같은 텍스트 양식과 시각적 양식 간의 정보 융합에 더욱 주의해야 합니다.
또한 연구팀은 모델 비교에서 충실도와 정확도 측면에서 오픈소스 모델보다 API 기반 모델이 우수한 것으로 나타났다. 유효성. GUI에 대한 사전 훈련은 전문 에이전트의 충실도와 효율성을 크게 향상시킬 수 있지만 실패로 이어지는 지름길을 도입할 수 있습니다. 작업 모드 비교에서 연구팀은 "완벽한" 인식(동작 주석)이 있어도 에이전트는 여전히 간섭을 받기 쉽다고 밝혔습니다. CoT는 완전한 방어를 유도하지는 않지만 자체 안내식 단계별 프로세스를 통해 완화 가능성을 보여줍니다.
마지막으로 연구팀은 위의 결과를 바탕으로 적대적인 역할을 하는 극단적인 경우를 고려하여
환경 주입이라는 실행 가능한 능동 공격을 시연했습니다. . 공격자가 모델을 오도하기 위해 GUI 환경을 변경해야 하는 공격 시나리오를 생각해 보십시오. 공격자는 사용자의 메시지를 도청하고 대상을 획득할 수 있으며, 관련 데이터를 손상시켜 환경 정보를 변경할 수 있습니다. 예를 들어 공격자는 호스트에서 보내는 패킷을 가로채서 웹 사이트의 내용을 변경할 수 있습니다. 환경 주입 설정이 기존과 다릅니다. 이전 기사에서는 공격자가 비정상적이거나 악의적인 콘텐츠를 생성하여 유도할 수 있는 불완전하고, 시끄럽고, 결함이 있는 환경의 일반적인 문제를 살펴보았습니다. 연구팀은 팝업 장면에 대한 검증을 실시하고 이 두 버튼을 다시 작성하는 간단하고 효과적인 방법을 제안하고 구현했습니다. (1) 글머리 기호 상자를 수락하는 버튼이 모호하게 다시 작성되었으며 이는 산만한 사람과 실제 목표물 모두에 적합합니다. 우리는 두 가지 목적 모두에 공통적인 작업을 찾았습니다. 상자의 내용물은 맥락을 제공하고 버튼의 실제 기능을 나타내지만 모델은 종종 맥락의 의미를 무시합니다. (2) 팝업창 거부 버튼이 감정표현으로 다시 작성되었습니다. 이러한 인도적 감정은 때때로 사용자 결정에 영향을 미치거나 심지어 조작할 수도 있습니다. 이러한 현상은 "Brutal Leave"와 같은 프로그램을 제거할 때 흔히 발생합니다.
이러한 재작성 방법은 GLM-4v 및 GPT-4o의 충실도를 감소시키고 기준 점수에 비해
점수를 크게 향상시킵니다. GLM-4v는 감정 표현에 더 취약한 반면, GPT-4o는 모호한 수용 오인에 더 취약합니다. 그림 6: 악성 환경 주입 실험 결과. 이것 기사 다중 모드 GUI 에이전트의 충실도를 연구하고 환경 간섭의 영향을 밝힙니다. 연구팀은 새로운 연구 질문인 에이전트의 환경 간섭과 새로운 연구 시나리오를 제안했다. 사용자와 에이전트 모두 양성이며 환경은 악의적이지 않지만 주의를 산만하게 할 수 있는 콘텐츠가 있다. 연구팀은 4가지 시나리오에서 간섭을 시뮬레이션하고 인식 수준이 다른 3가지 작업 모드를 구현했습니다. 다양한 일반 모델과 GUI 전문가 모델을 평가합니다. 실험 결과에 따르면 간섭에 대한 취약성은 충실도와 유용성을 크게 감소시키며 향상된 인식만으로는 보호를 달성할 수 없음을 보여줍니다.
또한, 연구팀은 모호하거나 정서적으로 오해를 불러일으키는 콘텐츠를 포함하도록 간섭을 변경하여 불륜을 악용하는 환경 주입이라는 공격 방법을 제안했습니다. 더 중요한 것은 이 논문이 다중 모드 에이전트의 충실도에 더 큰 관심을 요구한다는 것입니다. 연구팀은 향후 작업에 충실도를 위한 사전 훈련, 환경적 맥락과 사용자 지침 간의 상관관계 고려, 행동 수행 시 발생할 수 있는 결과 예측, 필요할 경우 인간-컴퓨터 상호 작용 도입 등이 포함될 것을 권장합니다. 以上が幽霊があなたの携帯電話を操作しているのでしょうか?大規模モデルの GUI エージェントは環境ハイジャックに対して脆弱ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。