>기술 주변기기 >일체 포함 >GPT-4P가 다중 모드 힌트 삽입 이미지 공격에 취약한 이유는 무엇입니까?

GPT-4P가 다중 모드 힌트 삽입 이미지 공격에 취약한 이유는 무엇입니까?

WBOY
WBOY앞으로
2023-10-30 15:21:171375검색

OpenAI의 새로운 GPT-4V 버전은 이미지 업로드를 지원합니다. 이는 새로운 공격 경로를 제공하여 LLM(대형 언어 모델)을 다중 모달 주입 이미지 공격에 취약하게 만듭니다. 공격자는 이미지에 명령, 악성 스크립트 및 코드를 삽입할 수 있으며, 모델은 이를 준수합니다.

다중 모드 프롬프트 삽입 이미지 공격은 데이터 유출, 쿼리 리디렉션, 오류 메시지 생성, 더 복잡한 스크립트 실행을 통해 LLM이 데이터를 해석하는 방식을 재정의할 수 있습니다. LLM의 용도를 변경하여 이전에 설치된 보안 가드레일을 무시하고 조직을 손상시킬 수 있는 명령을 실행하여 사기부터 운영 방해 행위에 이르기까지 다양한 위협을 가할 수 있습니다.

LLM을 워크플로의 일부로 사용하는 모든 기업은 어려움에 직면하지만, 이미지 분석 및 분류를 위해 LLM을 비즈니스의 핵심으로 사용하는 기업은 가장 큰 위험에 직면합니다. 다양한 기술을 활용하는 공격자는 이미지가 해석되고 분류되는 방식을 빠르게 변경하여 더 혼란스러운 결과를 초래할 수 있습니다.

LLM의 프롬프트가 재정의되면 악성 명령과 실행 스크립트가 무시될 가능성이 더 높습니다. 공격자는 LLM에 업로드된 일련의 이미지에 명령을 삽입하여 사기 및 운영 방해 행위를 저지를 수 있으며 사회 공학 공격을 용이하게 할 수도 있습니다.

이미지는 LLM이 방어할 수 없는 공격 벡터입니다.

LLM이 방어할 수 없기 때문에 처리 중에는 데이터 정리 단계가 없으므로 모든 이미지를 신뢰할 수 없습니다. 모든 데이터 세트, 애플리케이션 또는 리소스에 대한 액세스 제어 없이 ID가 네트워크에서 자유롭게 로밍되도록 하는 것이 매우 위험한 것처럼 LLM에 업로드된 이미지에도 위험이 있습니다.

기업이 개인 LLM을 보유하는 상황 이러한 상황에서는 최소 권한 액세스 핵심 네트워크 보안 전략으로 채택되어야 합니다

Simon Willison은 최근 블로그 게시물에서 GPT-4V가 신속한 주입 공격의 주요 채널이 된 이유를 자세히 설명하고 LLM이 근본적으로 속이기 쉽다고 지적했습니다. 블로그 게시물 링크: https://simonwillison.net/2023/Oct/14/multi-modal-prompt-injection/

Willison은 프롬프트 주입을 통해 Auto-GPT와 같은 자율 인공지능 에이전트를 하이재킹하는 방법을 보여줍니다. 그는 단일 이미지에 명령을 삽입하는 것으로 시작하여 점차 시각적 큐 주입 침투 공격으로 발전하는 간단한 시각적 큐 주입 예를 자세히 설명합니다.

BDO UK의 데이터 분석 및 인공 지능 수석 관리자인 Paul Ekwere는 다음과 같이 말했습니다. 공격 특히 이미지나 영상을 처리하는 비전 기반 모델의 경우 LLM의 보안과 신뢰성에 심각한 위협이 됩니다. 이러한 모델은 얼굴 인식, 자율 주행, 의료 진단 및 모니터링과 같은 분야에서 널리 사용됩니다.”

OpenAI. 현재 다중 모드 프롬프트 삽입 이미지 공격에 대한 솔루션이 없으므로 사용자와 기업이 스스로 책임을 져야 합니다. Nvidia 개발자 사이트(https://developer.nvidia.com/blog/mitigating-stored-prompt-injection-attacks-against-llm-applications/)의 블로그 게시물은 모든 데이터 저장 및 시스템 시행을 포함한 몇 가지 권장 사항을 제공합니다. 최소 권한 액세스

다중 모드 프롬프트 주입 이미지 공격의 작동 방식

다중 모드 프롬프트 주입 공격은 GPT-4V의 시각적 이미지 처리 취약점을 악용하여 감지되지 않은 악성 명령을 실행합니다. GPT-4V는 시각적 이미지에 의존합니다. 변환 인코더는 이미지를 잠재 공간 표현으로 변환하고 이미지와 텍스트 데이터를 결합하여 응답을 생성합니다.

모델에는 인코딩 전에 시각적 입력을 정리할 방법이 없습니다. 공격자는 원하는 만큼의 명령을 포함할 수 있으며 GPT-4는 이를 합법적인 명령으로 간주합니다. 개인 LLM에 대해 다중 모드 힌트 주입 공격을 자동으로 수행하는 공격자는 눈에 띄지 않습니다.

주입된 이미지 공격 포함

이러한 보호되지 않은 이미지 공격 벡터의 문제는 공격자가 시간이 지남에 따라 LLM에서 훈련한 데이터의 신뢰성을 떨어뜨릴 수 있다는 것입니다. 데이터 충실도도 점차 감소합니다.

최근 연구 논문(https://arxiv.org/pdf/2306.05499.pdf)은 힌트 주입 공격으로부터 LLM을 더 효과적으로 보호하는 방법에 대한 지침을 제공합니다. 위험의 정도와 잠재적인 해결책을 결정하기 위해 연구진은 LLM을 통합한 응용 프로그램에 대한 주입 공격의 효율성을 평가하기 위해 고안된 일련의 실험을 수행했습니다. 연구팀은 LLM을 통합한 31개의 애플리케이션이 주입 공격에 취약하다는 사실을 발견했습니다.

연구 논문에서는 주입 이미지 공격을 억제하기 위해 다음과 같은 권장 사항을 제시합니다.

사용자 입력 청결성 및 검증 절차를 개선하세요.

개인 애플리케이션의 경우 표준화를 추구하는 기업의 경우 LLM에서는 IAM(ID 액세스 관리) 및 최소 권한 액세스가 기본 구성입니다. LLM 제공업체는 처리를 위해 이미지 데이터를 전달하기 전에 보다 철저한 정리 수행을 고려해야 합니다

다시 작성해야 할 사항은 다음과 같습니다. 2. 플랫폼 아키텍처를 개선하고 시스템 로직에서 사용자 입력을 분리합니다

사용자 입력이 LLM 코드 및 데이터에 직접 영향을 미칠 위험을 제거하는 것이 목적이어야 합니다. 내부 논리나 작업 흐름에 영향을 주지 않도록 모든 이미지 신호를 처리해야 합니다.

다단계 처리 워크플로를 사용하여 악성 공격 식별

이미지 기반 공격을 조기에 포착하여 이 위협을 더 잘 관리할 수 있는 다단계 프로세스를 구축할 수 있습니다.

4 탈옥을 방지하기 위한 방어 팁을 맞춤 설정하세요

탈옥은 LLM이 불법적인 작업을 수행하도록 유도하는 데 사용되는 일반적인 힌트 엔지니어링 기술 악의적으로 보이는 이미지 입력에 힌트를 첨부하면 LLM을 보호하는 데 도움이 될 수 있습니다. 그러나 연구원들은 지능형 공격이 여전히 이 접근 방식을 우회할 수 있다고 경고합니다.

기세를 얻고 있는 위협

점점 더 많은 LLM이 다중 모드 모델로 전환함에 따라 이미지는 공격자가 보호 조치를 우회하고 재정의하기 위해 사용할 수 있는 최신 위협 벡터가 됩니다. 이미지 기반 공격은 간단한 명령부터 산업 피해를 일으키고 광범위한 잘못된 정보를 확산시키도록 설계된 보다 복잡한 공격 시나리오까지 심각도가 다양합니다.

이 기사의 출처는 https://venturebeat.com/security/why-gpt-4-is입니다. -다중 모드에 취약한 프롬프트 주입-이미지 공격/. 재인쇄가 필요하시면 출처를 꼭 밝혀주세요

위 내용은 GPT-4P가 다중 모드 힌트 삽입 이미지 공격에 취약한 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제