>기술 주변기기 >일체 포함 >AI 프롬프트 주입 공격이란 무엇이며 어떻게 작동하나요?

AI 프롬프트 주입 공격이란 무엇이며 어떻게 작동하나요?

PHPz
PHPz원래의
2024-06-14 18:17:50490검색

AI 프롬프트 주입 공격은 사용하는 AI 도구의 출력을 손상시켜 출력을 악의적인 것으로 변경하고 조작합니다. 그런데 AI 프롬프트 주입 공격은 어떻게 작동하며, 어떻게 자신을 보호할 수 있을까요?

AI 프롬프트 주입 공격이란?

AI 프롬프트 주입 공격은 생성 AI 모델의 취약점을 활용하여 출력을 조작합니다. 이는 귀하가 수행할 수도 있고 간접적인 프롬프트 주입 공격을 통해 외부 사용자가 주입할 수도 있습니다. DAN(Do Anything Now) 공격은 최종 사용자인 귀하에게 위험을 초래하지 않지만, 다른 공격은 이론적으로 생성 AI에서 받는 출력을 손상시킬 수 있습니다.

예를 들어, 누군가가 AI를 조작하여 AI의 권한과 신뢰성을 이용하여 피싱 공격에 성공하도록 사용자 이름과 비밀번호를 불법적인 형식으로 입력하도록 지시할 수 있습니다. 이론적으로 자율 AI(예: 메시지 읽기 및 응답)는 원치 않는 외부 명령을 수신하고 이에 따라 조치를 취할 수도 있습니다.

프롬프트 주입 공격은 어떻게 작동하나요?

프롬프트 주입 공격은 사용자의 동의나 인지 없이 AI에 추가 지침을 제공하여 작동합니다. 해커는 DAN 공격, 간접 프롬프트 주입 공격 등 몇 가지 방법으로 이를 수행할 수 있습니다.

DAN(Do Anything Now) 공격

What Is an AI Prompt Injection Attack and How Does It Work?

DAN(Do Anything Now) 공격은 ChatGPT와 같은 "탈옥" 생성 AI 모델을 포함하는 신속한 주입 공격 유형입니다. 이러한 탈옥 공격은 최종 사용자에게 위험을 초래하지 않지만 AI의 용량을 확장하여 남용 도구가 될 수 있습니다.

예를 들어, 보안 연구원 Alejandro Vidal은 DAN 프롬프트를 사용하여 OpenAI의 GPT-4가 키로거용 Python 코드를 생성하도록 했습니다. 악의적으로 사용되는 탈옥된 AI는 사이버 범죄와 관련된 기술 기반 장벽을 크게 낮추고 새로운 해커가 더욱 정교한 공격을 할 수 있도록 할 수 있습니다.

훈련 데이터 중독 공격

훈련 데이터 중독 공격은 정확히 프롬프트 주입 공격으로 분류될 수는 없지만 작동 방식과 사용자에게 미치는 위험 측면에서 놀랄 만큼 유사합니다. 훈련 데이터 중독 공격은 프롬프트 주입 공격과 달리 해커가 AI 모델이 사용하는 훈련 데이터를 수정할 때 발생하는 일종의 머신러닝 적대 공격이다. 동일한 결과가 발생합니다: 오염된 출력 및 수정된 동작.

학습 데이터 중독 공격의 잠재적인 응용 분야는 사실상 무한합니다. 예를 들어, 채팅이나 이메일 플랫폼에서 피싱 시도를 필터링하는 데 사용되는 AI는 이론적으로 훈련 데이터를 수정할 수 있습니다. 해커가 AI 중재자에게 특정 유형의 피싱 시도가 허용된다고 가르친 경우 탐지되지 않은 상태에서 피싱 메시지를 보낼 수 있습니다.

훈련 데이터 중독 공격은 직접적으로 해를 끼칠 수는 없지만 다른 위협을 초래할 수 있습니다. 이러한 공격으로부터 자신을 보호하려면 AI가 완벽한 것은 아니며 온라인에서 접하는 모든 것을 면밀히 조사해야 한다는 점을 기억하십시오.

간접 프롬프트 주입 공격

간접 프롬프트 주입 공격은 최종 사용자인 사용자에게 가장 큰 위험을 초래하는 프롬프트 주입 공격 유형입니다. 이러한 공격은 원하는 입력을 받기 전에 API 호출과 같은 외부 리소스에 의해 생성 AI에 악의적인 명령이 공급될 때 발생합니다.

What Is an AI Prompt Injection Attack and How Does It Work?

arXiv의 간접 프롬프트 주입으로 실제 LLM 통합 애플리케이션 손상이라는 제목의 논문[PDF]에서는 AI가 숨겨진 방법을 사용하여 답변 내에서 사용자가 피싱 웹 사이트에 가입하도록 설득하도록 지시할 수 있는 이론적 공격을 보여주었습니다. 텍스트(사람의 눈에는 보이지 않지만 AI 모델에서는 완벽하게 읽을 수 있음)를 사용하여 정보를 은밀하게 주입합니다. GitHub에 기록된 동일한 연구 팀의 또 다른 공격은 Copilot(이전의 Bing Chat)이 신용 카드 정보를 찾는 실시간 지원 에이전트임을 사용자에게 확신시키기 위해 만들어진 공격을 보여줍니다.

간접 프롬프트 주입 공격은 신뢰할 수 있는 AI 모델로부터 받은 답변을 조작할 수 있기 때문에 위협적입니다. 그러나 그것이 그들이 제기하는 유일한 위협은 아닙니다. 앞서 언급한 바와 같이, 이는 귀하가 사용할 수 있는 자율 AI가 예상치 못한(잠재적으로 해로운) 방식으로 작동하도록 만들 수도 있습니다.

AI 프롬프트 주입 공격이 위협인가요?

AI 프롬프트 주입 공격은 위협적이지만 이러한 취약점이 어떻게 활용될 수 있는지는 정확히 알려져 있지 않습니다. 성공적인 AI 프롬프트 주입 공격은 알려진 바 없으며, 알려진 시도 중 다수는 실제로 해를 끼칠 의도가 없는 연구원에 의해 수행되었습니다. 그러나 많은 AI 연구자들은 AI 신속한 주입 공격을 AI를 안전하게 구현하는 데 가장 어려운 과제 중 하나로 간주합니다.

게다가 당국은 AI 신속한 주입 공격의 위협을 간과하지 않았습니다. 워싱턴 포스트(Washington Post)에 따르면 2023년 7월 연방거래위원회(Federal Trade Commission)는 OpenAI를 조사하여 알려진 즉시 주입 공격 발생에 대한 추가 정보를 찾았습니다. 아직까지 실험을 통해 성공한 공격은 알려져 있지 않지만 상황은 바뀔 가능성이 높습니다.

해커들은 끊임없이 새로운 매체를 찾고 있으며, 앞으로 해커들이 어떻게 신속한 주입 공격을 활용할지는 추측만 할 뿐입니다. 항상 AI에 대해 건전한 조사를 적용하면 자신을 보호할 수 있습니다. 그런 점에서 AI 모델은 매우 유용하지만 AI에는 없는 인간의 판단이 있다는 점을 기억하는 것이 중요합니다. Copilot과 같은 도구에서 받은 출력을 주의 깊게 조사하고 AI 도구가 발전하고 개선됨에 따라 이를 즐겨 사용해야 한다는 점을 기억하십시오.

위 내용은 AI 프롬프트 주입 공격이란 무엇이며 어떻게 작동하나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.