>기술 주변기기 >일체 포함 >ChatGPT 및 대규모 언어 모델: 위험은 무엇입니까?

ChatGPT 및 대규모 언어 모델: 위험은 무엇입니까?

PHPz
PHPz앞으로
2023-04-08 10:41:051308검색

대규모 언어 모델(LLM)과 AI 챗봇은 2022년 말 ChatGPT 출시와 이를 통해 제공되는 쿼리 편의성으로 인해 전 세계적으로 관심을 끌고 있습니다. 이제 이는 역대 가장 빠르게 성장하는 소비자 애플리케이션 중 하나이며, 그 인기로 인해 많은 경쟁업체가 자체 서비스 및 모델을 개발하거나 사내에서 개발한 서비스 및 모델을 신속하게 배포하고 있습니다.

새로운 기술과 마찬가지로 이것이 보안에 어떤 의미인지에 대한 우려가 항상 있습니다. 이 블로그에서는 최근 ChatGPT 및 LLM의 사이버 보안 측면 중 일부를 보다 일반적으로 고려했습니다.

ChatGPT는 무엇이고 LLM은 무엇인가요?

ChatGPT는 미국 기술 스타트업 OpenAI가 개발한 인공지능 챗봇입니다. 이는 딥 러닝을 사용하여 인간과 유사한 텍스트를 생성하는 2020년에 출시된 언어 모델인 GPT-3을 기반으로 하지만 기본 LLM 기술은 오랫동안 사용되어 왔습니다.

LLM은 종종 공개 인터넷에서 스크랩한 대량의 텍스트 기반 데이터에 대해 알고리즘을 훈련하여 웹 페이지를 포괄하고 LLM에 따라 과학 연구, 서적 또는 소셜 미디어 게시물과 같은 기타 소스를 포괄합니다. 너무 많은 양의 데이터를 다루므로 수집 시 불쾌하거나 부정확한 콘텐츠를 모두 필터링하는 것이 불가능하므로 "논쟁의 여지가 있는" 콘텐츠가 모델에 포함될 가능성이 높습니다.

이 알고리즘은 서로 다른 단어 간의 관계를 분석하고 이를 확률 모델로 변환합니다. 그런 다음 알고리즘에 "힌트"(예: 질문을 함으로써)가 제공될 수 있으며 모델에 있는 단어의 관계를 기반으로 답변을 제공합니다.

일반적으로 모델의 데이터는 훈련 후 정적이지만 "미세 조정"(추가 데이터에 대한 훈련) 및 "힌트 확대"(문제에 대한 상황별 정보 제공)를 통해 개선될 수 있습니다. 프롬프트 향상의 예는 다음과 같습니다.

아래 정보를 고려하여 어떻게 설명하시겠습니까?

그런 다음 잠재적으로 많은 양의 텍스트(또는 전체 문서)를 프롬프트/질문에 복사합니다.

ChatGPT를 사용하면 사용자는 챗봇과 대화하는 것처럼 LLM 질문을 효과적으로 할 수 있습니다. LLM의 다른 최근 사례로는 Google의 Bard 및 Meta의 LLaMa(과학 논문용)의 발표가 있습니다.

LL.M.s는 다양한 인간 언어와 컴퓨터 언어로 풍부하고 매력적인 콘텐츠를 생성하는 능력으로 인해 의심할 여지 없이 인상적입니다. 그러나 이는 마법도 아니고 인공 일반 지능도 아니며 다음과 같은 몇 가지 심각한 결함을 포함하고 있습니다.

  • 일을 잘못하고 잘못된 사실을 "환각"할 수 있습니다.
  • 편견이 있고 종종 속을 수 있습니다(예: 주요 질문)
  • 처음부터 훈련하려면 막대한 컴퓨팅 리소스와 엄청난 양의 데이터가 필요합니다.
  • 유독한 콘텐츠를 만들도록 유도할 수 있으며 "주입 공격"에 취약합니다.

LLM이 내 정보를 유출합니까?

일반적인 우려는 LLM이 프롬프트에서 "학습"하여 관련 콘텐츠를 쿼리하는 다른 사람에게 해당 정보를 제공할 수 있다는 것입니다. 여기에는 몇 가지 우려할 이유가 있지만 많은 사람들이 고려하는 이유는 아닙니다. 현재 LLM이 훈련된 후 결과 모델이 쿼리됩니다. LLM은 (작성 당시) 다른 사람이 쿼리할 수 있도록 쿼리의 정보를 모델에 자동으로 추가하지 않습니다. 즉, 쿼리에 정보를 포함한다고 해서 해당 데이터가 LLM에 통합되는 것은 아닙니다.

그러나 쿼리는 LLM(ChatGPT의 경우, OpenAI의 경우)을 제공하는 조직에 표시됩니다. 이러한 쿼리는 저장되며 어느 시점에서는 LLM 서비스 또는 모델을 개발하는 데 거의 확실히 사용될 것입니다. 이는 LLM 제공업체(또는 해당 파트너/계약업체)가 쿼리를 읽고 어떤 방식으로든 이를 향후 릴리스에 통합할 수 있음을 의미할 수 있습니다. 따라서 민감한 질문을 하기 전에 이용약관과 개인정보 보호정책을 철저히 이해해야 합니다.

질문은 쿼리에 포함된 데이터로 인해 또는 질문을 한 사람과 시기로 인해 민감할 수 있습니다. 후자의 예로는 CEO가 "직원을 해고하는 최선의 방법은 무엇입니까?"라고 질문한 것이 발견되거나 누군가가 건강이나 관계에 대해 공개적인 질문을 한 경우가 있을 수 있습니다. 또한 여러 쿼리에 걸쳐 정보를 집계하려면 동일한 로그인을 사용해야 합니다.

더 많은 조직에서 LLM을 생산함에 따라 증가하는 또 다른 위험은 온라인에 저장된 쿼리가 해킹되거나 유출되거나 실수로 공개적으로 액세스할 수 있게 될 가능성이 높다는 것입니다. 여기에는 잠재적으로 사용자 식별 정보가 포함될 수 있습니다. 또 다른 위험은 사용자가 데이터를 입력할 때와는 다른 개인 정보 보호 접근 방식을 채택하는 조직에 나중에 LLM 운영자가 인수된다는 것입니다.

따라서 NCSC는 다음을 권장합니다.

  • 공개 LLM에 대한 쿼리에 민감한 정보를 포함하지 마세요.
  • 문제를 일으킬 수 있는 공개 LLM에 쿼리를 제출하지 마세요.

민감한 정보를 LLM에 안전하게 제공하려면 어떻게 해야 합니까?

LLM이 등장하면서 많은 조직에서는 LLM을 사용하여 특정 비즈니스 작업을 자동화할 수 있는지 궁금해할 수 있습니다. 여기에는 미세 조정이나 적시 기능 강화를 통해 민감한 정보를 제공하는 작업이 포함될 수 있습니다. 이 접근 방식은 공개 LLM에는 권장되지 않지만 "비공개 LLM"은 클라우드 제공업체(예:)에서 제공하거나 완전히 자체 호스팅될 수 있습니다.

  • 클라우드 제공 LLM의 경우 이용 약관 및 개인 정보 보호 정책 이는 다시 핵심이지만(공용 LLM의 경우와 마찬가지로) 클라우드 서비스의 기존 조건을 준수할 가능성이 더 높습니다. 조직은 미세 조정이나 신속한 강화에 사용되는 데이터를 관리하는 방법을 이해해야 합니다. 공급업체의 연구원이나 파트너가 사용할 수 있나요? 그렇다면 어떤 형태로? 데이터는 개별적으로 공유됩니까, 아니면 다른 조직과 통합적으로 공유됩니까? 공급자의 직원은 어떤 상황에서 쿼리를 볼 수 있습니까?
  • 자체 호스팅 LLM은 매우 비쌀 수 있습니다. 그러나 보안 평가 후에는 조직 데이터를 처리하는 데 적합할 수 있습니다. 특히, 조직은 인프라 및 데이터 공급망 보호에 대한 지침을 참조해야 합니다.

법학 석사가 사이버 범죄자의 삶을 더 쉽게 만들어 주나요?

LLM이 맬웨어 작성에 어떻게 도움이 되는지에 대한 놀라운 시연이 있었습니다. 문제는 LLM이 악의적이지만 숙련되지 않은 개인이 다른 방법으로는 배포할 수 없는 도구를 만드는 데 도움이 될 수 있다는 것입니다. 현재 상태에서 LLM은 설득력이 있어 보이며(그렇든 그렇지 않든) 복잡한 작업보다는 간단한 작업에 적합합니다. 이는 전문가가 LLM의 결과를 확인할 수 있기 때문에 LLM을 사용하여 "전문가의 시간 절약"을 도울 수 있음을 의미합니다.

더 복잡한 작업의 경우 현재는 전문가가 LLM이 생성한 내용을 수정하는 데 시간을 소비하는 것보다 처음부터 악성 코드를 만드는 것이 더 쉽습니다. 그러나 강력한 악성 코드를 생성할 수 있는 전문가는 LLM을 속여 강력한 악성 코드를 작성하도록 할 수도 있습니다. "LLM을 사용하여 처음부터 맬웨어 생성"과 "LLM에서 생성된 맬웨어 유효성 검사" 간의 균형은 LLM이 향상됨에 따라 변경됩니다.

또한 LLM에 기술적인 문제에 대한 조언을 요청할 수도 있습니다. 범죄자는 특히 공격자가 네트워크에 액세스한 후에 LLM을 사용하여 현재 능력을 넘어서는 사이버 공격을 수행할 수 있습니다. 예를 들어, 공격자가 권한을 상승시키거나 데이터를 찾기 위해 작업하는 경우 LLM에 요청하여 검색 엔진 결과와는 다르지만 더 많은 컨텍스트가 포함된 답변을 받을 수 있습니다. 현재 LLM은 설득력 있게 들리지만 부분적으로만 정확할 수 있는 답변을 제공합니다. 특히 주제가 점점 더 틈새 시장에 가까워질수록 더욱 그렇습니다. 답변은 범죄자가 다른 방법으로는 수행할 수 없는 공격을 수행하는 데 도움이 될 수도 있고, 범죄자를 신속하게 탐지하기 위한 조치를 제안할 수도 있습니다. 어느 쪽이든 공격자의 쿼리는 LLM 운영자에 의해 저장되고 유지될 수 있습니다.

LLM은 주문형 글쓰기 스타일을 복사하는 데 탁월하기 때문에 범죄자가 LLM을 사용하여 여러 언어로 된 이메일을 포함하여 설득력 있는 피싱 이메일을 작성할 위험이 있습니다. 이는 높은 기술 능력을 갖추고 있지만 언어 능력이 부족한 공격자가 대상의 모국어로 설득력 있는 피싱 이메일을 생성(또는 사회 공학 수행)하는 데 도움이 될 수 있습니다.

요약하면 다음과 같은 결과가 나타날 수 있습니다.

  • LLM으로 인해 더 설득력 있는 피싱 이메일
  • 이전에 익숙하지 않은 기술을 시도하는 공격자

기능을 작성하는 숙련되지 않은 공격자 강력한 악성 코드의 위험도 낮습니다.

요약

이것은 특히 ChatGPT가 세계의 상상력을 포착하는 LLM의 흥미로운 시간입니다. 모든 기술 발전과 마찬가지로, 그것을 사용하고 그것이 제공하는 것을 연구하고 싶어하는 사람들이 있을 것이고, 그것을 결코 사용하지 않을 수도 있는 사람들이 있을 것입니다.

위에 설명했듯이 공공 LLM을 제한 없이 사용하는 것과 관련된 위험은 의심할 여지가 없습니다. 개인과 조직은 프롬프트에 제출하기로 선택한 데이터에 대해 매우 주의해야 합니다. LLM을 시도하려는 사람들은 조직 데이터를 위험에 빠뜨리지 않고 시도할 수 있는지 확인해야 합니다.

NCSC는 사이버 보안 및 LLM 채택과 관련된 기타 새로운 위협(및 기회)을 알고 있으며 향후 블로그 게시물에서 이에 대해 알려드리겠습니다.

David C - 플랫폼 연구 기술 이사 Paul J - 데이터 과학 연구 기술 이사

——영국 NCSC에서 편집

위 내용은 ChatGPT 및 대규모 언어 모델: 위험은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제