집 >기술 주변기기 >일체 포함 >북경대학교 팀: 대형 모델의 '환각'을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

북경대학교 팀: 대형 모델의 '환각'을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

PHPz앞으로: 2023-10-30 14:53:101355검색

북경대학교 팀의 최신 연구 결과에 따르면

무작위 토큰은 대형 모델에서 환각을 유발할 수 있습니다!

예를 들어 대형 모델(Vicuna-7B)에 "왜곡된 코드"를 주면 역사적 상식을 이해할 수 없을 정도로 오해하게 됩니다

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

몇 가지 간단한 수정 요령만 있어도 대형 모델은 다음과 같은 오류에 빠질 수 있습니다. 함정

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

Baichuan2-7B, InternLM-7B, ChatGLM, Ziya-LLaMA-7B, LLaMA-7B-chat 및 Vicuna-7B와 같은 인기 있는 대형 모델은 비슷한 상황에 직면하게 됩니다

즉, 무작위 문자열은 대규모 모델을 제어하여 임의의 콘텐츠를 출력하고 환상을 "승인"할 수 있습니다.

위의 결과는 북경대학교 Yuan Li 교수 연구팀의 최신 연구에서 나온 것입니다.

이 연구는 다음을 제안합니다.

대형 모델의 환각 현상은 적대 사례에 대한 또 다른 관점일 가능성이 높습니다.

이 논문은 대형 모델 환각을 쉽게 유도할 수 있는 두 가지 방법을 보여줄 뿐만 아니라 간단하고 효과적인 방어 방법도 제안합니다. 코드는 오픈 소스입니다.

두 가지 극단적인 모드가 대형 모델을 공격합니다

연구에서는 두 가지 환각 공격 방법을 제안했습니다.

랜덤 노이즈 공격(OoD 공격)은 기계 학습 모델에 대한 일반적인 공격 방법입니다. 이 공격에서 공격자는 훈련 데이터에서 일반적이지 않은 임의의 노이즈를 모델에 제공합니다. 이 노이즈는 모델의 판단 능력을 방해하여 실제 세계의 데이터를 처리할 때 잘못된 예측을 하게 만들 수 있습니다. 랜덤 노이즈 공격은 일반 데이터와 유사한 특성을 사용하고 모델로 탐지하기 어렵기 때문에 은밀한 공격 방법입니다. 이 공격에 저항하려면 이러한 무작위 노이즈를 식별하고 필터링하는 데 몇 가지 효과적인 이상 탐지 방법을 사용해야 합니다. 즉, 의미 없는 무작위 문자열이 대규모 모델을 유도하여 미리 정의된 팬텀 출력을 생성하도록 허용해야 합니다.
약한 의미론적 공격은 인터넷에서 흔히 볼 수 있는 공격 방법을 말합니다. 이러한 공격 방법은 일반적으로 사용자가 자신도 모르게 개인 정보를 제공하거나 악의적인 행위를 하도록 유도하는 방식으로 수행됩니다. 다른 직접적인 공격 방법과 비교할 때 약한 의미론적 공격은 더 미묘하며 사회 공학 및 속임수를 사용하여 사용자를 오도하는 경우가 많습니다. 인터넷 사용자는 원래의 프롬프트 의미를 기본적으로 변경하지 않으면서 대형 모델이 완전히 다른 환상적인 출력을 생성하게 만드는 약한 의미 공격의 영향을 받지 않도록 경계해야 합니다.

Random Noise Attack(OoD Attack):

다음은 오픈 소스 대형 모델에서 수행된 몇 가지 실험 결과입니다. 더 많은 결과는 논문이나 오픈 소스 GitHub

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

Weak Semantic Attack( 약한 의미 공격):

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

논문에서는 환각 공격 방법을 소개합니다.

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

그림에 따르면 환각 공격은 환각 데이터 세트 구성, 약한 의미 공격, OoD 공격의 세 부분으로 구성됩니다.

첫 번째는 환각 데이터세트 구축입니다.

저자는 몇 가지 일반적인 질문을 모아 정답을 얻었습니다. 사실을 모아 놓은 것입니다.

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 마지막으로 환각 데이터세트 구성 결과를 얻을 수 있습니다.

그런 다음

약한 의미 공격 부분

이 나옵니다. 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

먼저 사실과 일치하지 않는 QA 쌍 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 을 샘플링하고, 미래 안정성에 대한 환상에서 시작하여, 저자는 로그 우도를 극대화하기 위한 적대적인 힌트 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 를 찾기를 희망합니다.

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

여기서 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 는 대형 모델의 매개변수이고 는 입력 공간입니다.

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 은 l 토큰으로 구성됩니다.

그러나 언어는 불연속적이기 때문에 이미지 필드에서의 적대적 공격처럼 x를 직접 최적화할 수 있는 방법은 없습니다.

2019년 연구(NLP 공격 및 분석을 위한 보편적 적대적 트리거)에서 영감을 받아 연구팀은 경사 기반 토큰 교체 전략을 사용하여 로그 가능성을 간접적으로 최대화했습니다.

북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다

그 중 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 는 카운터 토큰 의 임베딩이고, 은 의미 추출기입니다.

이 공식을 간단히 살펴보면, 의미론적 제약 조건 하에서 우도 기울기 변화를 가장 많이 만드는 토큰을 찾아 교체합니다. 마지막으로 획득한 적대 프롬프트 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 가 원래 프롬프트 x와 의미론적으로 크게 다르지 않은지 확인하고, 모델을 유도합니다. 미리 정의된 환각을 출력합니다 북경대학교 팀: 대형 모델의 환각을 유도하는 데 필요한 것은 일련의 왜곡된 문자뿐입니다! 크고 작은 알파카를 모두 모집합니다 .