>  기사  >  기술 주변기기  >  신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

王林
王林앞으로
2023-04-12 10:31:02876검색

​2022년 가장 소중한 것은 무엇인가요? 즉각적인!

DALL-E 2와 같은 텍스트 안내 이미지 생성(텍스트 안내 이미지 생성) 모델이 인기를 끌면서 네티즌들은 온갖 종류의 재미있는 이미지를 끝없이 생성해 왔습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

그러나 모델이 명확하고 사용 가능한 대상 이미지를 생성하려면 올바른 "주문"을 숙지해야 합니다. 즉, 프롬프트를 사용하기 전에 신중하게 디자인해야 합니다. 프롬프트 판매

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

프롬프트가 사악한 주문인 경우 생성된 이미지는 "규정 위반 의심"이 발생할 수 있습니다.

DALL-E 2는 초현실적인 사진 생성을 방지하기 위해 기술적 수단을 사용하여 학습 데이터에서 폭력적이거나 혐오스럽거나 부적절한 이미지를 삭제하는 등 모델이 출시되었을 때 모델이 남용되지 않도록 다양한 메커니즘을 설정했지만, 특히 일부 공인은 인간의 얼굴입니다.

생성 단계에서 DALL-E 2는 사용자가 입력한 프롬프트 단어에 폭력적, 성인용 또는 정치적 콘텐츠가 포함되는 것을 허용하지 않는 프롬프트 필터도 설정합니다.

그러나 최근 컬럼비아 대학의 연구원들은 겉보기에 말도 안 되는 단어가 프롬프트에 추가되어 필터가 단어의 의미를 인식할 수 없게 되지만 결국 AI 시스템이 의미 있는 생성 이미지를 반환할 수 있다는 사실을 발견했습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

논문 링크: https://arxiv.org/pdf/2208.04135.pdf

저자는 프롬프트를 구성하는 두 가지 방법을 제안합니다. 첫 번째 방법은 마카로닉 프롬팅(macaronic Prompting)으로, 마카로닉이라는 단어의 원래 의미는 다음과 같습니다. 예를 들어 파키스탄에서는 우르두어와 영어의 혼합이 일반적입니다.

DALL-E 2의 훈련 코퍼스는 일반적으로 인터넷에서 수집된 데이터입니다. 텍스트와 이미지 간의 개념적 연결을 설정하는 과정에는 다소 다중 언어 학습이 포함되므로 훈련된 모델이 여러 언어를 인식할 수 있습니다. 동시에 개념적 능력.

그래서 다중 언어 조합을 사용하여 새로운 단어를 형성하고, 인간이 설계한 프롬프트 필터를 우회하여 공격에 저항하는 목적을 달성할 수 있습니다.

예를 들어 "birds"라는 단어는 독일어로 Vögel, 이탈리아어로 uccelli, 프랑스어로 oiseaux, 스페인어로 pájaros입니다. CLIP 모델은 BPE(바이트 쌍 인코딩) 알고리즘을 사용하여 입력 프롬프트 문장을 분할한 후, 여러 개의 하위 단어로 나뉩니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

uccoisegeljaros를 입력하는 등 하위 단어를 새로운 단어로 재배열한 후에도 DALL-E 2는 여전히 새의 이미지를 생성할 수 있지만 인간은 단어의 의미를 완전히 이해할 수 없습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

하위 단어의 경계가 엄격하게 준수되지 않더라도, 예를 들어 voiscellpajaraux 및 oisvogajaro로 대체하면 모델은 여전히 ​​새 이미지를 생성할 수 있습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

연구원들은 새 외에도 여러 언어를 결합하는 방법이 다양한 이미지 영역에서 좋은 결과를 얻을 수 있으며 이미지 생성 결과가 매우 높은 일관성을 보인다는 사실을 발견했습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

동물의 왕국부터 풍경, 차량, 장면, 감정까지 관련 이미지를 생성하는 것은 매우 쉽습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

텍스트 기반 이미지 생성 모델마다 아키텍처, 학습 데이터, 단어 분할 방법이 다르지만 원칙적으로 마카로닉 힌트는 DALL-E mini와 같이 다국어 데이터로 학습된 모든 모델에 적용할 수 있습니다. 모델에서 효과가 발견됩니다.

비슷한 이름에도 불구하고 DALL-E 2와 DALL-E mini가 상당히 다르다는 점은 주목할 가치가 있습니다. 이들은 서로 다른 아키텍처(DALL-E mini는 확산 모델을 사용하지 않음)를 가지고 있고, 서로 다른 데이터 세트에 대해 교육을 받고, 서로 다른 토크나이저를 사용합니다(DALL-E mini는 CLIP 토크나이저 분할 단어와 다르게 동작할 수 있는 BART 토크나이저를 사용합니다).

이러한 차이점에도 불구하고 마카로닉 팁은 두 모델 모두에서 여전히 작동하며 그 뒤에 숨겨진 원리는 더 많은 연구가 필요합니다.

그러나 모든 마카로닉 신호가 서로 다른 모델 간에 적절하게 전송되는 것은 아닙니다. 예를 들어 Farpapmaripterling이 예상대로 DALL-E 2에서 나비 이미지를 생성한 반면 DALL-E mini에서는 버섯 이미지를 생성했습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

연구원들은 아마도 더 큰 데이터 세트로 훈련된 더 큰 모델이 서로 다른 언어의 하위 단어 단위와 시각적 개념 사이를 학습하기 때문에 마카로닉 단서에 더 취약하다고 추측합니다.

DALL-E 2에서 예상한 결과를 생성하는 일부 마카로닉 팁이 DALL-E mini에서 작동하지 않는 이유를 설명할 수 있지만 그 반대의 예는 거의 없습니다.

대형 모델의 경우 마카로닉 힌트를 사용한 적대적 공격에 더 취약할 수 있으므로 이러한 추세는 좋은 소식이 아닐 수 있습니다.

단일 복합어를 프롬프트로 사용하는 것 외에도 복합어를 영어 구문에 삽입하여 문장을 형성할 수도 있으며, 이미지 생성 효과는 원래 단어와 유사합니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

그리고 합성어의 또 다른 장점은 결합하여 더욱 구체적이고 복잡한 장면을 연출할 수 있다는 점입니다. 복잡한 마카로닉 단서는 영어의 구문 구조를 준수해야 생성된 결과를 합성 문자열을 사용하는 단서보다 더 쉽게 해석할 수 있지만, 모델에 전달되는 정보는 여전히 상대적으로 모호합니다.

대부분의 사람들은 마카로닉 신호에 대한 사전 노출과 교배에 사용되는 언어에 대한 지식이 없으면 An eidelucertlagarzard가 maripofarterling을 먹고 있다는 프롬프트에서 어떤 종류의 시나리오가 발생할지 추측하기 어려울 수 있습니다.

게다가, 검열된 개념이 마카로닉 방법을 사용하여 충분히 "암호화"되는 한, 이러한 정교한 프롬프트는 일반적인 영어 단어를 사용한다는 사실에도 불구하고 블랙리스트 기반 콘텐츠 필터를 트리거하지 않습니다.

마카로닉 팁은 반드시 여러 언어의 하위 단어를 결합할 필요는 없습니다. 단일 언어 내에서 이를 결합하면 효과적인 시각적 개념도 생성할 수 있습니다. 그러나 영어에 익숙한 사람들은 문자열의 의도된 효과를 추측할 수 있습니다. 매우 행복하다(happy)와 유쾌하다(happy)의 합성어라고 짐작하기 쉽습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

두 번째 방법은 Evocative Prompting이라고 합니다. Evocative는 마카로닉과 달리 기존 단어 조합에서 시각적 연관성을 유발할 필요가 없지만 특정 분야에서 특정 문자 조합의 통계적 중요성을 기반으로 합니다." 새 단어.

생물학적 분류의 이항 명명법을 참조하여 "속명"과 "종소명"을 기반으로 새로운 "의사-라틴어 단어"를 생성할 수 있으며, DALL-E는 해당 테마를 기반으로 해당 단어를 생성할 수 있습니다. 종.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

약품 명명 규칙에 따라 신약 그림도 생성될 수 있습니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

연상 단서는 언어의 특정 기능과 해당 언어의 장소 및 문화와 관련된 시각적 기능 간의 연관성에도 적용될 수 있습니다. 예를 들어, 모델은 건물 이름을 기반으로 어느 국가의 스타일인지 추론할 수 있습니다. 예를 들어, Woldenbüchel에서 생성된 장면은 독일 또는 오스트리아 마을처럼 보입니다. Valtorigiano는 고대 이탈리아 도시처럼 보입니다. 프랑스의 마을.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.

그러나 반드시 모든 건물은 아닙니다. 예를 들어 DALL-E mini로 생성된 마지막 이미지는 프랑스 장소가 아닌 17세기 프랑스 초상화이지만 프랑스 문화와의 연관성은 여전히 ​​유지됩니다.

또한 연상 힌트를 어휘 혼합과 결합하여 출력의 특정 기능을 더 효과적으로 제어할 수 있습니다.

유사 라틴어 명명법에 영어 단어 덩어리를 도입하면 DALL-E 2가 특정 속성을 가진 동물 이미지를 생성하게 됩니다. 예를 들어, 프롬프트 단어 Scariosus ferocianensis는 무서운(무서운) 및 사나운(사나운)을 유사 라틴어 용어와 결합합니다. 전갈과 같은 전통적으로 무서운 "파충류"의 이미지를 생성할 수 있습니다.

ㅋㅋㅋ 날아다니는 곤충의 이미지를 생성하기 위해 가짜 라틴어 접사를 사용하여 fly andwinged를 사용합니다.

신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.원칙적으로 마카로닉 방식으로 생성된 어휘는 프롬프트 필터를 우회하는 간단하고 신뢰할 수 있는 방법을 제공할 수 있습니다. 숨은 의도가 있는 사람들은 이를 사용하여 폭력적, 공격적, 불법적 또는 기타 민감한 단어를 생성할 수 있습니다. 증오, 인종 차별, 성 차별 또는 포르노 이미지는 물론 지적 재산권을 침해하거나 실제 개인을 묘사할 수 있는 이미지도 포함됩니다.

이미지 생성 서비스를 제공하는 회사에서는 콘텐츠 정책에 따라 이러한 출력물 생성을 방지하기 위해 광범위한 노력을 기울였음에도 불구하고 마카로닉 팁은 여전히 ​​상용 이미지 생성 시스템의 보안 프로토콜에 큰 위협이 될 수 있습니다.

연상 단서가 제기하는 위협은 특정 시각적 연관성을 유발하는 매우 효과적이고 신뢰할 수 있는 방법을 제공하지 않으며 대부분 단어나 언어의 광범위한 형태적 특징과 관련된 개념으로 제한되기 때문에 덜 명확합니다. .

일반적으로 마카로닉 팁은 연상 팁보다 조작성이 뛰어나며 이러한 유형의 모델에서 키워드 기반 블랙리스트 콘텐츠 필터링만으로는 공격을 저항하기에 충분하지 않습니다.

DALL-E 2가 어두워지나요?

위 내용은 신속한 공격과 방어 전투! Columbia University는 검토 메커니즘을 우회할 수 있는 BPE 단어 작성 방법을 제안했습니다. DALL-E 2가 속였습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제