Stable Diffusion, DALL-E 2 및 Mid-Journey와 같은 텍스트-이미지 확산 생성 모델은 활발한 개발 상태에 있으며 강력한 텍스트-이미지 생성 기능을 갖추고 있지만 "롤오버" 사례는 그것도 가끔.
아래 그림에 표시된 것처럼 "멧돼지 사진"이라는 텍스트 프롬프트가 제공되면 안정 확산 모델은 그에 상응하는 명확하고 사실적인 멧돼지 사진을 생성할 수 있습니다. 그러나 이 텍스트 프롬프트를 약간 수정하여 "멧돼지와 반역자의 사진"으로 변경하면 멧돼지는 어떻습니까? 어떻게 자동차가 되었나요?
다음 몇 가지 예를 살펴보겠습니다. 이들은 어떤 새로운 종인가요?
이 이상한 현상의 원인은 무엇입니까? 이러한 세대 실패 사례는 모두 최근에 출판된 논문 "Stable Diffusion is Unstable"에서 나왔습니다.
본 논문에서는 텍스트-이미지 모델을 위한 그래디언트 기반 적대 알고리즘을 처음으로 제안합니다. 이 알고리즘은 다수의 공격적인 텍스트 프롬프트를 효율적이고 효과적으로 생성할 수 있으며 안정적인 확산 모델의 불안정성을 효과적으로 탐색할 수 있습니다. 이 알고리즘은 짧은 텍스트 프롬프트에서 91.1%, 긴 텍스트 프롬프트에서 81.2%의 공격 성공률을 달성했습니다. 또한 이 알고리즘은 텍스트-이미지 생성 모델의 실패 모드를 연구하기 위한 풍부한 사례를 제공하여 이미지 생성 제어 가능성에 대한 연구의 기반을 마련합니다. 이 알고리즘으로 생성된 수많은 세대 실패 사례를 바탕으로 연구원은 세대 실패의 네 가지 이유를 다음과 같이 요약했습니다.
단어의 모호함
프롬프트(프롬프트)에 여러 세대 대상이 포함될 때 특정 대상이 나오는 경우가 종종 발생합니다. 생성 중 문제가 진행되는 동안 사라집니다. 이론적으로 동일한 큐 내의 모든 대상은 동일한 초기 노이즈를 공유해야 합니다. 그림 4에서 볼 수 있듯이 연구원들은 고정된 초기 노이즈 조건 하에서 ImageNet에서 1,000개의 카테고리 타겟을 생성했습니다. 그들은 각 대상에서 생성된 마지막 이미지를 참조 이미지로 사용하고 각 시간 단계에서 생성된 이미지와 마지막 단계에서 생성된 이미지 간의 SSIM(구조적 유사성 지수) 점수를 계산하여 다양한 대상의 빌드 속도 차이를 보여주었습니다.
이 장에서 연구자들은 단어가 여러 의미를 가질 때 세대 상황을 깊이 탐구합니다. 그들이 발견한 것은 어떤 외부 교란 없이도 결과 이미지가 종종 단어의 특정 의미를 나타낸다는 것입니다. "warthog"를 예로 들어 보겠습니다. 그림 A4의 첫 번째 줄은 "warthog"라는 단어의 의미를 기반으로 생성되었습니다.
그러나 연구자들은 원래 프롬프트에 다른 단어가 삽입되면 의미 체계가 바뀔 수 있다는 사실도 발견했습니다. 예를 들어, "멧돼지"를 설명하는 프롬프트에 "배신자"라는 단어가 도입되면 생성된 이미지 콘텐츠는 "멧돼지"의 원래 의미에서 벗어나 완전히 새로운 콘텐츠를 생성할 수 있습니다.
그림 10에서 연구원은 흥미로운 현상을 관찰했습니다. 비록 인간의 관점에서 볼 때 다른 순서로 배열된 프롬프트는 일반적으로 동일한 의미를 가지며 모두 고양이, 나막신, 권총의 그림을 설명합니다. 그러나 언어 모델, 즉 CLIP 텍스트 인코더의 경우 단어의 순서가 텍스트를 이해하는 데 어느 정도 영향을 미치고, 이로 인해 생성되는 이미지의 내용이 변경됩니다. 이러한 현상은 우리의 설명이 의미적으로 일관성이 있음에도 불구하고 모델이 단어의 순서가 다르기 때문에 이해와 생성 결과가 다를 수 있음을 보여줍니다. 이는 모델이 언어를 처리하고 의미를 이해하는 방식이 인간과 다르다는 것을 보여줄 뿐만 아니라, 그러한 모델을 설계하고 사용할 때 단어 순서의 영향에 더 많은 주의를 기울여야 함을 상기시켜 줍니다.
는 프롬프트에서 원래 대상 명사를 변경하지 않고 Gumbel Softmax 분포를 학습하여 단어 대체 또는 확장의 이산 프로세스를 계속했습니다. 섭동 생성의 차별성을 보장하고, 이미지 생성 후 CLIP 분류기와 마진 손실을 사용하여 Ω를 최적화하고, CLIP이 올바르게 분류할 수 없는 이미지를 생성하는 것을 목표로 공격 프롬프트와 클린 프롬프트가 일정한 유사성을 갖도록 연구합니다. 추가 단계에서는 의미론적 유사성 제약 조건과 텍스트 유창성 제약 조건이 사용됩니다.
이 분포가 학습되면 알고리즘은 동일한 깨끗한 텍스트 팁에 대한 공격 효과가 있는 여러 텍스트 팁을 샘플링할 수 있습니다.
자세한 내용은 원문을 확인해주세요.
위 내용은 영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!