Stable Diffusion, DALL-E 2 및 Mid-Journey와 같은 텍스트-이미지 확산 생성 모델은 활발한 개발 상태에 있으며 강력한 텍스트-이미지 생성 기능을 갖추고 있지만 "롤오버" 사례는 그것도 가끔.
아래 그림에 표시된 것처럼 "멧돼지 사진"이라는 텍스트 프롬프트가 제공되면 안정 확산 모델은 그에 상응하는 명확하고 사실적인 멧돼지 사진을 생성할 수 있습니다. 그러나 이 텍스트 프롬프트를 약간 수정하여 "멧돼지와 반역자의 사진"으로 변경하면 멧돼지는 어떻습니까? 어떻게 자동차가 되었나요?
다음 몇 가지 예를 살펴보겠습니다. 이들은 어떤 새로운 종인가요?
이 이상한 현상의 원인은 무엇입니까? 이러한 세대 실패 사례는 모두 최근에 출판된 논문 "Stable Diffusion is Unstable"에서 나왔습니다.
본 논문에서는 텍스트-이미지 모델을 위한 그래디언트 기반 적대 알고리즘을 처음으로 제안합니다. 이 알고리즘은 다수의 공격적인 텍스트 프롬프트를 효율적이고 효과적으로 생성할 수 있으며 안정적인 확산 모델의 불안정성을 효과적으로 탐색할 수 있습니다. 이 알고리즘은 짧은 텍스트 프롬프트에서 91.1%, 긴 텍스트 프롬프트에서 81.2%의 공격 성공률을 달성했습니다. 또한 이 알고리즘은 텍스트-이미지 생성 모델의 실패 모드를 연구하기 위한 풍부한 사례를 제공하여 이미지 생성 제어 가능성에 대한 연구의 기반을 마련합니다.
단어의 모호함
- 프롬프트 내 단어의 위치 생성 속도의 차이
프롬프트(프롬프트)에 여러 세대 대상이 포함될 때 특정 대상이 나오는 경우가 종종 발생합니다. 생성 중 문제가 진행되는 동안 사라집니다. 이론적으로 동일한 큐 내의 모든 대상은 동일한 초기 노이즈를 공유해야 합니다. 그림 4에서 볼 수 있듯이 연구원들은 고정된 초기 노이즈 조건 하에서 ImageNet에서 1,000개의 카테고리 타겟을 생성했습니다. 그들은 각 대상에서 생성된 마지막 이미지를 참조 이미지로 사용하고 각 시간 단계에서 생성된 이미지와 마지막 단계에서 생성된 이미지 간의 SSIM(구조적 유사성 지수) 점수를 계산하여 다양한 대상의 빌드 속도 차이를 보여주었습니다.
- 대략적인 특징 유사성 확산 생성 과정에서 연구원들은 두 유형의 타겟 사이에 전역적 또는 지역적 대략적인 특징 유사성이 있을 때 교차 주의가 계산된다는 것을 발견했습니다. 교차주의 문제) 가중치. 이는 두 개의 대상 명사가 동시에 같은 그림의 같은 블록에 집중하여 특징 얽힘을 초래할 수 있기 때문입니다. 예를 들어, 그림 6에서 깃털과 은연어는 거친 입자 특징에서 특정 유사성을 갖고 있으며, 이로 인해 깃털은 은연어를 기반으로 한 생성 프로세스의 8단계에서 생성 작업을 계속 완료할 수 있습니다. 은연어와 마술사 등 얽힘이 없는 두 유형의 대상에 대해 마술사는 은연어를 기반으로 한 중간 단계 이미지에서는 생성 작업을 완료할 수 없습니다.
-
Polysemy
이 장에서 연구자들은 단어가 여러 의미를 가질 때 세대 상황을 깊이 탐구합니다. 그들이 발견한 것은 어떤 외부 교란 없이도 결과 이미지가 종종 단어의 특정 의미를 나타낸다는 것입니다. "warthog"를 예로 들어 보겠습니다. 그림 A4의 첫 번째 줄은 "warthog"라는 단어의 의미를 기반으로 생성되었습니다.
그러나 연구자들은 원래 프롬프트에 다른 단어가 삽입되면 의미 체계가 바뀔 수 있다는 사실도 발견했습니다. 예를 들어, "멧돼지"를 설명하는 프롬프트에 "배신자"라는 단어가 도입되면 생성된 이미지 콘텐츠는 "멧돼지"의 원래 의미에서 벗어나 완전히 새로운 콘텐츠를 생성할 수 있습니다.
프롬프트에서 단어의 위치
그림 10에서 연구원은 흥미로운 현상을 관찰했습니다. 비록 인간의 관점에서 볼 때 다른 순서로 배열된 프롬프트는 일반적으로 동일한 의미를 가지며 모두 고양이, 나막신, 권총의 그림을 설명합니다. 그러나 언어 모델, 즉 CLIP 텍스트 인코더의 경우 단어의 순서가 텍스트를 이해하는 데 어느 정도 영향을 미치고, 이로 인해 생성되는 이미지의 내용이 변경됩니다. 이러한 현상은 우리의 설명이 의미적으로 일관성이 있음에도 불구하고 모델이 단어의 순서가 다르기 때문에 이해와 생성 결과가 다를 수 있음을 보여줍니다. 이는 모델이 언어를 처리하고 의미를 이해하는 방식이 인간과 다르다는 것을 보여줄 뿐만 아니라, 그러한 모델을 설계하고 사용할 때 단어 순서의 영향에 더 많은 주의를 기울여야 함을 상기시켜 줍니다.
모델 구조
는 프롬프트에서 원래 대상 명사를 변경하지 않고 Gumbel Softmax 분포를 학습하여 단어 대체 또는 확장의 이산 프로세스를 계속했습니다. 섭동 생성의 차별성을 보장하고, 이미지 생성 후 CLIP 분류기와 마진 손실을 사용하여 Ω를 최적화하고, CLIP이 올바르게 분류할 수 없는 이미지를 생성하는 것을 목표로 공격 프롬프트와 클린 프롬프트가 일정한 유사성을 갖도록 연구합니다. 추가 단계에서는 의미론적 유사성 제약 조건과 텍스트 유창성 제약 조건이 사용됩니다.
이 분포가 학습되면 알고리즘은 동일한 깨끗한 텍스트 팁에 대한 공격 효과가 있는 여러 텍스트 팁을 샘플링할 수 있습니다.
자세한 내용은 원문을 확인해주세요.
위 내용은 영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35

Openai는 강력한 GPT-4.1 시리즈를 공개합니다. 실제 응용 프로그램을 위해 설계된 3 개의 고급 언어 모델 패밀리. 이 중요한 도약 전진


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.
