찾다
기술 주변기기일체 포함영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

Stable Diffusion, DALL-E 2 및 Mid-Journey와 같은 텍스트-이미지 확산 생성 모델은 활발한 개발 상태에 있으며 강력한 텍스트-이미지 생성 기능을 갖추고 있지만 "롤오버" 사례는 그것도 가끔.

아래 그림에 표시된 것처럼 "멧돼지 사진"이라는 텍스트 프롬프트가 제공되면 안정 확산 모델은 그에 상응하는 명확하고 사실적인 멧돼지 사진을 생성할 수 있습니다. 그러나 이 텍스트 프롬프트를 약간 수정하여 "멧돼지와 반역자의 사진"으로 변경하면 멧돼지는 어떻습니까? 어떻게 자동차가 되었나요?

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

다음 몇 가지 예를 살펴보겠습니다. 이들은 어떤 새로운 종인가요?

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

이 이상한 현상의 원인은 무엇입니까? 이러한 세대 실패 사례는 모두 최근에 출판된 논문 "Stable Diffusion is Unstable"에서 나왔습니다.

본 논문에서는 텍스트-이미지 모델을 위한 그래디언트 기반 적대 알고리즘을 처음으로 제안합니다. 이 알고리즘은 다수의 공격적인 텍스트 프롬프트를 효율적이고 효과적으로 생성할 수 있으며 안정적인 확산 모델의 불안정성을 효과적으로 탐색할 수 있습니다. 이 알고리즘은 짧은 텍스트 프롬프트에서 91.1%, 긴 텍스트 프롬프트에서 81.2%의 공격 성공률을 달성했습니다. 또한 이 알고리즘은 텍스트-이미지 생성 모델의 실패 모드를 연구하기 위한 풍부한 사례를 제공하여 이미지 생성 제어 가능성에 대한 연구의 기반을 마련합니다.

영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

이 알고리즘으로 생성된 수많은 세대 실패 사례를 바탕으로 연구원은 세대 실패의 네 가지 이유를 다음과 같이 요약했습니다.


단어의 모호함

  • 프롬프트 내 단어의 위치
  • 생성 속도의 차이

프롬프트(프롬프트)에 여러 세대 대상이 포함될 때 특정 대상이 나오는 경우가 종종 발생합니다. 생성 중 문제가 진행되는 동안 사라집니다. 이론적으로 동일한 큐 내의 모든 대상은 동일한 초기 노이즈를 공유해야 합니다. 그림 4에서 볼 수 있듯이 연구원들은 고정된 초기 노이즈 조건 하에서 ImageNet에서 1,000개의 카테고리 타겟을 생성했습니다. 그들은 각 대상에서 생성된 마지막 이미지를 참조 이미지로 사용하고 각 시간 단계에서 생성된 이미지와 마지막 단계에서 생성된 이미지 간의 SSIM(구조적 유사성 지수) 점수를 계산하여 다양한 대상의 빌드 속도 차이를 보여주었습니다.

  • 대략적인 특징 유사성
  • 확산 생성 과정에서 연구원들은 두 유형의 타겟 사이에 전역적 또는 지역적 대략적인 특징 유사성이 있을 때 교차 주의가 계산된다는 것을 발견했습니다. 교차주의 문제) 가중치. 이는 두 개의 대상 명사가 동시에 같은 그림의 같은 블록에 집중하여 특징 얽힘을 초래할 수 있기 때문입니다. 예를 들어, 그림 6에서 깃털과 은연어는 거친 입자 특징에서 특정 유사성을 갖고 있으며, 이로 인해 깃털은 은연어를 기반으로 한 생성 프로세스의 8단계에서 생성 작업을 계속 완료할 수 있습니다. 은연어와 마술사 등 얽힘이 없는 두 유형의 대상에 대해 마술사는 은연어를 기반으로 한 중간 단계 이미지에서는 생성 작업을 완료할 수 없습니다.
  • 영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    Polysemy

    이 장에서 연구자들은 단어가 여러 의미를 가질 때 세대 상황을 깊이 탐구합니다. 그들이 발견한 것은 어떤 외부 교란 없이도 결과 이미지가 종종 단어의 특정 의미를 나타낸다는 것입니다. "warthog"를 예로 들어 보겠습니다. 그림 A4의 첫 번째 줄은 "warthog"라는 단어의 의미를 기반으로 생성되었습니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    그러나 연구자들은 원래 프롬프트에 다른 단어가 삽입되면 의미 체계가 바뀔 수 있다는 사실도 발견했습니다. 예를 들어, "멧돼지"를 설명하는 프롬프트에 "배신자"라는 단어가 도입되면 생성된 이미지 콘텐츠는 "멧돼지"의 원래 의미에서 벗어나 완전히 새로운 콘텐츠를 생성할 수 있습니다.

    프롬프트에서 단어의 위치

    그림 10에서 연구원은 흥미로운 현상을 관찰했습니다. 비록 인간의 관점에서 볼 때 다른 순서로 배열된 프롬프트는 일반적으로 동일한 의미를 가지며 모두 고양이, 나막신, 권총의 그림을 설명합니다. 그러나 언어 모델, 즉 CLIP 텍스트 인코더의 경우 단어의 순서가 텍스트를 이해하는 데 어느 정도 영향을 미치고, 이로 인해 생성되는 이미지의 내용이 변경됩니다. 이러한 현상은 우리의 설명이 의미적으로 일관성이 있음에도 불구하고 모델이 단어의 순서가 다르기 때문에 이해와 생성 결과가 다를 수 있음을 보여줍니다. 이는 모델이 언어를 처리하고 의미를 이해하는 방식이 인간과 다르다는 것을 보여줄 뿐만 아니라, 그러한 모델을 설계하고 사용할 때 단어 순서의 영향에 더 많은 주의를 기울여야 함을 상기시켜 줍니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    모델 구조

    는 프롬프트에서 원래 대상 명사를 변경하지 않고 Gumbel Softmax 분포를 학습하여 단어 대체 또는 확장의 이산 프로세스를 계속했습니다. 섭동 생성의 차별성을 보장하고, 이미지 생성 후 CLIP 분류기와 마진 손실을 사용하여 Ω를 최적화하고, CLIP이 올바르게 분류할 수 없는 이미지를 생성하는 것을 목표로 공격 프롬프트와 클린 프롬프트가 일정한 유사성을 갖도록 연구합니다. 추가 단계에서는 의미론적 유사성 제약 조건과 텍스트 유창성 제약 조건이 사용됩니다.

    이 분포가 학습되면 알고리즘은 동일한 깨끗한 텍스트 팁에 대한 공격 효과가 있는 여러 텍스트 팁을 샘플링할 수 있습니다.

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    영상 생성 시 검열 : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음

    자세한 내용은 원문을 확인해주세요.

위 내용은 영상 생성 시 '검열' : 안정적인 확산 실패 사례는 크게 4가지 요인에 영향을 받음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구