10밀리초 안에 이미지가 생성되고, 1분에 6,000개의 이미지가 생성되는 것이 컨셉인가요?
아래 사진을 보면 AI의 초능력을 깊이 느낄 수 있습니다.
Pictures
2차원 소녀 사진이 생성하는 프롬프트에 계속해서 새로운 요소를 추가해도 다양한 스타일의 사진 변화가 순식간에 번쩍입니다.
Pictures
이러한 놀라운 실시간 사진 생성 속도는 일본 UC Berkeley, University of Tsukuba 등의 연구진이 제안한 StreamDiffusion의 결과입니다.
이 새로운 솔루션은 100fps 이상의 실시간 대화형 이미지 생성을 가능하게 하는 확산 모델 프로세스입니다.
Pictures
문서 주소: https://arxiv.org/abs/2312.12491
StreamDiffusion은 오픈 소스 이후 GitHub를 직접 장악하여 3.7,000개의 별을 획득했습니다.
Pictures
StreamDiffusion은 시퀀스 노이즈 제거 대신 일괄 처리 전략을 혁신적으로 사용합니다. 이는 기존 방법보다 약 1.5배 빠릅니다. 또한 저자가 제안한 새로운 RCFG(Residual Classifier-Free Guide) 알고리즘은 기존의 분류자 없는 지침보다 2.05배 더 빠를 수 있습니다.
가장 주목할만한 점은 새로운 방식이 RTX 4090에서 91.07fps의 이미지 간 생성 속도를 달성할 수 있다는 것입니다.
Pictures
미래에는 메타버스, 비디오 게임 그래픽 렌더링, 라이브 비디오 스트리밍과 같은 다양한 시나리오에서 StreamDiffusion의 빠른 생성이 이러한 애플리케이션의 높은 처리량 요구를 충족할 수 있습니다.
특히 실시간 이미지 생성은 게임 개발 및 비디오 렌더링 분야에 종사하는 사람들에게 강력한 편집 및 창의적 기능을 제공할 수 있습니다.
Pictures
실시간 이미지 생성을 위해 특별히 설계됨
현재 다양한 분야에서 확산 모델을 적용하려면 인간-컴퓨터 상호 작용의 효율성을 보장하기 위해 처리량이 높고 대기 시간이 짧은 확산 파이프라인이 필요합니다
일반적인 예는 확산 모델을 사용하여 사용자 입력에 원활하게 반응할 수 있는 가상 캐릭터 VTuber를 만드는 것입니다.
Pictures
높은 처리량과 실시간 상호 작용 기능을 향상시키기 위해 현재 연구 방향은 주로 노이즈 제거 반복 횟수를 줄이는 데 중점을 두고 있습니다. 하나.
일반적인 전략은 다단계 확산 모델을 여러 단계로 세분화하고 ODE를 사용하여 확산 과정을 재구성하는 것입니다. 효율성을 향상시키기 위해 확산 모델도 정량화되었습니다.
최신 논문에서 연구자들은 직교 방향에서 시작하여 대화형 이미지 생성의 높은 처리량을 위해 설계된 실시간 확산 파이프라인인 StreamDiffusion을 도입했습니다.
기존 모델 설계 작업을 StreamDiffusion과 통합하는 동시에 N단계 노이즈 제거 확산 모델을 사용하여 높은 처리량을 유지하고 사용자에게 보다 유연한 옵션을 제공할 수 있습니다
사진
실시간 이미지 생성|첫 번째와 두 번째 열: AI를 활용한 실시간 드로잉 예시, 세 번째 열: 3D 아바타에서 2D 일러스트레이션을 실시간 렌더링합니다. 열 4 및 5: 라이브 카메라 필터. 실시간 이미지 생성 | 첫 번째와 두 번째 열은 AI를 활용한 실시간 드로잉의 예시를 보여주고, 세 번째 열은 3D 아바타를 실시간 렌더링하여 2D 일러스트를 생성하는 과정을 보여줍니다. 네번째와 다섯번째 열은 실시간 카메라 필터의 효과를 보여줍니다
구체적으로 어떻게 구현되나요?
StreamDiffusion Architecture
StreamDiffusion은 처리량을 늘리도록 설계된 새로운 확산 파이프라인입니다.
여러 핵심 부분으로 구성됩니다:
스트리밍 일괄 처리 전략, RCFG(Residual Classifier-Free Guide), 입력 및 출력 큐, 확률적 유사성 필터(Stochastic Likerity Filter), 사전 계산 프로그램, 마이크로 자동 인코더 모델 가속 도구.
Batch denoising
확산 모델에서는 Denoising 단계가 순차적으로 수행되므로 단계 수에 비례하여 U-Net의 처리 시간이 늘어납니다.
그러나 고화질 이미지를 생성하려면 단계 수를 늘려야 합니다.
대화형 확산에서 지연 시간이 높은 생성 문제를 해결하기 위해 연구자들은 스트림 배치(Stream Batch)라는 방법을 제안했습니다.
아래 그림에 표시된 것처럼 최신 방법에서는 다음 입력 이미지를 처리하기 전에 단일 이미지의 노이즈가 완전히 제거될 때까지 기다리는 대신 각 노이즈 제거 단계 후에 다음 입력 이미지가 승인됩니다.
이것은 노이즈 제거 배치를 형성하며 각 이미지의 노이즈 제거 단계는 시차를 두고 있습니다.
이 인터리빙된 노이즈 제거 단계를 일괄 처리로 연결함으로써 연구원은 U-Net을 사용하여 연속 입력의 일괄 처리를 효율적으로 처리할 수 있습니다.
시간 단계 t에서 인코딩된 입력 이미지는 시간 단계 t+n에서 생성 및 디코딩됩니다. 여기서 n은 노이즈 제거 단계 수입니다.
Pictures
RCFG(Residual Classifier-Free Guidance)
CFG(Common Classifier-Free Guidance)는 무조건 또는 부정 조건항과 원시 조건항 사이의 벡터를 계산하는 방법입니다. . 원래 조건의 효과를 향상시키는 알고리즘입니다.
Pictures
프롬프트 효과를 높이는 등의 이점을 가져올 수 있습니다.
그러나 음의 조건부 잔여 잡음을 계산하려면 각 입력 잠재 변수를 음의 조건부 임베딩과 쌍을 이루어 각 추론 시간마다 U-Net으로 전달해야 합니다.
이 문제를 해결하기 위해 저자는 혁신적인 RCFG(Residual Classifier-Free Bootstrapping)를 소개합니다.
이 방법은 가상 잔여 노이즈를 사용하여 음의 조건을 근사하므로 음의 조건부 노이즈만 계산할 수 있습니다. 이를 통해 음수 조건부 삽입 시 추가 U-Net 추론 계산 비용을 크게 절감
입력 및 출력 큐
입력 이미지를 파이프라인 관리가 가능한 텐서 데이터 형식으로 변환, 역방향 그러나 디코딩된 텐서를 다시 변환 출력 이미지에는 무시할 수 없는 추가 처리 시간이 필요합니다.
신경망 추론 파이프라인에 이러한 이미지 처리 시간이 추가되는 것을 방지하기 위해 우리는 이미지 사전 처리와 사후 처리를 서로 다른 스레드로 분리하여 병렬 처리를 허용합니다.
또한 입력 텐서 큐를 사용하면 장치 장애나 통신 오류로 인해 입력 이미지가 일시적으로 중단되는 경우에도 대처할 수 있어 원활한 스트리밍이 가능합니다.
사진
확률적 유사성 필터
아래와 같이 핵심 확산 추론 파이프라인에는 VAE 및 U-Net이 포함됩니다.
노이즈 제거 일괄 처리 및 사전 계산된 힌트 임베딩 캐시, 샘플링된 노이즈 캐시 및 스케줄러 값 캐시를 도입하여 추론 파이프라인 속도를 향상하고 실시간 이미지 생성을 지원합니다.
확률적 유사성 필터링(SSF)은 GPU 전력 소비를 절약하도록 설계되었으며 확산 모델 파이프라인을 동적으로 닫아 빠르고 효율적인 실시간 추론을 달성할 수 있습니다.
Image
사전 계산
U-Net 아키텍처에는 입력 잠재 변수와 조건부 임베딩이 모두 필요합니다.
일반적으로 조건부 임베딩은 "힌트 임베딩"에서 파생되며 다른 프레임 간에 변경되지 않습니다.
이를 최적화하기 위해 연구원들은 힌트 임베딩을 미리 계산하고 캐시에 저장합니다. 대화형 또는 스트리밍 모드에서는 미리 계산된 힌트 내장 캐시가 호출됩니다.
U-Net에서는 각 프레임의 키와 값 계산이 미리 계산된 힌트 임베딩을 기반으로 구현됩니다.
따라서 연구진은 이러한 키와 값 쌍을 저장하여 재사용이 가능하도록 U-Net을 수정했습니다. . 입력 프롬프트가 업데이트될 때마다 연구원들은 U-Net 내에서 이러한 키와 값 쌍을 다시 계산하고 업데이트합니다.
모델 가속 및 작은 자동 인코더
속도를 최적화하기 위해 정적 배치 크기와 고정 입력 크기(높이 및 너비)를 사용하도록 시스템을 구성했습니다.
이 접근 방식을 사용하면 계산 그래프와 메모리 할당이 특정 입력 크기에 최적화되어 처리 속도가 빨라집니다.
그러나 이는 다양한 모양(예: 다양한 높이와 너비)의 이미지를 처리해야 하는 경우 다양한 배치 크기(노이즈 제거 단계의 배치 크기 포함)를 사용한다는 의미입니다.
실험적 평가
노이즈 제거 배치의 정량적 평가
그림 8은 배치 노이즈 제거와 원래 순차 U-Net 루프의 효율성 비교를 보여줍니다.
일괄 노이즈 제거 전략을 구현할 때 연구원들은 처리 시간이 크게 개선되었습니다. 이는 순차적 노이즈 제거 단계를 사용하는 기존 U-Net 루프에 비해 시간을 절반으로 줄입니다.
신경 모듈 가속 도구인 TensorRT를 적용하더라도 연구원이 제안한 스트림 일괄 처리는 다양한 노이즈 제거 단계에서 원래 순차 확산 파이프라인의 효율성을 크게 향상시킬 수 있습니다.
Image
또한 연구원들은 최신 방법을 Huggingface Diffusers에서 개발한 AutoPipeline-ForImage2Image 파이프라인과 비교했습니다.
평균 추론 시간 비교는 표 1에 나와 있습니다. 최신 파이프라인을 보면 속도가 크게 향상되었음을 알 수 있습니다.
TensorRT를 사용할 때 StreamDiffusion은 10개의 노이즈 제거 단계를 실행할 때 13배의 속도 향상을 달성할 수 있습니다. 단일 노이즈 제거 단계만 포함하면 속도 증가는 59.6배에 도달할 수 있습니다
TensorRT가 없어도 StreamDiffusion은 단일 단계 노이즈 제거를 사용할 때 AutoPipeline보다 29.7배 빠르고, 10단계 노이즈 제거를 사용할 때 8.3배 향상됩니다.
Pictures
표 2는 RCFG와 일반 CFG를 사용한 흐름 확산 파이프라인의 추론 시간을 비교합니다.
단일 단계 잡음 제거의 경우 Onetime-Negative RCFG와 기존 CFG의 추론 시간은 거의 동일합니다.
따라서 단일 단계 잡음 제거에서 일회용 RCFG와 기존 CFG의 추론 시간은 거의 동일합니다. 그러나 노이즈 제거 단계 수가 증가함에 따라 기존 CFG에서 RCFG로의 추론 속도 향상이 더욱 분명해졌습니다.
5단계 노이즈 제거에서 자기 음성 RCFG는 기존 CFG보다 2.05배 빠르고, 일회성 음성 RCFG는 기존 CFG보다 1.79배 빠릅니다.
Pictures
Pictures
이후, 연구진은 제안된 SSF의 에너지 소비에 대한 종합적인 평가를 실시했습니다. 이 프로세스의 결과는 그림 6과 그림 7에서 볼 수 있습니다.
이 그림은 주기적 정적 특징이 포함된 장면에 대한 입력 비디오에 SSF(임계값 θ를 0.98로 설정)를 적용할 때 GPU 사용 패턴을 보여줍니다
비교 분석 결과, 입력 이미지가 주로 정적 이미지이고 유사도가 높은 경우 SSF를 사용하면 GPU 사용량을 크게 줄일 수 있는 것으로 나타났습니다.
Pictures
절제 연구
다양한 노이즈 제거 단계에서 다양한 모듈이 평균 추론 시간에 미치는 영향이 표 3에 나와 있습니다. 보시다시피, 이미지 대 이미지 생성 프로세스에서 다양한 모듈의 감소가 검증됩니다. 🎙 , 어떤 형태의 CFG도 사용하지 않으면 특히 효율적으로 구현되지 않는 색상 변경이나 존재하지 않는 요소 추가와 같은 측면에서 약한 정렬 단서를 보여줍니다.
반대로 CFG 또는 RCFG를 사용하면 머리 색깔 변경, 신체 패턴 추가, 안경과 같은 물체 포함 등 원본 이미지를 수정하는 기능이 향상됩니다. 특히 RCFG를 사용하면 표준 CFG에 비해 단서의 영향을 향상시킬 수 있습니다.
Pictures
마지막으로 표준 텍스트-이미지 생성 결과의 품질은 그림 11에 나와 있습니다.
sd-turbo 모델을 사용하면 단 한 단계만으로 그림 11과 같은 고품질 이미지를 생성할 수 있습니다.
연구원이 제안한 흐름 확산 파이프라인과 sd-turbo 모델을 사용하여 GPU: RTX 4090, CPU: Core i9-13900K, OS: Ubuntu 22.04.3 LTS 환경에서 이미지를 생성하면 100fps 이상을 달성합니다. 이러한 고품질 이미지를 빠른 속도로 생성하는 것이 가능합니다.
Pictures
네티즌들이 시작하고 2차원 아가씨들의 대거 몰려왔습니다
최신 프로젝트의 코드는 오픈 소스로 공개되었으며 Github에서 별 3700개를 모았습니다.
Pictures
프로젝트 주소: https://github.com/cumulo-autumn/StreamDiffusion
사진
및 실시간 애니메이션.
Pictures
10배속 손으로 그린 세대.
Pictures
Pictures
Pictures
어린이 신발에 관심이 있으신 분들은 직접 만들어 보시는 건 어떨까요?
참고자료:
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5 99 3aefba4f6cb07254637a6133
위 내용은 독일 대학 최고의 비주얼 팀의 'arXiv 맞춤형 플랫폼'인 무료 맞춤형 학술 논문 추천 시스템 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

在2020年3月31日这天初音未来与曾经那位花费了数百万迎娶她的日本宅男正式“离婚”了,距今差不多也有快4年的时间了。其实当初两人结婚的时候,许多人并不看好他们这一对,毕竟一个生活在三次元的人要和二次元的纸片人结婚,想想都觉得非常离谱。不过面对网友们的口诛笔伐,这位日本宅男近藤显彦并没有退缩,最终他还是与初音未来举办了婚礼,从结婚后近藤显彦时不时晒出的照片来看,他与初音未来的生活过得还是挺不错的,可惜两人婚姻并没有维持太长的时间,随着初代初音模型的Gatebox版权到期,近藤显彦的老婆初音未来也

操作系统实现按名存取的关键在于解决文件名称与具体的物理地址的转换;实现逻辑文件到物理文件间的转换,即按名存取外存上的文件,按名存取实现文件的共享和保密,不同用户能在系统的控制下共享其他用户的文件。

荣耀手机使用的是“Magic UI”、“EMUI”和“HarmonyOS”操作系统;荣耀的新机型采用的都是“Magic UI”系统,旧机型普遍使用的是基于安卓的EMUI系统,而部分机型支持升级为华为研发的HarmonyOS操作系统。

“funtouch os”是vivo基于安卓系统开发的智能手机操作系统;“funtouch os”是针对vivo公司中高端手机推出的一款人性化手机操作系统,该系统与2013年10月发布,以用户体验为核心,以简约、乐趣、智慧、理念为设计导向。

Ghost的本质是对磁盘或者硬盘进行快速备份与还原;利用Ghost安装Windows系统最大的优点就是速度快而且一键安装,并且Ghost系统大多集成了大多数电脑所需要的驱动程序以及一些常用的应用软件。需要注意:1、通过网络下载到的Ghost系统,其预置的驱动程序与自己的电脑可能不兼容,会导致安装之后出现蓝屏而无法正常使用;2、Ghost系统捆绑安装的应用软件太多。

从2024年开始,日本可能会取消对未实现收益征收的加密货币投资税,给投资者带来重大改变。在最近的一次内阁会议上,日本政府敲定了2024财年的加密税改革大纲。该改革方案包含了一项对持有加密资产的企业产生重大影响的修正案。修正案取消了之前适用于持有第三方发行的加密资产(虚拟货币)的公司的期末按市值计价的估值税。这一决定将使企业能够在报告期末时,以实际购买成本而非市场价值来计算其持有的加密资产的价值。这项修正案的目的是减轻企业在加密资产持有期间可能面临的税务压力,并为其提供更加公平和可持续的税收政策。

企业管理8大系统指的是:1、企业资源计划系统,以全面系统化的管理思想为基础,帮助企业实现各部门的便捷管理;2、客户关系管理系统,通过数据统计和数据挖掘、以及呼叫平台等客户管理平台的智能化管理;3、办公自动化管理系统,基于企业内部人员方便快捷地共享信息,高效地协同工作为目的;4、生产管理系统;5、进销存管理系统;6、项目管理系统;7、人力资源管理系统;8、财务管理系统。

10毫秒生成一张图像,1分钟6000张图像,这是什么概念?下图中,就可以深刻感受到AI的超能力。图片甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。图片如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。图片论文地址:https://arxiv.org/abs/2312.12491StreamDif


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

Dreamweaver Mac版
시각적 웹 개발 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.
