10밀리초 안에 이미지가 생성되고, 1분에 6,000개의 이미지가 생성되는 것이 컨셉인가요?
아래 사진을 보면 AI의 초능력을 깊이 느낄 수 있습니다.
Pictures
2차원 소녀 사진이 생성하는 프롬프트에 계속해서 새로운 요소를 추가해도 다양한 스타일의 사진 변화가 순식간에 번쩍입니다.
Pictures
이러한 놀라운 실시간 사진 생성 속도는 일본 UC Berkeley, University of Tsukuba 등의 연구진이 제안한 StreamDiffusion의 결과입니다.
이 새로운 솔루션은 100fps 이상의 실시간 대화형 이미지 생성을 가능하게 하는 확산 모델 프로세스입니다.
Pictures
문서 주소: https://arxiv.org/abs/2312.12491
StreamDiffusion은 오픈 소스 이후 GitHub를 직접 장악하여 3.7,000개의 별을 획득했습니다.
Pictures
StreamDiffusion은 시퀀스 노이즈 제거 대신 일괄 처리 전략을 혁신적으로 사용합니다. 이는 기존 방법보다 약 1.5배 빠릅니다. 또한 저자가 제안한 새로운 RCFG(Residual Classifier-Free Guide) 알고리즘은 기존의 분류자 없는 지침보다 2.05배 더 빠를 수 있습니다.
가장 주목할만한 점은 새로운 방식이 RTX 4090에서 91.07fps의 이미지 간 생성 속도를 달성할 수 있다는 것입니다.
Pictures
미래에는 메타버스, 비디오 게임 그래픽 렌더링, 라이브 비디오 스트리밍과 같은 다양한 시나리오에서 StreamDiffusion의 빠른 생성이 이러한 애플리케이션의 높은 처리량 요구를 충족할 수 있습니다.
특히 실시간 이미지 생성은 게임 개발 및 비디오 렌더링 분야에 종사하는 사람들에게 강력한 편집 및 창의적 기능을 제공할 수 있습니다.
Pictures
현재 다양한 분야에서 확산 모델을 적용하려면 인간-컴퓨터 상호 작용의 효율성을 보장하기 위해 처리량이 높고 대기 시간이 짧은 확산 파이프라인이 필요합니다
일반적인 예는 확산 모델을 사용하여 사용자 입력에 원활하게 반응할 수 있는 가상 캐릭터 VTuber를 만드는 것입니다.
Pictures
높은 처리량과 실시간 상호 작용 기능을 향상시키기 위해 현재 연구 방향은 주로 노이즈 제거 반복 횟수를 줄이는 데 중점을 두고 있습니다. 하나.
일반적인 전략은 다단계 확산 모델을 여러 단계로 세분화하고 ODE를 사용하여 확산 과정을 재구성하는 것입니다. 효율성을 향상시키기 위해 확산 모델도 정량화되었습니다.
최신 논문에서 연구자들은 직교 방향에서 시작하여 대화형 이미지 생성의 높은 처리량을 위해 설계된 실시간 확산 파이프라인인 StreamDiffusion을 도입했습니다.
기존 모델 설계 작업을 StreamDiffusion과 통합하는 동시에 N단계 노이즈 제거 확산 모델을 사용하여 높은 처리량을 유지하고 사용자에게 보다 유연한 옵션을 제공할 수 있습니다
사진
실시간 이미지 생성|첫 번째와 두 번째 열: AI를 활용한 실시간 드로잉 예시, 세 번째 열: 3D 아바타에서 2D 일러스트레이션을 실시간 렌더링합니다. 열 4 및 5: 라이브 카메라 필터. 실시간 이미지 생성 | 첫 번째와 두 번째 열은 AI를 활용한 실시간 드로잉의 예시를 보여주고, 세 번째 열은 3D 아바타를 실시간 렌더링하여 2D 일러스트를 생성하는 과정을 보여줍니다. 네번째와 다섯번째 열은 실시간 카메라 필터의 효과를 보여줍니다
구체적으로 어떻게 구현되나요?
StreamDiffusion은 처리량을 늘리도록 설계된 새로운 확산 파이프라인입니다.
여러 핵심 부분으로 구성됩니다:
스트리밍 일괄 처리 전략, RCFG(Residual Classifier-Free Guide), 입력 및 출력 큐, 확률적 유사성 필터(Stochastic Likerity Filter), 사전 계산 프로그램, 마이크로 자동 인코더 모델 가속 도구.
확산 모델에서는 Denoising 단계가 순차적으로 수행되므로 단계 수에 비례하여 U-Net의 처리 시간이 늘어납니다.
그러나 고화질 이미지를 생성하려면 단계 수를 늘려야 합니다.
대화형 확산에서 지연 시간이 높은 생성 문제를 해결하기 위해 연구자들은 스트림 배치(Stream Batch)라는 방법을 제안했습니다.
아래 그림에 표시된 것처럼 최신 방법에서는 다음 입력 이미지를 처리하기 전에 단일 이미지의 노이즈가 완전히 제거될 때까지 기다리는 대신 각 노이즈 제거 단계 후에 다음 입력 이미지가 승인됩니다.
이것은 노이즈 제거 배치를 형성하며 각 이미지의 노이즈 제거 단계는 시차를 두고 있습니다.
이 인터리빙된 노이즈 제거 단계를 일괄 처리로 연결함으로써 연구원은 U-Net을 사용하여 연속 입력의 일괄 처리를 효율적으로 처리할 수 있습니다.
시간 단계 t에서 인코딩된 입력 이미지는 시간 단계 t+n에서 생성 및 디코딩됩니다. 여기서 n은 노이즈 제거 단계 수입니다.
Pictures
CFG(Common Classifier-Free Guidance)는 무조건 또는 부정 조건항과 원시 조건항 사이의 벡터를 계산하는 방법입니다. . 원래 조건의 효과를 향상시키는 알고리즘입니다.
Pictures
프롬프트 효과를 높이는 등의 이점을 가져올 수 있습니다.
그러나 음의 조건부 잔여 잡음을 계산하려면 각 입력 잠재 변수를 음의 조건부 임베딩과 쌍을 이루어 각 추론 시간마다 U-Net으로 전달해야 합니다.
이 문제를 해결하기 위해 저자는 혁신적인 RCFG(Residual Classifier-Free Bootstrapping)를 소개합니다.
이 방법은 가상 잔여 노이즈를 사용하여 음의 조건을 근사하므로 음의 조건부 노이즈만 계산할 수 있습니다. 이를 통해 음수 조건부 삽입 시 추가 U-Net 추론 계산 비용을 크게 절감
입력 및 출력 큐
입력 이미지를 파이프라인 관리가 가능한 텐서 데이터 형식으로 변환, 역방향 그러나 디코딩된 텐서를 다시 변환 출력 이미지에는 무시할 수 없는 추가 처리 시간이 필요합니다.
신경망 추론 파이프라인에 이러한 이미지 처리 시간이 추가되는 것을 방지하기 위해 우리는 이미지 사전 처리와 사후 처리를 서로 다른 스레드로 분리하여 병렬 처리를 허용합니다.
또한 입력 텐서 큐를 사용하면 장치 장애나 통신 오류로 인해 입력 이미지가 일시적으로 중단되는 경우에도 대처할 수 있어 원활한 스트리밍이 가능합니다.
사진
아래와 같이 핵심 확산 추론 파이프라인에는 VAE 및 U-Net이 포함됩니다.
노이즈 제거 일괄 처리 및 사전 계산된 힌트 임베딩 캐시, 샘플링된 노이즈 캐시 및 스케줄러 값 캐시를 도입하여 추론 파이프라인 속도를 향상하고 실시간 이미지 생성을 지원합니다.
확률적 유사성 필터링(SSF)은 GPU 전력 소비를 절약하도록 설계되었으며 확산 모델 파이프라인을 동적으로 닫아 빠르고 효율적인 실시간 추론을 달성할 수 있습니다.
Image
U-Net 아키텍처에는 입력 잠재 변수와 조건부 임베딩이 모두 필요합니다.
일반적으로 조건부 임베딩은 "힌트 임베딩"에서 파생되며 다른 프레임 간에 변경되지 않습니다.
이를 최적화하기 위해 연구원들은 힌트 임베딩을 미리 계산하고 캐시에 저장합니다. 대화형 또는 스트리밍 모드에서는 미리 계산된 힌트 내장 캐시가 호출됩니다.
U-Net에서는 각 프레임의 키와 값 계산이 미리 계산된 힌트 임베딩을 기반으로 구현됩니다.
따라서 연구진은 이러한 키와 값 쌍을 저장하여 재사용이 가능하도록 U-Net을 수정했습니다. . 입력 프롬프트가 업데이트될 때마다 연구원들은 U-Net 내에서 이러한 키와 값 쌍을 다시 계산하고 업데이트합니다.
속도를 최적화하기 위해 정적 배치 크기와 고정 입력 크기(높이 및 너비)를 사용하도록 시스템을 구성했습니다.
이 접근 방식을 사용하면 계산 그래프와 메모리 할당이 특정 입력 크기에 최적화되어 처리 속도가 빨라집니다.
그러나 이는 다양한 모양(예: 다양한 높이와 너비)의 이미지를 처리해야 하는 경우 다양한 배치 크기(노이즈 제거 단계의 배치 크기 포함)를 사용한다는 의미입니다.
그림 8은 배치 노이즈 제거와 원래 순차 U-Net 루프의 효율성 비교를 보여줍니다.
일괄 노이즈 제거 전략을 구현할 때 연구원들은 처리 시간이 크게 개선되었습니다. 이는 순차적 노이즈 제거 단계를 사용하는 기존 U-Net 루프에 비해 시간을 절반으로 줄입니다.
신경 모듈 가속 도구인 TensorRT를 적용하더라도 연구원이 제안한 스트림 일괄 처리는 다양한 노이즈 제거 단계에서 원래 순차 확산 파이프라인의 효율성을 크게 향상시킬 수 있습니다.
Image
또한 연구원들은 최신 방법을 Huggingface Diffusers에서 개발한 AutoPipeline-ForImage2Image 파이프라인과 비교했습니다.
평균 추론 시간 비교는 표 1에 나와 있습니다. 최신 파이프라인을 보면 속도가 크게 향상되었음을 알 수 있습니다.
TensorRT를 사용할 때 StreamDiffusion은 10개의 노이즈 제거 단계를 실행할 때 13배의 속도 향상을 달성할 수 있습니다. 단일 노이즈 제거 단계만 포함하면 속도 증가는 59.6배에 도달할 수 있습니다
TensorRT가 없어도 StreamDiffusion은 단일 단계 노이즈 제거를 사용할 때 AutoPipeline보다 29.7배 빠르고, 10단계 노이즈 제거를 사용할 때 8.3배 향상됩니다.
Pictures
표 2는 RCFG와 일반 CFG를 사용한 흐름 확산 파이프라인의 추론 시간을 비교합니다.
단일 단계 잡음 제거의 경우 Onetime-Negative RCFG와 기존 CFG의 추론 시간은 거의 동일합니다.
따라서 단일 단계 잡음 제거에서 일회용 RCFG와 기존 CFG의 추론 시간은 거의 동일합니다. 그러나 노이즈 제거 단계 수가 증가함에 따라 기존 CFG에서 RCFG로의 추론 속도 향상이 더욱 분명해졌습니다.
5단계 노이즈 제거에서 자기 음성 RCFG는 기존 CFG보다 2.05배 빠르고, 일회성 음성 RCFG는 기존 CFG보다 1.79배 빠릅니다.
Pictures
Pictures
이후, 연구진은 제안된 SSF의 에너지 소비에 대한 종합적인 평가를 실시했습니다. 이 프로세스의 결과는 그림 6과 그림 7에서 볼 수 있습니다.
이 그림은 주기적 정적 특징이 포함된 장면에 대한 입력 비디오에 SSF(임계값 θ를 0.98로 설정)를 적용할 때 GPU 사용 패턴을 보여줍니다
비교 분석 결과, 입력 이미지가 주로 정적 이미지이고 유사도가 높은 경우 SSF를 사용하면 GPU 사용량을 크게 줄일 수 있는 것으로 나타났습니다.
Pictures
다양한 노이즈 제거 단계에서 다양한 모듈이 평균 추론 시간에 미치는 영향이 표 3에 나와 있습니다. 보시다시피, 이미지 대 이미지 생성 프로세스에서 다양한 모듈의 감소가 검증됩니다. 🎙 , 어떤 형태의 CFG도 사용하지 않으면 특히 효율적으로 구현되지 않는 색상 변경이나 존재하지 않는 요소 추가와 같은 측면에서 약한 정렬 단서를 보여줍니다.
반대로 CFG 또는 RCFG를 사용하면 머리 색깔 변경, 신체 패턴 추가, 안경과 같은 물체 포함 등 원본 이미지를 수정하는 기능이 향상됩니다. 특히 RCFG를 사용하면 표준 CFG에 비해 단서의 영향을 향상시킬 수 있습니다.
마지막으로 표준 텍스트-이미지 생성 결과의 품질은 그림 11에 나와 있습니다.
sd-turbo 모델을 사용하면 단 한 단계만으로 그림 11과 같은 고품질 이미지를 생성할 수 있습니다.
연구원이 제안한 흐름 확산 파이프라인과 sd-turbo 모델을 사용하여 GPU: RTX 4090, CPU: Core i9-13900K, OS: Ubuntu 22.04.3 LTS 환경에서 이미지를 생성하면 100fps 이상을 달성합니다. 이러한 고품질 이미지를 빠른 속도로 생성하는 것이 가능합니다.
Pictures
네티즌들이 시작하고 2차원 아가씨들의 대거 몰려왔습니다
최신 프로젝트의 코드는 오픈 소스로 공개되었으며 Github에서 별 3700개를 모았습니다.
Pictures
프로젝트 주소: https://github.com/cumulo-autumn/StreamDiffusion
많은 네티즌들이 자신만의 2차원 아내를 만들기 시작했습니다.사진
및 실시간 애니메이션.
Pictures
10배속 손으로 그린 세대.
Pictures
Pictures
Pictures
어린이 신발에 관심이 있으신 분들은 직접 만들어 보시는 건 어떨까요?
참고자료:
https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be
https://www.php.cn/link/75a6e5 99 3aefba4f6cb07254637a6133
위 내용은 독일 대학 최고의 비주얼 팀의 "arXiv 맞춤형 플랫폼"인 무료 맞춤형 학술 논문 추천 시스템 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!