Heim  >  Artikel  >  Hardware-Tutorial  >  Spider-Man tanzt verführerisch und die nächste Generation von ControlNet ist da! Es wurde vom Jiajiaya-Team eingeführt, ist Plug-and-Play-fähig und kann auch die Videoerzeugung steuern

Spider-Man tanzt verführerisch und die nächste Generation von ControlNet ist da! Es wurde vom Jiajiaya-Team eingeführt, ist Plug-and-Play-fähig und kann auch die Videoerzeugung steuern

WBOY
WBOYOriginal
2024-08-17 15:49:41653Durchsuche

ControlNet과 동일한 제어 가능한 생성을 달성하려면 훈련 매개변수의 10% 미만을 사용하십시오!

SDXL 및 SD1.5와 같은 Stable Diffusion 제품군의 일반 모델을 조정할 수 있으며 여전히 플러그 앤 플레이 방식입니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

동시에 SVD와 함께 사용하여 비디오 생성을 제어할 수도 있으며, 동작 세부 사항을 손가락까지 정확하게 제어할 수 있습니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

이 이미지와 비디오 뒤에는 홍콩 중국 Jiajiaya 팀이 출시한 오픈 소스 이미지/비디오 생성 안내 도구인 ControlNeXt가 있습니다.

이름에서 R&D팀이 차세대 ControlNet으로 포지셔닝한 것을 알 수 있습니다.

대신 He Kaiming과 Xie Saining의 고전 작품 ResNeXt(ResNet의 확장)처럼 이름도 이 방식에서 유래되었습니다.

일부 네티즌들은 이 이름이 합당하며 ControlNet을 더 높은 수준으로 끌어올린 차세대 제품이라고 생각합니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

어떤 사람들은 ControlNeXt가 제어 가능한 발전의 효율성을 크게 향상시킨 게임 체인저라고 솔직하게 말했습니다. 그들은 그것을 사용하는 사람들이 만든 작품을 기대합니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

스파이더맨은 아름다움으로 춤을 춥니다

ControlNeXt는 다양한 SD 시리즈 모델을 지원하며 플러그 앤 플레이 방식입니다.

이미지 생성 모델 SD1.5, SDXL, SD3(초해상도 지원) 및 비디오 생성 모델 SVD가 포함됩니다.

말할 것도 없고, 결과만 살펴보겠습니다.

SDXL에 엣지(캐니) 가이던스를 추가하면 그려진 2차원 소녀와 컨트롤 라인이 거의 완벽하게 맞는 것을 확인할 수 있습니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

제어 윤곽이 많고 상세하더라도 모델은 요구 사항을 충족하는 그림을 그릴 수 있습니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

추가 교육 없이도 다른 LoRA 가중치와 원활하게 통합됩니다.

예를 들어 SD1.5에서는 다양한 LoRA와 함께 자세(포즈) 제어 조건을 사용하여 스타일이 다르거나 차원을 넘어도 동작은 동일한 캐릭터를 형성할 수 있습니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

또한 ControlNeXt는 마스크 및 깊이 제어 모드도 지원합니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

SD3는 초고화질 이미지를 생성할 수 있는 슈퍼 해상도도 지원합니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

비디오 생성 중에 ControlNeXt는 캐릭터 움직임을 제어할 수 있습니다.

예를 들어 스파이더맨이 틱톡에서 아름다운 춤을 추게 하면 손가락 움직임까지 꽤 정확하게 모방됩니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

의자에 손을 뻗어 똑같은 춤을 추게도 하더군요. 조금 추상적이긴 하지만 액션 재현이 꽤 좋습니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

그리고 원래 ControlNet에 비해 ControlNeXt는 훈련 매개변수가 더 적고 더 빠르게 수렴합니다.

예를 들어, SD1.5 및 SDXL에서 ControlNet에는 각각 3억 6,100만 개와 12억 5,100만 개의 학습 가능한 매개변수가 필요하지만 ControlNeXt는 각각 3,000만 개와 1억 8,000만 개만 필요하며 이는 ControlNet의 10% 미만입니다.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

Während des Trainingsprozesses ist ControlNeXt bei etwa 400 Schritten nahe der Konvergenz, ControlNet erfordert jedoch das Zehnfache oder sogar Dutzende Mal so viele Schritte.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

Die Generierungsgeschwindigkeit ist auch schneller als bei ControlNet, was eine Verzögerung von 41,9 % mit sich bringt, ControlNeXt jedoch nur 10,4 % .

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

Wie wird ControlNeXt implementiert und welche Verbesserungen wurden an ControlNet vorgenommen?

Ein leichteres bedingtes Kontrollmodul

Verwenden Sie zunächst ein Bild, um den gesamten Arbeitsablauf von ControlNeXt zu verstehen.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

Der Schlüssel zum Lightweighting liegt darin, dass ControlNeXt den großen Kontrollzweig in ControlNet entfernt und stattdessen einen Lightweight-Zweig einführt, der aus einer kleinen Anzahl von ResNet-Blöcken besteht Faltungsmodul.

Dieses Modul ist für die Extraktion von Merkmalsdarstellungen von Kontrollbedingungen (z. B. semantischen Segmentierungsmasken, Schlüsselpunktprioritäten usw.) verantwortlich.

Die Menge an Trainingsparametern beträgt normalerweise weniger als 10 % des vorab trainierten Modells in ControlNet, aber es kann die eingegebenen bedingten Steuerinformationen trotzdem gut lernen. Dieses Design reduziert den Rechenaufwand und die Speichernutzung erheblich . .

Konkret werden in gleichen Abständen Stichproben aus verschiedenen Netzwerkschichten eines vorab trainierten Modells durchgeführt, um eine Teilmenge der für das Training verwendeten Parameter zu bilden, während die übrigen Parameter eingefroren werden.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

Darüber hinaus behielt das Forschungsteam beim Entwurf der Architektur von ControlNeXt auch die Konsistenz der Modellstruktur mit der ursprünglichen Architektur bei und erreichte so Plug-In-Lösungen. und-spielen.

Ob ControlNet oder ControlNeXt, die Injektion bedingter Steuerinformationen ist ein wichtiger Link.

Während dieses Prozesses führte das ControlNeXt-Forschungsteam eingehende Untersuchungen zu zwei Schlüsselthemen durch – der Auswahl der Injektionsorte und der Gestaltung der Injektionsmethoden.

Das Forschungsteam stellte fest, dass bei den meisten kontrollierbaren Generierungsaufgaben die Form der bedingten Informationen zur Steuerung der Generierung relativ einfach ist und stark mit den Merkmalen im Entrauschungsprozess korreliert.

Daher glaubte das Team, dass es nicht notwendig sei, Steuerinformationen in jede Schicht des Entrauschungsnetzwerks einzuschleusen, und entschied sich daher dafür, bedingte Merkmale und Entrauschungsmerkmale nur in der mittleren Schicht des Netzwerks zu aggregieren.

Die Aggregationsmethode ist ebenfalls so einfach wie möglich: Nachdem Sie die Verteilung der beiden Merkmalssätze mithilfe der Kreuznormalisierung ausgerichtet haben, fügen Sie sie direkt hinzu.

Dies stellt nicht nur sicher, dass das Steuersignal den Entrauschungsprozess beeinflusst, sondern vermeidet auch die Einführung zusätzlicher Lernparameter und Instabilität durch komplexe Vorgänge wie den Aufmerksamkeitsmechanismus.

Die Kreuznormalisierung ist ebenfalls eine weitere Kerntechnologie von ControlNeXt und ersetzt die bisher häufig verwendeten progressiven Initialisierungsstrategien wie die Nullfaltung.

Traditionelle Methoden mildern das Kollapsproblem, indem sie den Einfluss neuer Module schrittweise von Grund auf freigeben, aber das Ergebnis ist oft eine langsame Konvergenz.

Die Kreuznormalisierung verwendet direkt den Mittelwert μ und die Varianz σ der Entrauschungsmerkmale des Backbone-Netzwerks, um die vom Steuermodul ausgegebenen Merkmale zu normalisieren, sodass die Datenverteilung der beiden so gut wie möglich ausgerichtet ist.

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

(Hinweis: ist eine kleine Konstante, die für die numerische Stabilität hinzugefügt wurde, γ ist der Skalierungsparameter.)

Normalisierung Die Normalisierung Die Steuerungsmerkmale werden dann durch Skalierungs- und Offset-Parameter in Amplitude und Grundlinie angepasst und dann zu den Rauschunterdrückungsmerkmalen hinzugefügt, wodurch nicht nur die Empfindlichkeit der Parameterinitialisierung vermieden wird, sondern auch ermöglicht wird, dass die Steuerungsbedingungen in den frühen Phasen des Trainings wirksam werden und beschleunigt werden Der Konvergenzprozess.

Darüber hinaus nutzt ControlNeXt das Kontrollmodul auch, um die Zuordnung von Bedingungsinformationen zu latenten Raummerkmalen zu erlernen, wodurch sie abstrakter und semantischer werden und sich besser für die Verallgemeinerung auf unsichtbare Kontrollbedingungen eignen.

Projekthomepage:

https://pbihao.github.io/projects/controlnext/index.html

Papieradresse: #🎜🎜 #

https://arxiv.org/abs/2408.06070

GitHub:

https://github.com/dvlab-research/ControlNeXt#🎜🎜 #

Das obige ist der detaillierte Inhalt vonSpider-Man tanzt verführerisch und die nächste Generation von ControlNet ist da! Es wurde vom Jiajiaya-Team eingeführt, ist Plug-and-Play-fähig und kann auch die Videoerzeugung steuern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn