Heim > Artikel > Technologie-Peripheriegeräte > MIT und Google erforschen gemeinsam die neue Technologie StableRep: Verwendung synthetischer Bilder zum Trainieren von KI-Bildmodellen
Schwerpunkt:
Forscher haben eine neue Technologie namens StableRep vorgeschlagen, die von künstlicher Intelligenz erzeugte Bilder nutzt, um hochdetaillierte Bildmodelle mit künstlicher Intelligenz zu trainieren
StableRep trainiert mit Millionen beschrifteter synthetischer Bilder, wendet eine „Lernmethode mit mehreren positiven Kontrasten“ an, um den Lernprozess zu verbessern, und wendet sie auf das Open-Source-Text-zu-Bild-Modell Stable Diffusion an
- ⚙️ Obwohl StableRep bemerkenswerte Erfolge bei der ImageNet-Klassifizierung erzielt hat, ist die Generierung von Bildern langsam und es besteht eine semantische Diskrepanz zwischen Texthinweisen und generierten Bildern.
Webmaster Home (ChinaZ.com) Neuigkeiten vom 28. November: Forscher vom MIT und Google haben kürzlich eine neue Technologie namens StableRep entwickelt, die darauf abzielt, von KI erzeugte Bilder zu verwenden, um detailliertere und effizientere KI-Bildmodelle zu trainieren. Diese Technologie wurde auf das Open-Source-Text-zu-Bild-Modell Stable Diffusion angewendet und erzielte eine Reihe bemerkenswerter Erfolge.
StableRep verwendet eine einzigartige Methode namens „Multiple Positive Contrast Learning Method“. Bei diesem Ansatz werden mehrere Bilder, die aus derselben Textaufforderung stammen, als positive Kontraste zueinander betrachtet, um den Lernprozess zu verbessern. Für die Textaufforderung im Querformat vergleicht das Modell beispielsweise mehrere generierte Landschaftsbilder mit allen relevanten Beschreibungen, um anhand dieser Bilder kleine Unterschiede zu finden und diese auf die endgültige Ausgabe anzuwenden, wodurch ein äußerst detailliertes Bild entsteht
Die Forscher stellen fest, dass ihre Methode hervorragend darin ist, mehrere Bilder als Ausdruck desselben zugrunde liegenden Objekts zu behandeln und nicht nur als eine Ansammlung von Pixeln. Experimente haben gezeigt, dass StableRep bei der ImageNet-Klassifizierungsaufgabe unter Verwendung des Vision Transformer-Modells eine lineare Genauigkeit von 76,7 % erreichte. Darüber hinaus übertraf das auf 20 Millionen synthetischen Bildern trainierte StableRep-Modell durch die Einführung der Sprachüberwachung die Leistung des auf 50 Millionen realen Bildern trainierten CLIP-Modells
Allerdings sind stabile Generatoren nicht ohne Mängel. Es generiert Bilder langsam und leidet unter einer semantischen Diskrepanz zwischen Textaufforderungen und generierten Bildern. Darüber hinaus erfordert die stabile Diffusion, das zugrunde liegende Modell des stabilen Generators, ein anfängliches Training anhand realer Daten, sodass die Erstellung von Bildern mit dem stabilen Generator länger dauert und möglicherweise kostspieliger istStableRep wurde als Open Source auf GitHub bereitgestellt und steht für die kommerzielle Nutzung zur Verfügung. Es übernimmt die Apache 2.0-Lizenz, und Benutzer können sie verwenden und abgeleitete Werke erstellen, sie müssen jedoch eine Kopie der Apache-Lizenz im weitergegebenen Werk oder abgeleiteten Werk bereitstellen und einen Hinweis auf die Änderung beifügen. Die Lizenz beinhaltet auch eine Beschränkung der Haftung des Mitwirkenden für etwaige Schäden, die aus der Nutzung des lizenzierten Werks entstehen. Stable Replica (StableRep) wurde als Open Source auf GitHub veröffentlicht und kann für kommerzielle Zwecke genutzt werden. Es übernimmt die Apache2.0-Lizenz, die es Benutzern ermöglicht, abgeleitete Werke zu verwenden und zu erstellen. Bei Weiterverbreitungen oder abgeleiteten Werken müssen Benutzer jedoch eine Kopie der Apache-Lizenz bereitstellen und über vorgenommene Änderungen informieren. Diese Lizenz stellt die Mitwirkenden außerdem von jeglichem Schaden frei, der durch die Nutzung des lizenzierten Werks entsteht
Dieses Forschungsergebnis von MIT und Google stellt eine Innovation auf dem Gebiet der Bilderzeugung mit künstlicher Intelligenz dar. Obwohl es einige Mängel aufweist, bietet es eine neue Methode und Idee zum Generieren hochwertiger Bilder
Das obige ist der detaillierte Inhalt vonMIT und Google erforschen gemeinsam die neue Technologie StableRep: Verwendung synthetischer Bilder zum Trainieren von KI-Bildmodellen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!