Heim >Technologie-Peripheriegeräte >KI >AltDiffusion-m18, ein vielseitiges Tool zum Generieren mehrsprachiger Texte und Bilder
Derzeit ist die Auswahl an nicht-englischen Text- und Bildgenerierungsmodellen begrenzt und Benutzer müssen die Eingabeaufforderung häufig ins Englische übersetzen, bevor sie das Modell eingeben. Dies führt nicht nur zu einer zusätzlichen betrieblichen Belastung, sondern auch sprachliche und kulturelle Fehler im Übersetzungsprozess beeinträchtigen die Genauigkeit der generierten Bilder.
Das FlagAI-Team des Zhiyuan Research Institute hat eine effiziente Trainingsmethode entwickelt, bei der ein mehrsprachiges Vortrainingsmodell in Kombination mit Stable Diffusion verwendet wurde, um ein mehrsprachiges Text- und Bildgenerierungsmodell zu trainieren – AltDiffusion-m18, das Text und unterstützt Bildgenerierung in 18 Sprachen.
Einschließlich Chinesisch, Englisch, Japanisch, Thailändisch, Koreanisch, Hindi, Ukrainisch, Arabisch, Türkisch, Vietnamesisch, Polnisch, Niederländisch, Portugiesisch, Italienisch, Spanisch, Deutsch, Französisch, Russisch.
Huggingface: https://huggingface.co/BAAI/AltDiffusion-m18
GitHub: https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion-m18
AltDiffusion-m18 in Die objektive Bewertung des FID-, IS- und CLIP-Scores in Englisch hat einen stabilen Diffusionseffekt von 95 bis 99 % erreicht und das optimale Niveau in Chinesisch und Japanisch erreicht. Gleichzeitig wurden die Lücken in den Text- und Bildgenerierungsmodellen von geschlossen die restlichen 15 Sprachen, was den Anforderungen von in hohem Maße gerecht wird. In der Branche besteht eine starke Nachfrage nach mehrsprachiger Text- und Grafikerstellung. Besonderer Dank geht an das Stable Diffusion Research Team für die Beratung bei dieser Arbeit.
Darüber hinaus wurde der AltDiffusion-m18-bezogene innovative Technologiebericht „AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities“ von Findings of ACL 2023 akzeptiert. Technische Highlights 4 AltCLIP für den mehrsprachigen Turm und mit mehrsprachigen Daten in neun Sprachen verfeinert, wodurch die ursprüngliche, nur auf Englisch verfügbare Stable Diffusion auf die Unterstützung von neun verschiedenen Sprachen erweitert wird.
Mit der Unterstützung des neuen AltCLIP hat AltDiffusion-m18 95 bis 99 % des ursprünglichen stabilen Diffusionseffekts in der englischen FID-, IS- und CLIP-Score-Bewertung erreicht und die besten Ergebnisse in 17 Sprachen erzielt, darunter Chinesisch und Japanisch. Erweiterte Leistung, detaillierte Daten werden in der folgenden Tabelle angezeigt:
In Englisch, Chinesisch, Japanisch wird AltDiffusion-m18 mit anderen Modellgenerationen verglichen Ergebnisse, Der Effekt ist überlegen und die Details sind genauer:
AltDiffusion-m18 in (a) oben kann Ergebnisse erzeugen, die in hohem Maße mit dem übereinstimmen Original Stable Diffusion, und im Prompt ist es besser zu verstehen als andere inländische zweisprachige Chinesisch-Englisch-Modelle, zum Beispiel: „Ein ausgestopfter Bär“, „Ein Schwarz-Weiß-Foto“, „Katze“ und andere Konzepte, die in anderen Sprachen nicht generiert werden konnten Inländische zweisprachige Modelle Chinesisch-Englisch können erfolgreich in AltDiffusion generiert werden. Das gleiche Phänomen tritt im Chinesischen und Japanischen auf.
Das „schwarze Sofa, Holzboden“ in (b) oben wird nur von AltDiffusion-m18 korrekt generiert.
Die „Bären“ in (c) oben, Japanese Stable Diffusion generiert fälschlicherweise „Menschen“, AltDiffusion-m18 kann jedoch korrekt „Bären“ generieren.
Darüber hinaus entwickelte das Zhiyuan FlagEval-Team das Bewertungstool ImageEval für das Text- und Bildgenerierungsmodell. Nach der Evaluierung übertrifft die Genauigkeit von AltDiffusion-m18 in den Dimensionen Entitätsobjekt und Entitätsmenge die von inländischen Peer-Modellen um 11 % bzw. 10 % (Hinweis: Die ImageEval-Bewertungsmethode und die Ergebnisse werden in naher Zukunft öffentlich veröffentlicht, also bleiben Sie abgestimmt).
AltDiffusion-m18 Gelernt von Mehrsprachige Daten Die Voreingenommenheit in verschiedenen Sprachen hilft Benutzern, die Sprachübersetzungsschwelle zu überschreiten und kulturelle Übersetzungen zu umgehen, wodurch der Verlust kultureller Informationen hinter der Sprache verringert wird. Wie in der Abbildung unten gezeigt, ist die Gesichtskontur des kleinen Jungen, die durch Eingabeaufforderungen in chinesischer und japanischer Sprache generiert wird, eher „asiatischer Stil“, während die Gesichtskontur des kleinen Jungen, die durch Eingabeaufforderungen in englischer und anderer europäischer Sprache generiert wird, eher „europäischer und amerikanischer Stil“ ist.
Interessanter ist, dass auch die Details der Bilder, die durch Tieraufforderungen in verschiedenen Sprachen generiert werden, unterschiedlich sind. Wie in der folgenden Abbildung gezeigt, sind die in verschiedenen Sprachen generierten Bilder insgesamt zwar sehr konsistent, es gibt jedoch geringfügige Unterschiede im Hintergrund des Bildes und in den Details der Gesichtszüge von Corgi.
Im Allgemeinen bietet AltDiffusion-m18 einen grundlegenden Referenzrahmen für mehrsprachige Text- und Bildgenerierungsmodelle. Benutzer, deren Muttersprachen Spanisch, Deutsch und Französisch sind, können den Spaß von AIGC genießen, ohne die Eingabeaufforderungen in ihrem Kopf ins Englische übersetzen zu müssen. KI-Trainingsexperten können basierend auf AltDiffusion-m18 auch durch die Kombination von DreamBooth, ControlNet und LoRA eine weitere Optimierung durchführen oder Korpus-Feinabstimmungen in anderen Sprachen verwenden, um bessere Effekte bei der Text- und Bildgenerierung zu erzielen.
Gleichzeitig stellt FlagAI (github.com/FlagAI-Open/FlagAI), ein One-Stop-Open-Source-Projekt für große Modellalgorithmen, Modelle und Tools, auch Trainingsinferenztools und APIs für bereit Jeder kann AltDiffusion-m18 schnell herunterladen und verwenden.
Das obige ist der detaillierte Inhalt vonAltDiffusion-m18, ein vielseitiges Tool zum Generieren mehrsprachiger Texte und Bilder. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!