Heim >Technologie-Peripheriegeräte >KI >Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source
Kürzlich hat das große Modellforschungsteam des Zhiyuan Research Institute das neueste zweisprachige AltDiffusion-Modell als Open-Source-Version veröffentlicht und damit der chinesischen Welt eine leistungsstarke KI-Text- und Grafikerstellung auf professionellem Niveau zugänglich gemacht:
Unterstützt die erweiterte Erstellung feiner Langformate Chinesische Aufforderungen; ohne kulturelle Übersetzung, aus der ursprünglichen chinesischen Sprache, die sowohl mit der Form als auch mit dem Geist direkt mit der chinesischen Malerei spricht, und die schockierende visuelle Wirkung auf Chinesisch und Englisch auf einem niedrigen Niveau erreicht hat Man kann sagen, dass er ein Weltklasse-KI-Malmeister ist, der Chinesisch spricht.
Das innovative Modell AltCLIP ist der Eckpfeiler dieser Arbeit und ergänzt das ursprüngliche CLIP-Modell um drei stärkere sprachübergreifende Funktionen. Sowohl die AltDiffusion- als auch die AltCLIP-Modelle sind mehrsprachige Modelle. Die Zweisprachigkeit in Chinesisch und Englisch ist die erste Stufe der Arbeit, und der Code und die Modelle sind Open Source.
AltDiffusion
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion
AltCLIP
https:// github.com/FlagAI-Open/FlagAI/examples/AltCLIP
HuggingFace-Weltraumversuchsadresse:
https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion
Technisch Bericht
https://arxiv.org/abs/2211.06679
——Lange, schnelle, feine Malerei + muttersprachlicher chinesischer Stil, zufriedenstellend Chinesische KI Hohe Nachfrage für kreative Meister
Dank der leistungsstarken zweisprachigen Ausrichtungsfunktionen für Chinesisch und Englisch auf Basis von AltCLIP hat AltDiffusion ein ähnliches visuelles Effektniveau wie Stable Diffusion erreicht, insbesondere mit dem einzigartigen Vorteil, dass es Chinesisch besser versteht und besser in chinesischer Malerei ist . , was den Erwartungen professioneller chinesischer KI-Text- und Bildersteller sehr gerecht wird.
Die Eingabeaufforderungslänge ist der Wendepunkt, um die Fähigkeit des Modells zu testen, Text und Bilder zu generieren , Bild- und Textausrichtung und sprachübergreifend.
Unter den gleichen langen Eingabeaufforderungsanpassungen für Chinesisch und Englisch ist AltDiffusion in vielen Fällen der Bilderzeugung noch ausdrucksvoller: Die Elementzusammensetzung ist reichhaltig und aufregend, und die Details werden feinfühlig und genau beschrieben.
Zusätzlich zur ähnlichen Eingabeleistung chinesischer und englischer Eingabeaufforderungen kann AltDiffusion auch die Mängel des chinesischen Malstils in der westlichen Welt ausgleichen , unter Verwendung chinesischer Bilder und Texte, um fortzufahren. Feinabstimmung der Generierung chinesischer Merkmale, wie z. B. des chinesischen Malstil-Generierungsmodells, um einen echten „chinesischen Stil“ zu erzeugen.
AltDiffusion versteht Chinesisch besser. Es kann die Bedeutung im chinesischen Kulturkontext beschreiben und die Absicht des Schöpfers sofort verstehen. Beispielsweise vermeidet die Beschreibung von „Die große Szene der Tang-Dynastie“, aufgrund kultureller Missverständnisse vom Thema abzuweichen.
Vor allem Konzepte, die aus der chinesischen Kultur stammen, verstehen und drücken wir sie genauer aus und vermeiden so die lächerliche Verwechslung zwischen „japanischem Stil“ und „chinesischem Stil“. Wenn beispielsweise Eingabeaufforderungen entsprechend dem Tang-Anzug-Zeichenstil mit stabiler Diffusion in Chinesisch und Englisch eingegeben werden, ist der Unterschied auf einen Blick klar:
Bei der Generierung eines bestimmten Stils wird der chinesische Kulturkontext berücksichtigt als Identitätssubjekt für die Stilerstellung verwendet werden, z. B. Für die Eingabeaufforderung mit „alten Gebäuden“ unten werden standardmäßig alte chinesische Gebäude generiert. Der kreative Stil entspricht eher der Identität chinesischer Schöpfer. 3. Zweisprachige, generierte Effektausrichtung für Chinesisch und Englisch . Dank der leistungsstarken Sprachausrichtungsfunktionen von AltCLIP kommt der Generierungseffekt von AltDiffusion der stabilen Diffusion in Englisch sehr nahe und spiegelt auch die Konsistenz der zweisprachigen Leistung in Chinesisch und Englisch wider.
Nachdem Sie beispielsweise die chinesischen und englischen Eingabeaufforderungen „Welpe mit Hut“ in AltDiffusion eingegeben haben, werden die generierten Bildeffekte grundsätzlich mit extrem hoher Konsistenz ausgerichtet:
Fügen Sie den Deskriptor zum „Jungen“ hinzu „Bild als Nach „Chinese Boy“, basierend auf dem Originalbild eines kleinen Jungen, wurde er genau in ein typisches „chinesisches“ Kind umgewandelt und zeigte ein hervorragendes Sprachverständnis und genaue Ausdrucksergebnisse bei der Sprachkontrollerzeugung.
Öffnen Sie das ursprüngliche Ökosystem von StableDiffusion
——Umfassende ökologische Tools und PromptsBook-Anwendungen, hervorragende Spielbarkeit
Besonders erwähnenswert ist, dass die ökologischen Integrationsfähigkeiten von AltDiffusion:
Alle Stable Diffusion unterstützen Tools wie Stable Diffusion WebUI, DreamBooth usw. können auf unser zweisprachiges Chinesisch-Englisch-Diffusionsmodell angewendet werden und bieten eine Fülle von Auswahlmöglichkeiten für die chinesische KI-Erstellung: 1. Eine hervorragende Text- und Bildgenerierung. Text Ein Web-Tool zur Bildbearbeitung; wenn wir das Nachtszenenbild der Peking-Universität in Hogwarts verwandeln, kann die verträumte magische Welt im Handumdrehen präsentiert werden das Modell durch eine kleine Anzahl von Beispielen Ein Tool zum Debuggen, um einen bestimmten Stil zu generieren. Mit diesem Tool kann ein bestimmter Stil mithilfe einer kleinen Anzahl chinesischer Bilder auf AltDiffusion generiert werden, z. B. der „Havoc in Heaven“-Stil.
Prompts sind sehr wichtig für die Generierung von Modellen. Community-Benutzer haben durch eine große Anzahl von Prompt-Versuchen umfangreiche Generierungseffekte gesammelt. Diese wertvollen Eingabeaufforderungserfahrungen gelten fast alle für AltDiffusion-Benutzer! Darüber hinaus können Sie auch Chinesisch und Englisch kombinieren, um sie an einige magische Stile und Elemente anzupassen, oder weiterhin chinesische Eingabeaufforderungen erkunden, die für AltDiffusion geeignet sind. Die Open-Source-AltDiffusion bietet eine Grundlage für chinesische Generierungsmodelle. Auf dieser Grundlage können Sie mehr chinesische Daten in bestimmten Bereichen verwenden, um das Modell zu optimieren Ausdruck chinesischer Schöpfer. - Umfassende Verbesserung der drei wichtigsten sprachübergreifenden Funktionen: Chinesisch-Englisch-Ausrichtung, Chinesisch besser, extrem niedrige Schwelle Sprachverständnis, Bild- und Textausrichtung, sprachübergreifende Funktionen Es handelt sich um drei Kompetenzen, die für die sprachübergreifende Forschung erforderlich sind. Viele professionelle Funktionen von AltDiffusion basieren auf der innovativen Idee des Turmwechsels von AltCLIP, die in diesen drei Hauptfunktionen vollständig verbessert wurde: Die Sprachausrichtungsfunktionen für Chinesisch und Englisch mit dem Original-CLIP wurden erheblich verbessert, und das ist möglich Es ist nahtlos mit Stable Diffusion und anderen auf dem ursprünglichen CLIP basierenden Modellen und ökologischen Tools verbunden und verfügt gleichzeitig über starke chinesische Fähigkeiten, um bei mehreren Datensätzen bessere Ergebnisse auf Chinesisch zu erzielen. (Ausführliche Erläuterungen finden Sie im technischen Bericht.) Es ist erwähnenswert, dass diese Ausrichtungsmethode die Schwelle für das Training mehrsprachiger und multimodaler Darstellungsmodelle im Vergleich zum erneuten Vortraining von Chinesisch oder Chinesisch erheblich verringert Für englische Bild- und Textpaare werden nur etwa 1 % der Rechenressourcen und Bild-Text-Daten benötigt. Erzielte den gleichen Effekt wie die englische Originalversion im umfassenden CLIP-Benchmark Es übertraf die Originalversion Flicker-30K bei einigen Abrufdatensätzen wie zum Beispiel Flimmern -30K Die Leistung ist besser als beim Original-CLIP. Das Null-Schuss-Ergebnis auf Chinese ImageNet ist das beste3. Nutzen Sie das Community Stable Prompts Book voll aus.
4. Praktisch für chinesische Entwickler zur Feinabstimmung
Basierend auf dem ersten zweisprachigen AltCLIP
Das obige ist der detaillierte Inhalt vonDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!