Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

WBOY
WBOYnach vorne
2023-04-14 14:58:271030Durchsuche

Kürzlich hat das große Modellforschungsteam des Zhiyuan Research Institute das neueste zweisprachige AltDiffusion-Modell als Open-Source-Version veröffentlicht und damit der chinesischen Welt eine leistungsstarke KI-Text- und Grafikerstellung auf professionellem Niveau zugänglich gemacht:

Unterstützt die erweiterte Erstellung feiner Langformate Chinesische Aufforderungen; ohne kulturelle Übersetzung, aus der ursprünglichen chinesischen Sprache, die sowohl mit der Form als auch mit dem Geist direkt mit der chinesischen Malerei spricht, und die schockierende visuelle Wirkung auf Chinesisch und Englisch auf einem niedrigen Niveau erreicht hat Man kann sagen, dass er ein Weltklasse-KI-Malmeister ist, der Chinesisch spricht.

Das innovative Modell AltCLIP ist der Eckpfeiler dieser Arbeit und ergänzt das ursprüngliche CLIP-Modell um drei stärkere sprachübergreifende Funktionen. Sowohl die AltDiffusion- als auch die AltCLIP-Modelle sind mehrsprachige Modelle. Die Zweisprachigkeit in Chinesisch und Englisch ist die erste Stufe der Arbeit, und der Code und die Modelle sind Open Source.

AltDiffusion

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion

AltCLIP

https:// github.com/FlagAI-Open/FlagAI/examples/AltCLIP

HuggingFace-Weltraumversuchsadresse:

https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion

Technisch Bericht

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source


https://arxiv.org/abs/2211.06679

Professionelle chinesische AltDiffusion

——Lange, schnelle, feine Malerei + muttersprachlicher chinesischer Stil, zufriedenstellend Chinesische KI Hohe Nachfrage für kreative Meister

Dank der leistungsstarken zweisprachigen Ausrichtungsfunktionen für Chinesisch und Englisch auf Basis von AltCLIP hat AltDiffusion ein ähnliches visuelles Effektniveau wie Stable Diffusion erreicht, insbesondere mit dem einzigartigen Vorteil, dass es Chinesisch besser versteht und besser in chinesischer Malerei ist . , was den Erwartungen professioneller chinesischer KI-Text- und Bildersteller sehr gerecht wird.

1. Lange Eingabeaufforderungen, der Bildeffekt ist nicht minderwertig.

Die Eingabeaufforderungslänge ist der Wendepunkt, um die Fähigkeit des Modells zu testen, Text und Bilder zu generieren , Bild- und Textausrichtung und sprachübergreifend.

Unter den gleichen langen Eingabeaufforderungsanpassungen für Chinesisch und Englisch ist AltDiffusion in vielen Fällen der Bilderzeugung noch ausdrucksvoller: Die Elementzusammensetzung ist reichhaltig und aufregend, und die Details werden feinfühlig und genau beschrieben.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

2. Verstehen Sie Chinesisch besser und beherrschen Sie die chinesische Malerei.

Zusätzlich zur ähnlichen Eingabeleistung chinesischer und englischer Eingabeaufforderungen kann AltDiffusion auch die Mängel des chinesischen Malstils in der westlichen Welt ausgleichen , unter Verwendung chinesischer Bilder und Texte, um fortzufahren. Feinabstimmung der Generierung chinesischer Merkmale, wie z. B. des chinesischen Malstil-Generierungsmodells, um einen echten „chinesischen Stil“ zu erzeugen.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

AltDiffusion versteht Chinesisch besser. Es kann die Bedeutung im chinesischen Kulturkontext beschreiben und die Absicht des Schöpfers sofort verstehen. Beispielsweise vermeidet die Beschreibung von „Die große Szene der Tang-Dynastie“, aufgrund kultureller Missverständnisse vom Thema abzuweichen.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Vor allem Konzepte, die aus der chinesischen Kultur stammen, verstehen und drücken wir sie genauer aus und vermeiden so die lächerliche Verwechslung zwischen „japanischem Stil“ und „chinesischem Stil“. Wenn beispielsweise Eingabeaufforderungen entsprechend dem Tang-Anzug-Zeichenstil mit stabiler Diffusion in Chinesisch und Englisch eingegeben werden, ist der Unterschied auf einen Blick klar:

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Bei der Generierung eines bestimmten Stils wird der chinesische Kulturkontext berücksichtigt als Identitätssubjekt für die Stilerstellung verwendet werden, z. B. Für die Eingabeaufforderung mit „alten Gebäuden“ unten werden standardmäßig alte chinesische Gebäude generiert. Der kreative Stil entspricht eher der Identität chinesischer Schöpfer. 3. Zweisprachige, generierte Effektausrichtung für Chinesisch und Englisch . Dank der leistungsstarken Sprachausrichtungsfunktionen von AltCLIP kommt der Generierungseffekt von AltDiffusion der stabilen Diffusion in Englisch sehr nahe und spiegelt auch die Konsistenz der zweisprachigen Leistung in Chinesisch und Englisch wider.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open SourceNachdem Sie beispielsweise die chinesischen und englischen Eingabeaufforderungen „Welpe mit Hut“ in AltDiffusion eingegeben haben, werden die generierten Bildeffekte grundsätzlich mit extrem hoher Konsistenz ausgerichtet:

Fügen Sie den Deskriptor zum „Jungen“ hinzu „Bild als Nach „Chinese Boy“, basierend auf dem Originalbild eines kleinen Jungen, wurde er genau in ein typisches „chinesisches“ Kind umgewandelt und zeigte ein hervorragendes Sprachverständnis und genaue Ausdrucksergebnisse bei der Sprachkontrollerzeugung.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Öffnen Sie das ursprüngliche Ökosystem von StableDiffusion

——Umfassende ökologische Tools und PromptsBook-Anwendungen, hervorragende SpielbarkeitDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Besonders erwähnenswert ist, dass die ökologischen Integrationsfähigkeiten von AltDiffusion: Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Alle Stable Diffusion unterstützen Tools wie Stable Diffusion WebUI, DreamBooth usw. können auf unser zweisprachiges Chinesisch-Englisch-Diffusionsmodell angewendet werden und bieten eine Fülle von Auswahlmöglichkeiten für die chinesische KI-Erstellung:

1. Eine hervorragende Text- und Bildgenerierung. Text Ein Web-Tool zur Bildbearbeitung; wenn wir das Nachtszenenbild der Peking-Universität in Hogwarts verwandeln, kann die verträumte magische Welt im Handumdrehen präsentiert werden das Modell durch eine kleine Anzahl von Beispielen Ein Tool zum Debuggen, um einen bestimmten Stil zu generieren. Mit diesem Tool kann ein bestimmter Stil mithilfe einer kleinen Anzahl chinesischer Bilder auf AltDiffusion generiert werden, z. B. der „Havoc in Heaven“-Stil.

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

3. Nutzen Sie das Community Stable Prompts Book voll aus.

Prompts sind sehr wichtig für die Generierung von Modellen. Community-Benutzer haben durch eine große Anzahl von Prompt-Versuchen umfangreiche Generierungseffekte gesammelt. Diese wertvollen Eingabeaufforderungserfahrungen gelten fast alle für AltDiffusion-Benutzer!

Darüber hinaus können Sie auch Chinesisch und Englisch kombinieren, um sie an einige magische Stile und Elemente anzupassen, oder weiterhin chinesische Eingabeaufforderungen erkunden, die für AltDiffusion geeignet sind.

4. Praktisch für chinesische Entwickler zur Feinabstimmung

Die Open-Source-AltDiffusion bietet eine Grundlage für chinesische Generierungsmodelle. Auf dieser Grundlage können Sie mehr chinesische Daten in bestimmten Bereichen verwenden, um das Modell zu optimieren Ausdruck chinesischer Schöpfer.

Basierend auf dem ersten zweisprachigen AltCLIP

- Umfassende Verbesserung der drei wichtigsten sprachübergreifenden Funktionen: Chinesisch-Englisch-Ausrichtung, Chinesisch besser, extrem niedrige Schwelle

Sprachverständnis, Bild- und Textausrichtung, sprachübergreifende Funktionen Es handelt sich um drei Kompetenzen, die für die sprachübergreifende Forschung erforderlich sind.

Viele professionelle Funktionen von AltDiffusion basieren auf der innovativen Idee des Turmwechsels von AltCLIP, die in diesen drei Hauptfunktionen vollständig verbessert wurde: Die Sprachausrichtungsfunktionen für Chinesisch und Englisch mit dem Original-CLIP wurden erheblich verbessert, und das ist möglich Es ist nahtlos mit Stable Diffusion und anderen auf dem ursprünglichen CLIP basierenden Modellen und ökologischen Tools verbunden und verfügt gleichzeitig über starke chinesische Fähigkeiten, um bei mehreren Datensätzen bessere Ergebnisse auf Chinesisch zu erzielen. (Ausführliche Erläuterungen finden Sie im technischen Bericht.)

Es ist erwähnenswert, dass diese Ausrichtungsmethode die Schwelle für das Training mehrsprachiger und multimodaler Darstellungsmodelle im Vergleich zum erneuten Vortraining von Chinesisch oder Chinesisch erheblich verringert Für englische Bild- und Textpaare werden nur etwa 1 % der Rechenressourcen und Bild-Text-Daten benötigt.

Erzielte den gleichen Effekt wie die englische Originalversion im umfassenden CLIP-Benchmark

Es übertraf die Originalversion

Dieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source

Flicker-30K bei einigen Abrufdatensätzen wie zum Beispiel Flimmern -30K Die Leistung ist besser als beim Original-CLIP. Das Null-Schuss-Ergebnis auf Chinese ImageNet ist das beste

Das obige ist der detaillierte Inhalt vonDieser KI-Meister, der Chinesisch versteht, die Berge und der helle gemalte Mond sind so erstaunlich! Das zweisprachige AltDiffusion-Modell Chinesisch-Englisch ist Open Source. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen