Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

王林
王林nach vorne
2023-04-12 10:31:02933Durchsuche

​Was ist das Wertvollste im Jahr 2022? prompt!

Nachdem das textgesteuerte Bildgenerierungsmodell wie DALL-E 2 populär wurde, generierten Internetnutzer weiterhin alle möglichen lustigen Bilder.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Wenn Sie jedoch möchten, dass das Modell klare und brauchbare Zielbilder generiert, müssen Sie den richtigen „Zauber“ beherrschen, das heißt, die Eingabeaufforderung muss sorgfältig gestaltet werden, bevor sie verwendet werden kann Verkaufsaufforderungen

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Wenn es sich bei der Aufforderung um einen bösen Zauberspruch handelt, steht das generierte Bild möglicherweise im Verdacht, gegen die Regeln zu verstoßen.

Obwohl DALL-E 2 verschiedene Mechanismen eingerichtet hat, um zu verhindern, dass das Modell bei seiner Veröffentlichung missbraucht wird, wie z. B. das Löschen gewalttätiger, hasserfüllter oder unangemessener Bilder aus den Trainingsdaten, um die Generierung hyperrealistischer Fotos zu verhindern; von menschlichen Gesichtern, insbesondere einige Persönlichkeiten des öffentlichen Lebens.

Während der Generierungsphase setzt DALL-E 2 außerdem einen Eingabeaufforderungsfilter, der nicht zulässt, dass vom Benutzer eingegebene Eingabeaufforderungswörter gewalttätige, nicht jugendfreie oder politische Inhalte enthalten.

Aber kürzlich haben Forscher der Columbia University herausgefunden, dass der Eingabeaufforderung einige scheinbar unsinnige Wörter hinzugefügt werden können, sodass der Filter die Bedeutung des Wortes nicht erkennen kann, das KI-System jedoch letztendlich aussagekräftige generierte Bilder zurückgeben kann.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Link zum Papier: https://arxiv.org/pdf/2208.04135.pdf

Der Autor schlägt zwei Methoden zur Konstruktion von Aufforderungen vor, die als „makaronische Aufforderung“ bezeichnet werden und sich auf die ursprüngliche Bedeutung des Wortes „makaronisch“ beziehen Eine Vielzahl von Wörtern aus Sprachen werden gemischt, um neue Wörter zu bilden. In Pakistan sind beispielsweise Mischungen aus Urdu und Englisch üblich.

Der Trainingskorpus von DALL-E 2 besteht normalerweise aus Daten, die aus dem Internet gesammelt werden. Der Prozess der Herstellung konzeptioneller Verbindungen zwischen Text und Bildern erfordert mehr oder weniger mehrsprachiges Lernen, sodass das trainierte Modell mehrere Sprachen erkennen kann ​zugleich konzeptionelle Fähigkeiten.

So können Sie mehrsprachige Kombinationen verwenden, um neue Wörter zu bilden, den von Menschen entwickelten Eingabeaufforderungsfilter zu umgehen und den Zweck der Abwehr von Angriffen zu erreichen.

Zum Beispiel lautet das Wort „Vögel“ auf Deutsch Vögel, auf Italienisch Uccelli, auf Französisch Oiseaux und auf Spanisch Pájaros. Nachdem das CLIP-Modell den Byte-Pair-Encoding-Algorithmus (BPE) verwendet, um den Eingabeaufforderungssatz zu segmentieren, kann es sein in mehrere Unterwörter aufgeteilt.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Nach dem Umordnen der Unterwörter in neue Wörter, wie z. B. der Eingabe von uccoisegeljaros, kann DALL-E 2 immer noch Bilder von Vögeln erzeugen, aber Menschen sind völlig unfähig, die Bedeutung des Wortes zu verstehen.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Auch wenn die Grenzen des Unterworts nicht strikt eingehalten werden, beispielsweise wenn es durch voiscellpajaraux und oisvogajaro ersetzt wird, kann das Modell dennoch Vogelbilder erzeugen.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Zusätzlich zu Vögeln fanden Forscher heraus, dass die Methode der Kombination mehrerer Sprachen in verschiedenen Bilddomänen gute Ergebnisse erzielen kann und die Ergebnisse der Bildgenerierung eine sehr hohe Konsistenz aufweisen.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Die Generierung relevanter Bilder vom Tierreich bis hin zu Landschaften, Fahrzeugen, Szenen und Emotionen ist ein Kinderspiel.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Obwohl verschiedene textgesteuerte Bildgenerierungsmodelle unterschiedliche Architekturen, Trainingsdaten und Wortsegmentierungsmethoden aufweisen, können makaronische Hinweise im Prinzip auf jedes Modell angewendet werden, das auf mehrsprachigen Daten trainiert wird, z. B. in DALL-E mini Das Gleiche Der Effekt ist im Modell zu finden.

Es ist erwähnenswert, dass DALL-E 2 und DALL-E mini trotz der ähnlichen Namen recht unterschiedlich sind. Sie haben unterschiedliche Architekturen (DALL-E mini verwendet kein Diffusionsmodell), werden auf unterschiedliche Datensätze trainiert und verwenden unterschiedliche Tokenizer (DALL-E mini verwendet den BART-Tokenizer, der sich möglicherweise anders verhält als die geteilten Wörter des CLIP-Tokenizers).

Trotz dieser Unterschiede können makkaronische Aufforderungen immer noch bei beiden Modellen funktionieren, und die Prinzipien dahinter müssen weiter untersucht werden.

Aber nicht alle makaronischen Hinweise können ordnungsgemäß zwischen verschiedenen Modellen übertragen werden. Obwohl Farpapmaripterling das Schmetterlingsbild von DALL-E 2 wie erwartet erzeugte, war dies nicht der Fall ein Pilzbild.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Die Forscher spekulieren, dass größere Modelle, die möglicherweise auf größeren Datensätzen trainiert werden, anfälliger für makaronische Hinweise sein könnten, weil Sie lernen stärkere assoziative Beziehungen zwischen Teilworteinheiten und visuellen Konzepten in verschiedenen Sprachen.

Dies könnte erklären, warum einige Makkaroni-Tipps, die in DALL-E 2 die erwarteten Ergebnisse liefern, in DALL-E mini nicht funktionieren, aber es gibt nur wenige Beispiele für das Gegenteil.

Dieser Trend ist möglicherweise keine gute Nachricht, da großformatige Modelle möglicherweise anfälliger für gegnerische Angriffe mit makaronischen Hinweisen sind.

Zusätzlich zur Verwendung einzelner zusammengesetzter Wörter als Eingabeaufforderungen können zusammengesetzte Wörter auch in die englische Syntax eingebettet werden, um Sätze zu bilden, und die Wirkung der Generierung von Bildern ist ähnlich wie bei den ursprünglichen Wörtern.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Und zusammengesetzte Wörter haben auch den Vorteil, dass sie kombiniert werden können, um spezifischere und komplexere Szenen zu erzeugen. Während komplexe makaronische Hinweise der syntaktischen Struktur des Englischen entsprechen müssen, wodurch die generierten Ergebnisse einfacher zu interpretieren sind als Hinweise, die synthetische Zeichenfolgen verwenden, sind die an das Modell übermittelten Informationen immer noch relativ vage.

Für die meisten Menschen kann es schwierig sein, zu erraten, welche Art von Szene mit der Aufforderung „Ein Eidelucertlagarzard, der einen Maripofarterling frisst“ auftreten wird, ohne vorher mit makkaronischen Aufforderungen in Berührung gekommen zu sein und die für die Hybridisierung verwendete Sprache zu kennen.

Darüber hinaus lösen solch komplexe Eingabeaufforderungen trotz der Tatsache, dass sie gewöhnliche englische Wörter verwenden, keine Blacklist-basierten Inhaltsfilter aus, solange die zensierten Konzepte mit makaronischen Methoden ausreichend „verschlüsselt“ sind. Das ist alles.

makaronischer Tipp Es ist nicht notwendig, Unterwörter in mehreren Sprachen zu kombinieren. Auch die Kombination innerhalb einer einzigen Sprache kann ein gültiges visuelles Konzept ergeben, aber diejenigen, die mit Englisch vertraut sind, können die beabsichtigte Wirkung der Zeichenfolge erraten, z Beispielsweise ist es leicht zu erraten, dass das Wort „happy“ ein zusammengesetztes Wort aus „happy“ und „fröhlich“ ist.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Die zweite Methode heißt Evocative Prompting. Im Gegensatz zu Macaronic ist es nicht erforderlich, visuelle Assoziationen aus vorhandenen Wortkombinationen auszulösen Wort, indem es die statistische Bedeutung bestimmter Buchstabenkombinationen in einem bestimmten Bereich „hervorruft“.

Unter Bezugnahme auf die Binomialnomenklatur in der biologischen Klassifikation können Sie ein neues „pseudolateinisches Wort“ basierend auf dem „Gattungsnamen“ und dem „Artepitheton“ erstellen, und DALL-E kann es zum Erstellen verwenden ein neues „pseudolateinisches Wort“. Entsprechende Themen erzeugen entsprechende Arten.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Neue Arzneimittelbilder können auch nach den Benennungsregeln von Arzneimitteln generiert werden.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

evokative Hinweise können auch auf Assoziationen zwischen spezifischen Merkmalen einer Sprache und visuellen Merkmalen im Zusammenhang mit dem Ort und der Kultur der entsprechenden Sprache angewendet werden. Anhand des Namens des Gebäudes kann das Modell beispielsweise auf den Stil eines Landes schließen. Die von Woldenbüchel erzeugte Szene sieht aus wie eine alte italienische Stadt Stadt in Frankreich.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann

Das letzte mit DALL-E mini erstellte Bild ist beispielsweise ein französisches Porträt aus dem 17. Jahrhundert, nicht eines Französischer Standort, der Bezug zur französischen Kultur ist jedoch erhalten geblieben.

evokative Eingabeaufforderungen können auch mit lexikalischer Hybridisierung kombiniert werden, um mehr Kontrolle über die spezifischen Merkmale der Ausgabe zu erlangen.

Die Einführung englischer Wortblöcke in die pseudolateinische Nomenklatur führt dazu, dass DALL-E 2 Bilder von Tieren mit bestimmten Attributen generiert, wie zum Beispiel die Aufforderungswörter „scariosus ferocianensis“, die „scary“ (furchterregend) und „ferocious“ (wild) kombinieren. mit Pseudolatein Die Einträge werden kombiniert, um Bilder von traditionell furchterregenden „Reptilien“ wie Skorpionen zu erzeugen.

#?? schwimmen) kann in Kombination mit pseudolateinischen Affixen Bilder von Wassertieren erzeugen; Flyosus Wingensis kombiniert Fliege (Fliege) und geflügelt (geflügelt) mit pseudolateinischen Affixen, um Bilder von fliegenden Insekten zu erzeugen.

Schnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kannIm Prinzip kann das durch die Makkaroni-Methode erzeugte Vokabular eine einfache und scheinbar zuverlässige Methode sein, den Prompt-Filter zu umgehen. Menschen mit Hintergedanken können damit schädliche, beleidigende, illegale oder anderweitig sensible Inhalte generieren , einschließlich gewalttätiger, hasserfüllter, rassistischer, sexistischer oder pornografischer Bilder sowie Bilder, die möglicherweise geistige Eigentumsrechte verletzen oder reale Personen darstellen.

Während Unternehmen, die Bilderzeugungsdienste anbieten, umfangreiche Anstrengungen unternommen haben, um die Erzeugung dieser Art von Ausgabe gemäß ihren Inhaltsrichtlinien zu verhindern, können makaronische Tipps immer noch Probleme mit den Sicherheitsprotokollen kommerzieller Bilderzeugungssysteme verursachen . Riesige Bedrohung.

Die Bedrohung durch evokative Eingabeaufforderungen ist weniger offensichtlich, da sie keine sehr effektive und zuverlässige Möglichkeit bieten, bestimmte visuelle Assoziationen von Zeichenfolgen auszulösen, und sie meist auf ein breites Spektrum von Wörtern oder Sprachen beschränkt sind . Vage Assoziationen von Konzepten im Zusammenhang mit morphologischen Merkmalen.

Im Allgemeinen sind Makkaroni-Tipps besser umsetzbar als evokative Tipps, und die schlüsselwortbasierte Filterung von Blacklist-Inhalten in dieser Art von Modell reicht nicht aus, um Angriffen zu widerstehen.

Wird DALL-E 2 dunkel werden? ​

Das obige ist der detaillierte Inhalt vonSchnelle Offensiv- und Defensivschlacht! Die Columbia University hat die BPE-Wortbildungsmethode vorgeschlagen, die den Überprüfungsmechanismus DALL-E 2 umgehen kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen