Sprachmodell ist eine Technologie der künstlichen Intelligenz, die aus gegebenem Text natürliche Sprache generieren kann. Die Sprachmodelle der GPT-Serie von OpenAI gehören derzeit zu den fortschrittlichsten Vertretern, doch IT House hat festgestellt, dass sie auch ein Problem haben: Ihr Verhalten ist schwer zu verstehen und vorherzusagen. Um Sprachmodelle transparenter und vertrauenswürdiger zu machen, entwickelt OpenAI ein neues Tool, das automatisch erkennen kann, welche Teile eines Sprachmodells für sein Verhalten verantwortlich sind, und es in natürlicher Sprache erklären kann.
Das Prinzip dieses Tools besteht darin, ein anderes Sprachmodell (d. h. das neueste GPT-4 von OpenAI) zu verwenden, um die interne Struktur anderer Sprachmodelle (z. B. das eigene GPT-2 von OpenAI) zu analysieren. Ein Sprachmodell besteht aus vielen „Neuronen“, von denen jedes ein bestimmtes Muster im Text beobachten und die nächste Ausgabe des Modells beeinflussen kann. Bei einer Frage zu Superhelden (z. B. „Welche Superhelden haben die nützlichsten Superkräfte?“) könnte ein „Marvel-Superhelden-Neuron“ die Wahrscheinlichkeit erhöhen, dass das Modell einen bestimmten Superhelden aus einem Marvel-Film erwähnt.
Die Tools von OpenAI nutzen diesen Mechanismus, um die verschiedenen Teile des Modells zu zerlegen. Zunächst speist es eine Textsequenz in das auszuwertende Modell ein und wartet darauf, dass ein bestimmtes Neuron häufig „feuert“. Anschließend „zeigt“ es GPT-4 diese hochaktiven Neuronen und lässt GPT-4 eine Erklärung generieren. Um die Genauigkeit der Interpretation zu bestimmen, füttert es GPT-4 mit einigen Textsequenzen und fordert es auf, das Verhalten des Neurons vorherzusagen oder zu simulieren. Anschließend wird das Verhalten der simulierten Neuronen mit dem Verhalten tatsächlicher Neuronen verglichen.
„Mit diesem Ansatz können wir grundsätzlich einige vorläufige Erklärungen in natürlicher Sprache für jedes Neuron generieren und haben auch eine Bewertung, um zu messen, wie gut diese Erklärungen mit dem tatsächlichen Verhalten übereinstimmen.“ Jeff, OpenAI Scalable Alignment Team Lead „Wir verwenden GPT-4 als.“ „Teil eines Prozesses, um Interpretationen dessen zu generieren, wonach das Neuron sucht, und um zu bewerten, wie gut diese Interpretationen mit dem übereinstimmen, was es tatsächlich tut“, sagte Wu.
Die Forscher konnten einen neuen Satz von Parametern für alle Neuronen in GPT erstellen. 2. 307.200 Neuronen generieren Interpretationen und kompilieren sie zu einem Datensatz, der zusammen mit dem Toolcode als Open Source auf GitHub veröffentlicht wird. Tools wie dieses könnten eines Tages verwendet werden, um die Leistung von Sprachmodellen zu verbessern, etwa um Voreingenommenheit oder schädliche Sprache zu reduzieren. Sie geben aber auch zu, dass es noch ein langer Weg ist, bis es wirklich nützlich ist. Das Tool ist bei der Interpretation von etwa 1.000 Neuronen, einem kleinen Bruchteil der Gesamtzahl, zuversichtlich.
Man könnte argumentieren, dass dieses Tool eigentlich eine Werbung für GPT-4 ist, da es zur Ausführung GPT-4 erfordert. Wu sagt jedoch, dass dies nicht der Zweck des Tools sei, dass die Verwendung von GPT-4 „zufällig“ sei und dass es stattdessen die Schwäche von GPT-4 in diesem Bereich zeige. Er sagte auch, dass es nicht für kommerzielle Anwendungen entwickelt wurde und theoretisch an andere Sprachmodelle als GPT-4 angepasst werden könnte.
„Die meisten Erklärungen erzielten sehr niedrige Werte oder erklärten nicht viel vom tatsächlichen Neuronenverhalten“, sagte Wu. „Viele Neuronen sind auf eine Weise aktiv, die schwer zu sagen ist – zum Beispiel, dass sie bei fünf oder sechs aktiviert werden.“ verschiedene Dinge. , aber es gibt kein offensichtliches Muster. Manchmal gibt es ein offensichtliches Muster, aber GPT-4 kann es nicht finden.“
Ganz zu schweigen von komplexeren, neueren, größeren Modellen oder Modellen, die im Internet nach Informationen suchen können. Aber für Letzteres glaubt Wu, dass das Surfen im Internet die grundlegende Mechanik des Tools nicht allzu sehr verändern wird. Es bedarf nur einer kleinen Anpassung, sagt er, um herauszufinden, warum Neuronen sich entscheiden, bestimmte Suchmaschinenabfragen durchzuführen oder bestimmte Websites zu besuchen.
„Wir hoffen, dass dies einen vielversprechenden Weg eröffnet, das Erklärbarkeitsproblem auf automatisierte Weise zu lösen, sodass andere darauf aufbauen und einen Beitrag leisten können.“ Wu sagte: „Wir hoffen, dass wir das Verhalten dieser Personen wirklich gut erklären können.“ Modelle.“
Das obige ist der detaillierte Inhalt vonOpenAI entwickelt ein neues Tool, um das Verhalten von Sprachmodellen zu erklären. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!