Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

王林
王林nach vorne
2023-04-12 20:37:041339Durchsuche

Schach war schon immer ein Testgelände für KI. Vor 70 Jahren stellte Alan Turing die Hypothese auf, dass es möglich sei, eine Schachspielmaschine zu bauen, die selbstständig lernt und sich aus eigener Erfahrung kontinuierlich verbessert. „Deep Blue“, das im letzten Jahrhundert erschien, besiegte erstmals Menschen, verließ sich jedoch auf Experten, um menschliches Schachwissen zu kodieren. AlphaZero, das 2017 geboren wurde, verwirklichte Turings Vermutung als eine neuronale Netzwerk-gesteuerte Verstärkungslernmaschine.

AlphaZero muss weder künstlich entworfene heuristische Algorithmen verwenden noch Menschen beim Schachspielen zusehen, sondern wird vollständig durch das eigenständige Schachspielen trainiert.

Lernt es also wirklich menschliche Konzepte über Schach? Dies ist ein Problem der Interpretierbarkeit neuronaler Netze.

Als Reaktion darauf arbeitete Demis Hassabis, der Autor von AlphaZero, mit Kollegen von DeepMind und Forschern von Google Brain an einer Studie zusammen, um Beweise für menschliche Schachkonzepte im neuronalen Netzwerk von AlphaZero zu finden und zu zeigen, wie das Netzwerk während des Trainings das Timing und das Timing erlangte Die Platzierung dieser Konzepte zeigte auch, dass AlphaZero einen anderen Schachspielstil als Menschen hat. Das Papier wurde kürzlich in PNAS veröffentlicht.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Papieradresse: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero erwirbt menschliche Schachkonzepte im Training

AlphaZeros Netzwerkarchitektur enthält ein Rückgrat Das Netzwerk-Restnetzwerk (ResNet) und das separate Policy Head- und Value Head-ResNet bestehen aus einer Reihe von Schichten, die aus Netzwerkblöcken und Sprungverbindungen bestehen.

In Bezug auf Trainingsiterationen beginnt AlphaZero mit einem neuronalen Netzwerk mit zufällig initialisierten Parametern, spielt wiederholt Schach gegen sich selbst, lernt die Bewertung der Position der Schachfiguren und wird basierend auf den im generierten Daten mehrfach trainiert Verfahren.

Um zu bestimmen, inwieweit das AlphaZero-Netzwerk vom Menschen verständliche Schachkonzepte repräsentiert, wurden in dieser Studie Sparse-Linear-Probing-Methoden verwendet, um Änderungen in den Netzwerkparametern während des Trainings in Änderungen in für den Menschen verständlichen Konzepten abzubilden.

Beginnen Sie mit der Definition des Konzepts als benutzerdefinierte Funktion, wie in Abbildung 1 orange dargestellt. Die verallgemeinerte lineare Funktion g wird als Sonde trainiert, um ein Schachkonzept c anzunähern. Die Güte der Näherung g gibt an, wie gut die Schicht (linear) das Konzept kodiert. Für ein gegebenes Konzept wird der Prozess für die Netzwerksequenzen wiederholt, die während des Trainingsprozesses für alle Schichten in jedem Netzwerk erstellt wurden.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 1: Erkundung menschenkodierter Schachkonzepte im AlphaZero-Netzwerk (blau).

Zum Beispiel können Sie mit einer Funktion feststellen, ob sich auf unserer Seite oder an unserem Platz ein „Bischof“ (♗) befindet:

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Natürlich gibt es noch viel komplexere Schachkonzepte als dieses B. für die Mobilität von Schachfiguren, können Sie eine Funktion schreiben, um unsere und die gegnerischen Ergebnisse beim Bewegen von Schachfiguren zu vergleichen.

In diesem Experiment wurde die Konzeptfunktion im Voraus spezifiziert und fasst das Wissen des spezifischen Schachbereichs zusammen.

Der nächste Schritt besteht darin, die Sonde zu trainieren. Die Forscher verwendeten 10^5 natürlich vorkommende Schachpositionen im ChessBase-Datensatz als Trainingssatz und trainierten eine spärliche Regressionssonde g aus einer Netzwerkaktivierung der Tiefe d, um den Wert eines bestimmten Konzepts c vorherzusagen.

Durch den Vergleich der Netzwerke in verschiedenen Trainingsschritten im AlphaZero-Selbstlernzyklus sowie der Ergebnisse verschiedener Konzeptsonden auf verschiedenen Ebenen in jedem Netzwerk können der Zeitpunkt und die Position ermittelt werden, zu denen das Netzwerk ein bestimmtes Konzept gelernt hat extrahiert.

Schließlich erhalten wir das Was-Wann-Wo-Diagramm jedes Konzepts, das die drei Indikatoren „Welches ist das berechnete Konzept“, „Wo im Netzwerk findet die Berechnung statt“ und „Wann erscheint das Konzept“ enthält während des Netzwerktrainings“ Visualisieren. Wie in Abbildung 2 dargestellt.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 2: Die Konzepte von A bis B sind „Bewertung der Gesamtpunktzahl“, „Sind wir verallgemeinert worden“, „Bewertung der Bedrohung“, „Können wir den Feind besiegen?“ „Ist das?“ Königin der Seite?“, „Wird die Bewegung des Feindes unsere Seite töten?“, „Bewertung der Stärke der Figuren“, „Die Stärke der Figuren“, „Haben wir die Soldaten des Königs?“

In Abbildung C ist zu sehen, dass mit zunehmender Stärke von AlphaZero die Funktion des „Bedrohungs“-Konzepts und die Darstellung von AlphaZero (die durch lineare Sonden erkannt werden kann) zunehmend irrelevant werden.

Ein solches Was-Wann-Wo-Diagramm enthält die beiden Basislinien, die für den Vergleich der Erkennungsmethoden erforderlich sind: eine ist die Eingaberegression, angezeigt auf Ebene 0, und die andere ist die Regression aus den Netzwerkaktivierungen mit zufälligen Gewichtungen beim Training Schritt 0 wird überall angezeigt. Aus den Ergebnissen in der obigen Abbildung kann geschlossen werden, dass Änderungen in der Regressionsgenauigkeit vollständig durch Änderungen in der Netzwerkdarstellung bestimmt werden.

Darüber hinaus zeigen die Ergebnisse vieler Was-Wann-Wo-Diagramme das gleiche Muster, das heißt, die Regressionsgenauigkeit des gesamten Netzwerks ist bis etwa 32.000 Schritte sehr gering und beginnt sich mit dem nicht schnell zu verbessern Zunahme der Netzwerktiefe, stabilisiert sich dann und bleibt in den nachfolgenden Schichten unverändert. Daher finden alle konzeptbezogenen Berechnungen relativ früh im Netzwerk statt, während nachfolgende Restblöcke entweder eine Bewegungsauswahl durchführen oder Merkmale außerhalb des gegebenen Satzes von Konzepten berechnen.

Darüber hinaus können im Verlauf des Trainings viele vom Menschen definierte Konzepte aus den Darstellungen von AlphaZero mit hoher Vorhersagegenauigkeit vorhergesagt werden.

Bei fortgeschritteneren Konzepten fanden die Forscher Unterschiede darin, wo AlphaZero sie beherrschte. Erstens sind die Konzepte, die sich bei 2.000 Trainingsschritten deutlich von Null unterscheiden, „Material“ und „Raum“; komplexere Konzepte wie „king_safety“, „Bedrohungen“ und „Mobilität“ unterscheiden sich bei 8.000 Trainingsschritten deutlich von Null. Null und steigt erst nach 32.000 Trainingsschritten wesentlich an. Dieses Ergebnis steht im Einklang mit dem stark ansteigenden Punkt, der im Was-Wann-Wo-Diagramm in Abbildung 2 dargestellt ist. Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Darüber hinaus besteht ein bemerkenswertes Merkmal der meisten Was-Wann-Wo-Diagramme darin, dass die Regressionsgenauigkeit des Netzwerks am Anfang schnell zunimmt und dann ein Plateau erreicht oder abnimmt. Dies deutet darauf hin, dass die bisher von AlphaZero entdeckten Konzepte nur frühere Schichten des Netzwerks erkennen und dass das Verständnis späterer Schichten neue Konzepterkennungstechniken erfordert.

Die Eröffnungsstrategie von AlphaZero unterscheidet sich von der von Menschen

Nachdem die Forscher beobachtet hatten, dass AlphaZero menschliche Schachkonzepte lernte, untersuchten sie weiter AlphaZeros Verständnis von Schachtaktiken im Hinblick auf die Eröffnungsstrategie, da die Wahl der Eröffnung auch das Verständnis der Spieler für verwandte Konzepte voraussetzt .

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Die Forscher beobachteten, dass AlphaZero und Menschen unterschiedliche Öffnungsstrategien hatten: Mit der Zeit schränkte AlphaZero die Auswahlmöglichkeiten ein, während Menschen die Auswahlmöglichkeiten erweiterten.

Abbildung 3A zeigt die historische Entwicklung der menschlichen Präferenz für den ersten Zug von Weiß. In der Anfangsphase war e4 als erster Zug beliebt, und spätere Eröffnungsstrategien wurden ausgewogener und flexibler.

Abbildung 3B zeigt die Entwicklung der Eröffnungsstrategie von AlphaZero zusammen mit den Trainingsschritten. Wie Sie sehen, wägt AlphaZero zunächst alle Optionen gleich ab und schränkt die Optionen dann schrittweise ein.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 3: Vergleich von AlphaZero und menschlichen Präferenzen für den ersten Schritt gegenüber Trainingsschritten und Zeit.

Dies steht in scharfem Gegensatz zur Entwicklung des menschlichen Wissens, das sich ausgehend von e4 allmählich ausdehnt, während AlphaZero in den späteren Phasen des Trainings eindeutig d4 bevorzugt. Diese Vorliebe muss jedoch nicht überbewertet werden, da das Selbstspieltraining auf schnellem Spielen mit viel Zufälligkeit basiert, um die Erkundung zu erleichtern.

Der Grund für diesen Unterschied ist unklar, aber er spiegelt einen grundlegenden Unterschied zwischen Menschen und künstlichen neuronalen Netzen wider. Ein möglicher Faktor könnte sein, dass historische Daten zum menschlichen Schach mehr Wert auf das kollektive Wissen von Meisterspielern legen, während die Daten von AlphaZero Schachspiele auf Anfängerniveau und eine einzige entwickelte Strategie umfassen.

Wenn das neuronale Netzwerk von AlphaZero also mehrmals trainiert wird, zeigt es dann eine stabile Präferenz für bestimmte Eröffnungsstrategien?

Das Forschungsergebnis ist, dass diese Präferenz in vielen Fällen in verschiedenen Trainings nicht stabil ist und die Eröffnungsstrategien von AlphaZero sehr unterschiedlich sind. Beispielsweise bevorzugt AlphaZero in der klassischen Ruy-Lopez-Eröffnung (allgemein bekannt als „Spanische Eröffnung“) die Wahl von Schwarz in der Anfangsphase und folgt der typischen Spielmethode, nämlich 1.e4 e5, 2.Sf3 Sc6, 3 .Bb5.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 4: Ruy Lopez beginnt

In verschiedenen Trainings wird AlphaZero schrittweise zu einem von 3.f6 und 3.a6 konvergieren. Darüber hinaus zeigten verschiedene Versionen des AlphaZero-Modells jeweils eine starke Präferenz für eine Aktion gegenüber einer anderen, und diese Präferenz wurde schon früh im Training festgestellt.

Dies ist ein weiterer Beweis dafür, dass es eine Vielfalt erfolgreicher Schachspiele gibt, und diese Vielfalt besteht nicht nur zwischen Menschen und Maschinen, sondern auch über verschiedene Trainingsiterationen von AlphaZero hinweg.

AlphaZeros Prozess der Wissensbeherrschung

Welcher Zusammenhang besteht also zwischen den oben genannten Forschungsergebnissen zu Öffnungsstrategien und AlphaZeros Konzeptverständnis?

Diese Studie ergab, dass es einen klaren Wendepunkt in den Was-Wann-Wo-Diagrammen verschiedener Konzepte gibt, der mit erheblichen Veränderungen in den Öffnungspräferenzen zusammenfällt. Insbesondere scheinen die Konzepte Material und Mobilität in direktem Zusammenhang zu stehen Eröffnungsstrategien.

Das Materialkonzept wurde hauptsächlich zwischen den Trainingsschritten 10k und 30k erlernt, und das Konzept der Stückmobilität wurde im gleichen Zeitraum schrittweise in den Wertekopf von AlphaZero integriert. Dem Verständnis der Mobilität von Schachfiguren sollte ein grundlegendes Verständnis des materiellen Werts von Schachfiguren vorausgehen. AlphaZero hat diese Theorie dann in die Eröffnungspräferenzen zwischen 25.000 und 60.000 Trainingsschritten integriert.

Der Autor analysierte weiter die Entwicklung des Wissens des AlphaZero-Netzwerks über Schach: zuerst die Entdeckung der Schachkraft; dann das explosionsartige Wachstum des Grundwissens in einem kurzen Zeitfenster, hauptsächlich Konzepte im Zusammenhang mit Mobilität; Die Öffnungsstrategie des neuronalen Netzwerks wird über Hunderttausende Trainingsschritte verfeinert. Obwohl die Gesamtlernzeit lang ist, entwickeln sich spezifische Grundfähigkeiten schnell und in relativ kurzer Zeit.

Der frühere Schachweltmeister Vladimir Kramnik wurde ebenfalls hinzugezogen, um diese Schlussfolgerung zu unterstützen, und seine Beobachtungen stimmten mit dem oben genannten Prozess überein.

Abschließend zeigt diese Arbeit, dass die vom AlphaZero-Netzwerk gelernte Schachbrettdarstellung in der Lage ist, viele menschliche Schachkonzepte zu rekonstruieren, und beschreibt detailliert die vom Netzwerk gelernten konzeptionellen Inhalte, wie lange es dauert, die Konzepte in der Trainingszeit zu erlernen, und die Computerkonzepte Netzwerkstandort. Darüber hinaus ist der Schachspielstil von AlphaZero nicht derselbe wie der von Menschen.

Da wir nun neuronale Netze im Hinblick auf das vom Menschen definierte Konzept des Schachs verstehen, wird die nächste Frage sein: Können neuronale Netze Dinge lernen, die über das menschliche Wissen hinausgehen?

Das obige ist der detaillierte Inhalt vonDie Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen