Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht-KI-php.cn

Heim

Technologie-Peripheriegeräte

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

王林

Apr 12, 2023 pm 08:37 PM

ai神经网络

Schach war schon immer ein Testgelände für KI. Vor 70 Jahren stellte Alan Turing die Hypothese auf, dass es möglich sei, eine Schachspielmaschine zu bauen, die selbstständig lernt und sich aus eigener Erfahrung kontinuierlich verbessert. „Deep Blue“, das im letzten Jahrhundert erschien, besiegte erstmals Menschen, verließ sich jedoch auf Experten, um menschliches Schachwissen zu kodieren. AlphaZero, das 2017 geboren wurde, verwirklichte Turings Vermutung als eine neuronale Netzwerk-gesteuerte Verstärkungslernmaschine.

AlphaZero muss weder künstlich entworfene heuristische Algorithmen verwenden noch Menschen beim Schachspielen zusehen, sondern wird vollständig durch das eigenständige Schachspielen trainiert.

Lernt es also wirklich menschliche Konzepte über Schach? Dies ist ein Problem der Interpretierbarkeit neuronaler Netze.

Als Reaktion darauf arbeitete Demis Hassabis, der Autor von AlphaZero, mit Kollegen von DeepMind und Forschern von Google Brain an einer Studie zusammen, um Beweise für menschliche Schachkonzepte im neuronalen Netzwerk von AlphaZero zu finden und zu zeigen, wie das Netzwerk während des Trainings das Timing und das Timing erlangte Die Platzierung dieser Konzepte zeigte auch, dass AlphaZero einen anderen Schachspielstil als Menschen hat. Das Papier wurde kürzlich in PNAS veröffentlicht.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Papieradresse: https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero erwirbt menschliche Schachkonzepte im Training

AlphaZeros Netzwerkarchitektur enthält ein Rückgrat Das Netzwerk-Restnetzwerk (ResNet) und das separate Policy Head- und Value Head-ResNet bestehen aus einer Reihe von Schichten, die aus Netzwerkblöcken und Sprungverbindungen bestehen.

In Bezug auf Trainingsiterationen beginnt AlphaZero mit einem neuronalen Netzwerk mit zufällig initialisierten Parametern, spielt wiederholt Schach gegen sich selbst, lernt die Bewertung der Position der Schachfiguren und wird basierend auf den im generierten Daten mehrfach trainiert Verfahren.

Um zu bestimmen, inwieweit das AlphaZero-Netzwerk vom Menschen verständliche Schachkonzepte repräsentiert, wurden in dieser Studie Sparse-Linear-Probing-Methoden verwendet, um Änderungen in den Netzwerkparametern während des Trainings in Änderungen in für den Menschen verständlichen Konzepten abzubilden.

Beginnen Sie mit der Definition des Konzepts als benutzerdefinierte Funktion, wie in Abbildung 1 orange dargestellt. Die verallgemeinerte lineare Funktion g wird als Sonde trainiert, um ein Schachkonzept c anzunähern. Die Güte der Näherung g gibt an, wie gut die Schicht (linear) das Konzept kodiert. Für ein gegebenes Konzept wird der Prozess für die Netzwerksequenzen wiederholt, die während des Trainingsprozesses für alle Schichten in jedem Netzwerk erstellt wurden.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 1: Erkundung menschenkodierter Schachkonzepte im AlphaZero-Netzwerk (blau).

Zum Beispiel können Sie mit einer Funktion feststellen, ob sich auf unserer Seite oder an unserem Platz ein „Bischof“ (♗) befindet:

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Natürlich gibt es noch viel komplexere Schachkonzepte als dieses B. für die Mobilität von Schachfiguren, können Sie eine Funktion schreiben, um unsere und die gegnerischen Ergebnisse beim Bewegen von Schachfiguren zu vergleichen.

In diesem Experiment wurde die Konzeptfunktion im Voraus spezifiziert und fasst das Wissen des spezifischen Schachbereichs zusammen.

Der nächste Schritt besteht darin, die Sonde zu trainieren. Die Forscher verwendeten 10^5 natürlich vorkommende Schachpositionen im ChessBase-Datensatz als Trainingssatz und trainierten eine spärliche Regressionssonde g aus einer Netzwerkaktivierung der Tiefe d, um den Wert eines bestimmten Konzepts c vorherzusagen.

Durch den Vergleich der Netzwerke in verschiedenen Trainingsschritten im AlphaZero-Selbstlernzyklus sowie der Ergebnisse verschiedener Konzeptsonden auf verschiedenen Ebenen in jedem Netzwerk können der Zeitpunkt und die Position ermittelt werden, zu denen das Netzwerk ein bestimmtes Konzept gelernt hat extrahiert.

Schließlich erhalten wir das Was-Wann-Wo-Diagramm jedes Konzepts, das die drei Indikatoren „Welches ist das berechnete Konzept“, „Wo im Netzwerk findet die Berechnung statt“ und „Wann erscheint das Konzept“ enthält während des Netzwerktrainings“ Visualisieren. Wie in Abbildung 2 dargestellt.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 2: Die Konzepte von A bis B sind „Bewertung der Gesamtpunktzahl“, „Sind wir verallgemeinert worden“, „Bewertung der Bedrohung“, „Können wir den Feind besiegen?“ „Ist das?“ Königin der Seite?“, „Wird die Bewegung des Feindes unsere Seite töten?“, „Bewertung der Stärke der Figuren“, „Die Stärke der Figuren“, „Haben wir die Soldaten des Königs?“

In Abbildung C ist zu sehen, dass mit zunehmender Stärke von AlphaZero die Funktion des „Bedrohungs“-Konzepts und die Darstellung von AlphaZero (die durch lineare Sonden erkannt werden kann) zunehmend irrelevant werden.

Ein solches Was-Wann-Wo-Diagramm enthält die beiden Basislinien, die für den Vergleich der Erkennungsmethoden erforderlich sind: eine ist die Eingaberegression, angezeigt auf Ebene 0, und die andere ist die Regression aus den Netzwerkaktivierungen mit zufälligen Gewichtungen beim Training Schritt 0 wird überall angezeigt. Aus den Ergebnissen in der obigen Abbildung kann geschlossen werden, dass Änderungen in der Regressionsgenauigkeit vollständig durch Änderungen in der Netzwerkdarstellung bestimmt werden.

Darüber hinaus zeigen die Ergebnisse vieler Was-Wann-Wo-Diagramme das gleiche Muster, das heißt, die Regressionsgenauigkeit des gesamten Netzwerks ist bis etwa 32.000 Schritte sehr gering und beginnt sich mit dem nicht schnell zu verbessern Zunahme der Netzwerktiefe, stabilisiert sich dann und bleibt in den nachfolgenden Schichten unverändert. Daher finden alle konzeptbezogenen Berechnungen relativ früh im Netzwerk statt, während nachfolgende Restblöcke entweder eine Bewegungsauswahl durchführen oder Merkmale außerhalb des gegebenen Satzes von Konzepten berechnen.

Darüber hinaus können im Verlauf des Trainings viele vom Menschen definierte Konzepte aus den Darstellungen von AlphaZero mit hoher Vorhersagegenauigkeit vorhergesagt werden.

Bei fortgeschritteneren Konzepten fanden die Forscher Unterschiede darin, wo AlphaZero sie beherrschte. Erstens sind die Konzepte, die sich bei 2.000 Trainingsschritten deutlich von Null unterscheiden, „Material“ und „Raum“; komplexere Konzepte wie „king_safety“, „Bedrohungen“ und „Mobilität“ unterscheiden sich bei 8.000 Trainingsschritten deutlich von Null. Null und steigt erst nach 32.000 Trainingsschritten wesentlich an. Dieses Ergebnis steht im Einklang mit dem stark ansteigenden Punkt, der im Was-Wann-Wo-Diagramm in Abbildung 2 dargestellt ist. Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Darüber hinaus besteht ein bemerkenswertes Merkmal der meisten Was-Wann-Wo-Diagramme darin, dass die Regressionsgenauigkeit des Netzwerks am Anfang schnell zunimmt und dann ein Plateau erreicht oder abnimmt. Dies deutet darauf hin, dass die bisher von AlphaZero entdeckten Konzepte nur frühere Schichten des Netzwerks erkennen und dass das Verständnis späterer Schichten neue Konzepterkennungstechniken erfordert.

Die Eröffnungsstrategie von AlphaZero unterscheidet sich von der von Menschen

Nachdem die Forscher beobachtet hatten, dass AlphaZero menschliche Schachkonzepte lernte, untersuchten sie weiter AlphaZeros Verständnis von Schachtaktiken im Hinblick auf die Eröffnungsstrategie, da die Wahl der Eröffnung auch das Verständnis der Spieler für verwandte Konzepte voraussetzt .

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Die Forscher beobachteten, dass AlphaZero und Menschen unterschiedliche Öffnungsstrategien hatten: Mit der Zeit schränkte AlphaZero die Auswahlmöglichkeiten ein, während Menschen die Auswahlmöglichkeiten erweiterten.

Abbildung 3A zeigt die historische Entwicklung der menschlichen Präferenz für den ersten Zug von Weiß. In der Anfangsphase war e4 als erster Zug beliebt, und spätere Eröffnungsstrategien wurden ausgewogener und flexibler.

Abbildung 3B zeigt die Entwicklung der Eröffnungsstrategie von AlphaZero zusammen mit den Trainingsschritten. Wie Sie sehen, wägt AlphaZero zunächst alle Optionen gleich ab und schränkt die Optionen dann schrittweise ein.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 3: Vergleich von AlphaZero und menschlichen Präferenzen für den ersten Schritt gegenüber Trainingsschritten und Zeit.

Dies steht in scharfem Gegensatz zur Entwicklung des menschlichen Wissens, das sich ausgehend von e4 allmählich ausdehnt, während AlphaZero in den späteren Phasen des Trainings eindeutig d4 bevorzugt. Diese Vorliebe muss jedoch nicht überbewertet werden, da das Selbstspieltraining auf schnellem Spielen mit viel Zufälligkeit basiert, um die Erkundung zu erleichtern.

Der Grund für diesen Unterschied ist unklar, aber er spiegelt einen grundlegenden Unterschied zwischen Menschen und künstlichen neuronalen Netzen wider. Ein möglicher Faktor könnte sein, dass historische Daten zum menschlichen Schach mehr Wert auf das kollektive Wissen von Meisterspielern legen, während die Daten von AlphaZero Schachspiele auf Anfängerniveau und eine einzige entwickelte Strategie umfassen.

Wenn das neuronale Netzwerk von AlphaZero also mehrmals trainiert wird, zeigt es dann eine stabile Präferenz für bestimmte Eröffnungsstrategien?

Das Forschungsergebnis ist, dass diese Präferenz in vielen Fällen in verschiedenen Trainings nicht stabil ist und die Eröffnungsstrategien von AlphaZero sehr unterschiedlich sind. Beispielsweise bevorzugt AlphaZero in der klassischen Ruy-Lopez-Eröffnung (allgemein bekannt als „Spanische Eröffnung“) die Wahl von Schwarz in der Anfangsphase und folgt der typischen Spielmethode, nämlich 1.e4 e5, 2.Sf3 Sc6, 3 .Bb5.

Die Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht

Abbildung 4: Ruy Lopez beginnt

In verschiedenen Trainings wird AlphaZero schrittweise zu einem von 3.f6 und 3.a6 konvergieren. Darüber hinaus zeigten verschiedene Versionen des AlphaZero-Modells jeweils eine starke Präferenz für eine Aktion gegenüber einer anderen, und diese Präferenz wurde schon früh im Training festgestellt.

Dies ist ein weiterer Beweis dafür, dass es eine Vielfalt erfolgreicher Schachspiele gibt, und diese Vielfalt besteht nicht nur zwischen Menschen und Maschinen, sondern auch über verschiedene Trainingsiterationen von AlphaZero hinweg.

AlphaZeros Prozess der Wissensbeherrschung

Welcher Zusammenhang besteht also zwischen den oben genannten Forschungsergebnissen zu Öffnungsstrategien und AlphaZeros Konzeptverständnis?

Diese Studie ergab, dass es einen klaren Wendepunkt in den Was-Wann-Wo-Diagrammen verschiedener Konzepte gibt, der mit erheblichen Veränderungen in den Öffnungspräferenzen zusammenfällt. Insbesondere scheinen die Konzepte Material und Mobilität in direktem Zusammenhang zu stehen Eröffnungsstrategien.

Das Materialkonzept wurde hauptsächlich zwischen den Trainingsschritten 10k und 30k erlernt, und das Konzept der Stückmobilität wurde im gleichen Zeitraum schrittweise in den Wertekopf von AlphaZero integriert. Dem Verständnis der Mobilität von Schachfiguren sollte ein grundlegendes Verständnis des materiellen Werts von Schachfiguren vorausgehen. AlphaZero hat diese Theorie dann in die Eröffnungspräferenzen zwischen 25.000 und 60.000 Trainingsschritten integriert.

Der Autor analysierte weiter die Entwicklung des Wissens des AlphaZero-Netzwerks über Schach: zuerst die Entdeckung der Schachkraft; dann das explosionsartige Wachstum des Grundwissens in einem kurzen Zeitfenster, hauptsächlich Konzepte im Zusammenhang mit Mobilität; Die Öffnungsstrategie des neuronalen Netzwerks wird über Hunderttausende Trainingsschritte verfeinert. Obwohl die Gesamtlernzeit lang ist, entwickeln sich spezifische Grundfähigkeiten schnell und in relativ kurzer Zeit.

Der frühere Schachweltmeister Vladimir Kramnik wurde ebenfalls hinzugezogen, um diese Schlussfolgerung zu unterstützen, und seine Beobachtungen stimmten mit dem oben genannten Prozess überein.

Abschließend zeigt diese Arbeit, dass die vom AlphaZero-Netzwerk gelernte Schachbrettdarstellung in der Lage ist, viele menschliche Schachkonzepte zu rekonstruieren, und beschreibt detailliert die vom Netzwerk gelernten konzeptionellen Inhalte, wie lange es dauert, die Konzepte in der Trainingszeit zu erlernen, und die Computerkonzepte Netzwerkstandort. Darüber hinaus ist der Schachspielstil von AlphaZero nicht derselbe wie der von Menschen.

Da wir nun neuronale Netze im Hinblick auf das vom Menschen definierte Konzept des Schachs verstehen, wird die nächste Frage sein: Können neuronale Netze Dinge lernen, die über das menschliche Wissen hinausgehen?

Das obige ist der detaillierte Inhalt vonDie Blackbox von AlphaZero ist geöffnet! DeepMind-Artikel in PNAS veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

So erstellen Sie Ihren persönlichen KI -Assistenten mit Smollm mit Umarmung. SmollmApr 18, 2025 am 11:52 AM

Nutzen Sie die Kraft von AI On-Device: Bauen eines persönlichen Chatbot-Cli In der jüngeren Vergangenheit schien das Konzept eines persönlichen KI -Assistenten wie Science -Fiction zu sein. Stellen Sie sich Alex vor, ein Technik -Enthusiast, der von einem klugen, lokalen KI -Begleiter träumt - einer, der nicht angewiesen ist

KI für psychische Gesundheit wird aufmerksam durch aufregende neue Initiative an der Stanford University analysiertApr 18, 2025 am 11:49 AM

Ihre Eröffnungseinführung von AI4MH fand am 15. April 2025 statt, und Luminary Dr. Tom Insel, M. D., berühmter Psychiater und Neurowissenschaftler, diente als Kick-off-Sprecher. Dr. Insel ist bekannt für seine herausragende Arbeit in der psychischen Gesundheitsforschung und für Techno

Die 2025 WNBA -Entwurfsklasse tritt in eine Liga ein, die wächst und gegen Online -Belästigung kämpftApr 18, 2025 am 11:44 AM

"Wir möchten sicherstellen, dass die WNBA ein Raum bleibt, in dem sich alle, Spieler, Fans und Unternehmenspartner sicher fühlen, geschätzt und gestärkt sind", erklärte Engelbert und befasste sich mit dem, was zu einer der schädlichsten Herausforderungen des Frauensports geworden ist. Die Anno

Umfassende Anleitung zu Python -integrierten Datenstrukturen - Analytics VidhyaApr 18, 2025 am 11:43 AM

Einführung Python zeichnet sich als Programmiersprache aus, insbesondere in der Datenwissenschaft und der generativen KI. Eine effiziente Datenmanipulation (Speicherung, Verwaltung und Zugriff) ist bei der Behandlung großer Datensätze von entscheidender Bedeutung. Wir haben zuvor Zahlen und ST abgedeckt

Erste Eindrücke von OpenAIs neuen Modellen im Vergleich zu AlternativenApr 18, 2025 am 11:41 AM

Vor dem Eintauchen ist eine wichtige Einschränkung: KI-Leistung ist nicht deterministisch und sehr nutzungsgewohnt. In einfacherer Weise kann Ihre Kilometerleistung variieren. Nehmen Sie diesen (oder einen anderen) Artikel nicht als endgültiges Wort - testen Sie diese Modelle in Ihrem eigenen Szenario

AI -Portfolio | Wie baue ich ein Portfolio für eine KI -Karriere?Apr 18, 2025 am 11:40 AM

Erstellen eines herausragenden KI/ML -Portfolios: Ein Leitfaden für Anfänger und Profis Das Erstellen eines überzeugenden Portfolios ist entscheidend für die Sicherung von Rollen in der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML). Dieser Leitfaden bietet Rat zum Erstellen eines Portfolios

Welche Agenten KI könnte für Sicherheitsvorgänge bedeutenApr 18, 2025 am 11:36 AM

Das Ergebnis? Burnout, Ineffizienz und eine Erweiterung zwischen Erkennung und Wirkung. Nichts davon sollte für jeden, der in Cybersicherheit arbeitet, einen Schock erfolgen. Das Versprechen der Agenten -KI hat sich jedoch als potenzieller Wendepunkt herausgestellt. Diese neue Klasse

Google versus openai: Der KI -Kampf für SchülerApr 18, 2025 am 11:31 AM

Sofortige Auswirkungen gegen langfristige Partnerschaft? Vor zwei Wochen hat Openai ein leistungsstarkes kurzfristiges Angebot vorangetrieben und bis Ende Mai 2025 den kostenlosen Zugang zu Chatgpt und Ende Mai 2025 gewährt. Dieses Tool enthält GPT-4O, A A A.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Will R.E.P.O. Crossplay haben?

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7554

CakePHP-Tutorial

1382

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten