Erstellen eines Schachagenten mit DQN-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Erstellen eines Schachagenten mit DQN

Susan Sarandon

Dec 30, 2024 am 01:55 AM

Ich habe kürzlich versucht, einen DQN-basierten Schachagenten zu implementieren.

Nun, jeder, der weiß, wie DQNs und Schach funktionieren, würde Ihnen sagen, dass das eine dumme Idee ist.

Und...das war es, aber als Anfänger hat es mir trotzdem Spaß gemacht. In diesem Artikel teile ich die Erkenntnisse, die ich bei der Arbeit daran gewonnen habe.

Die Umwelt verstehen.

Bevor ich mit der Implementierung des Agenten selbst begann, musste ich mich mit der Umgebung, die ich verwenden werde, vertraut machen und darüber einen benutzerdefinierten Wrapper erstellen, damit er während des Trainings mit dem Agenten interagieren kann.

Ich habe die Schachumgebung aus der Bibliothek kaggle_environments verwendet.
```
 from kaggle_environments import make
 env = make("chess", debug=True)
```

Ich habe auch Chessnut verwendet, eine leichte Python-Bibliothek, die beim Analysieren und Validieren von Schachpartien hilft.

 from Chessnut import Game
 initial_fen = env.state[0]['observation']['board']
 game=Game(env.state[0]['observation']['board'])

In dieser Umgebung wird der Zustand der Platine im FEN-Format gespeichert.

Building a Chess Agent using DQN

Es bietet eine kompakte Möglichkeit, alle Figuren auf dem Brett und den aktuell aktiven Spieler darzustellen. Da ich jedoch vorhatte, die Eingabe einem neuronalen Netzwerk zuzuführen, musste ich die Darstellung des Zustands ändern.

Konvertieren von FEN in das Matrixformat

Building a Chess Agent using DQN

Da es 12 verschiedene Arten von Teilen auf einem Brett gibt, habe ich 12 Kanäle mit 8x8-Rastern erstellt, um den Zustand jedes dieser Arten auf dem Brett darzustellen.

Einen Wrapper für die Umwelt erstellen

class EnvCust:
    def __init__(self):
        self.env = make("chess", debug=True)
        self.game=Game(env.state[0]['observation']['board'])
        print(self.env.state[0]['observation']['board'])
        self.action_space=game.get_moves();
        self.obs_space=(self.env.state[0]['observation']['board'])

    def get_action(self):
        return Game(self.env.state[0]['observation']['board']).get_moves();


    def get_obs_space(self):
        return fen_to_board(self.env.state[0]['observation']['board'])

    def step(self,action):
        reward=0
        g=Game(self.env.state[0]['observation']['board']);
        if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'):
            reward=7
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r':
            reward=4
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='P':
            reward=2
        g=Game(self.env.state[0]['observation']['board']);
        g.apply_move(action)
        done=False
        if(g.status==2):
            done=True
            reward=10
        elif g.status == 1:  
            done = True
            reward = -5 
        self.env.step([action,'None'])
        self.action_space=list(self.get_action())
        if(self.action_space==[]):
            done=True
        else:
            self.env.step(['None',random.choice(self.action_space)])
            g=Game(self.env.state[0]['observation']['board']);
            if g.status==2:
                reward=-10
                done=True

        self.action_space=list(self.get_action())
        return self.env.state[0]['observation']['board'],reward,done

Der Zweck dieses Wrappers bestand darin, eine Belohnungsrichtlinie für den Agenten und eine Schrittfunktion bereitzustellen, die zur Interaktion mit der Umgebung während des Trainings verwendet wird.

Chessnut war nützlich, um Informationen zu erhalten, wie z. B. die legalen Züge, die zum aktuellen Stand des Bretts möglich sind, und um Schachmatts während des Spiels zu erkennen.

Ich habe versucht, eine Belohnungsrichtlinie zu erstellen, um positive Punkte für Schachmatt und das Ausschalten gegnerischer Figuren zu vergeben, während negative Punkte für das Verlieren des Spiels vergeben werden.

Erstellen eines Wiedergabepuffers

Building a Chess Agent using DQN

Wiederholungspuffer wird während des Trainingszeitraums verwendet, um die Ausgabe (Zustand, Aktion, Belohnung, nächster Zustand) des Q-Netzwerks zu speichern und später zufällig für die Backpropagation des Zielnetzwerks zu verwenden

Hilfsfunktionen

Building a Chess Agent using DQN

Chessnut gibt rechtliche Schritte im UCI-Format zurück, das wie „a2a3“ aussieht. Um jedoch mit dem neuronalen Netzwerk zu interagieren, habe ich jede Aktion mithilfe eines Grundmusters in einen eigenen Index umgewandelt. Es gibt insgesamt 64 Quadrate, daher habe ich beschlossen, für jede Bewegung 64*64 eindeutige Indizes zu verwenden.
Ich weiß, dass nicht alle 64*64-Züge legal wären, aber mit Chessnut konnte ich mit der Legalität umgehen und das Muster war einfach genug.

Struktur des neuronalen Netzwerks

 from kaggle_environments import make
 env = make("chess", debug=True)

Dieses neuronale Netzwerk verwendet die Faltungsschichten, um die 12-Kanal-Eingabe aufzunehmen, und verwendet außerdem die gültigen Aktionsindizes, um die Belohnungsausgabevorhersage herauszufiltern.

Implementierung des Agenten

 from Chessnut import Game
 initial_fen = env.state[0]['observation']['board']
 game=Game(env.state[0]['observation']['board'])

Dies war offensichtlich ein sehr einfaches Modell, das keine Chance hatte, tatsächlich eine gute Leistung zu erbringen (und das tat es auch nicht), aber es hat mir geholfen, die Funktionsweise von DQNs etwas besser zu verstehen.

Building a Chess Agent using DQN

Das obige ist der detaillierte Inhalt vonErstellen eines Schachagenten mit DQN. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal?Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie benutze ich eine schöne Suppe, um HTML zu analysieren?Mar 10, 2025 pm 06:54 PM

In diesem Artikel wird erklärt, wie man schöne Suppe, eine Python -Bibliothek, verwendet, um HTML zu analysieren. Es beschreibt gemeinsame Methoden wie find (), find_all (), select () und get_text () für die Datenextraktion, die Behandlung verschiedener HTML -Strukturen und -Anternativen (SEL)

Mathematische Module in Python: StatistikMar 09, 2025 am 11:40 AM

Das Statistikmodul von Python bietet leistungsstarke Datenstatistikanalysefunktionen, mit denen wir die allgemeinen Merkmale von Daten wie Biostatistik und Geschäftsanalyse schnell verstehen können. Anstatt Datenpunkte nacheinander zu betrachten, schauen Sie sich nur Statistiken wie Mittelwert oder Varianz an, um Trends und Merkmale in den ursprünglichen Daten zu ermitteln, die möglicherweise ignoriert werden, und vergleichen Sie große Datensätze einfacher und effektiv. In diesem Tutorial wird erläutert, wie der Mittelwert berechnet und den Grad der Dispersion des Datensatzes gemessen wird. Sofern nicht anders angegeben, unterstützen alle Funktionen in diesem Modul die Berechnung der Mittelwert () -Funktion, anstatt einfach den Durchschnitt zu summieren. Es können auch schwimmende Punktzahlen verwendet werden. zufällig importieren Statistiken importieren Aus Fracti

Wie führe ich ein tiefes Lernen mit Tensorflow oder Pytorch durch?Mar 10, 2025 pm 06:52 PM

Dieser Artikel vergleicht TensorFlow und Pytorch für Deep Learning. Es beschreibt die beteiligten Schritte: Datenvorbereitung, Modellbildung, Schulung, Bewertung und Bereitstellung. Wichtige Unterschiede zwischen den Frameworks, insbesondere bezüglich des rechnerischen Graps

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung?Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Wie erstelle ich Befehlszeilenschnittstellen (CLIS) mit Python?Mar 10, 2025 pm 06:48 PM

Dieser Artikel führt die Python-Entwickler in den Bauen von CLIS-Zeilen-Schnittstellen (CLIS). Es werden mit Bibliotheken wie Typer, Click und ArgParse beschrieben, die Eingabe-/Ausgabemedelung betonen und benutzerfreundliche Designmuster für eine verbesserte CLI-Usabilität fördern.

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren?Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Erklären Sie den Zweck virtueller Umgebungen in Python.Mar 19, 2025 pm 02:27 PM

Der Artikel erörtert die Rolle virtueller Umgebungen in Python und konzentriert sich auf die Verwaltung von Projektabhängigkeiten und die Vermeidung von Konflikten. Es beschreibt ihre Erstellung, Aktivierung und Vorteile bei der Verbesserung des Projektmanagements und zur Verringerung der Abhängigkeitsprobleme.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

1 Wochen vorByDDD

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.