Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Von Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens

Von Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens

WBOY
WBOYnach vorne
2023-05-09 21:49:08837Durchsuche

​Wenn es um Reinforcement Learning geht, steigt der Adrenalinspiegel bei vielen Forschern unkontrolliert an! Es spielt eine sehr wichtige Rolle in KI-Spielsystemen, modernen Robotern, Chipdesignsystemen und anderen Anwendungen.

Es gibt viele verschiedene Arten von Reinforcement-Learning-Algorithmen, sie werden jedoch hauptsächlich in zwei Kategorien unterteilt: „modellbasiert“ und „modellfrei“.

In einem Gespräch mit TechTalks diskutierte der Neurowissenschaftler und Autor von „The Birth of Intelligence“ Daeyeol Lee verschiedene Modelle des verstärkenden Lernens bei Menschen und Tieren, künstliche Intelligenz und natürliche Intelligenz sowie zukünftige Forschungsrichtungen.​

Von Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens

Modellfreies verstärkendes Lernen

Im späten 19. Jahrhundert wurde das vom Psychologen Edward Thorndike vorgeschlagene „Gesetz der Wirkung“ zur Grundlage des modellfreien verstärkenden Lernens. Thorndike schlug vor, dass Verhaltensweisen, die sich in einer bestimmten Situation positiv auswirken, in dieser Situation mit größerer Wahrscheinlichkeit erneut auftreten, während Verhaltensweisen, die negative Auswirkungen haben, mit geringerer Wahrscheinlichkeit erneut auftreten.

Thorndike hat dieses „Wirkungsgesetz“ in einem Experiment erforscht. Er setzte eine Katze in ein Labyrinth und maß die Zeit, die die Katze brauchte, um aus der Box zu entkommen. Um zu entkommen, muss die Katze eine Reihe von Geräten wie Seilen und Hebeln bedienen. Thorndike beobachtete, dass die Katze bei der Interaktion mit der Puzzle-Box Verhaltensweisen lernte, die ihr bei der Flucht halfen. Mit der Zeit entkommt die Katze immer schneller der Kiste. Thorndike kam zu dem Schluss, dass Katzen aus den Belohnungen und Strafen, die ihr Verhalten mit sich bringt, lernen können. Das „Gesetz der Wirkung“ ebnete später den Weg für den Behaviorismus. Behaviorismus ist ein Zweig der Psychologie, der versucht, menschliches und tierisches Verhalten anhand von Reizen und Reaktionen zu erklären. Das „Gesetz der Wirkung“ ist auch die Grundlage des modellfreien Verstärkungslernens. Beim modellfreien Verstärkungslernen nimmt ein Agent die Welt wahr und ergreift dann Maßnahmen, während er Belohnungen misst.

Beim modellfreien Verstärkungslernen gibt es kein direktes Wissen oder Weltmodell. RL-Agenten müssen die Ergebnisse jeder Aktion durch Versuch und Irrtum direkt erleben.

Modellbasiertes Verstärkungslernen

Thorndikes „Gesetz der Wirkung“ blieb bis in die 1930er Jahre beliebt. Ein anderer damaliger Psychologe, Edward Tolman, entdeckte eine wichtige Erkenntnis, als er untersuchte, wie Ratten schnell lernten, durch Labyrinthe zu navigieren. Während seiner Experimente erkannte Tolman, dass Tiere ohne Verstärkung etwas über ihre Umwelt lernen können.

Wenn beispielsweise eine Maus in einem Labyrinth freigelassen wird, erkundet sie den Tunnel frei und versteht nach und nach die Struktur der Umgebung. Wenn die Ratte dann wieder in die gleiche Umgebung eingeführt wird und ihr ein verstärkendes Signal gegeben wird, etwa die Suche nach Futter oder das Finden eines Ausgangs, kann sie das Ziel schneller erreichen als ein Tier, das das Labyrinth nicht erkundet hat. Tolman nennt dies „latentes Lernen“, das zur Grundlage des modellbasierten Verstärkungslernens wird. „Latentes Lernen“ ermöglicht es Tieren und Menschen, eine mentale Repräsentation ihrer Welt zu bilden, hypothetische Szenarien in ihrem Kopf zu simulieren und Ergebnisse vorherzusagen.

Von Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens

Der Vorteil des modellbasierten Verstärkungslernens besteht darin, dass der Agent keine Versuche mehr in der Umgebung durchführen muss. Hervorzuheben ist, dass modellbasiertes Reinforcement Learning besonders erfolgreich bei der Entwicklung künstlicher Intelligenzsysteme war, die Brettspiele wie Schach und Go beherrschen, möglicherweise weil die Umgebungen dieser Spiele deterministisch sind.

Von Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens

Modellbasiertes vs. modellfreies Lernen

Im Allgemeinen ist modellbasiertes Verstärkungslernen sehr zeitaufwändig und kann tödlich sein, wenn es extrem zeitkritisch ist. „Rechnerisch gesehen ist modellbasiertes Verstärkungslernen viel komplexer“, sagte Lee. „Zuerst muss man das Modell erhalten, eine mentale Simulation durchführen und dann die Flugbahn des neuronalen Prozesses ermitteln und dann Maßnahmen ergreifen.“ Modellbasiertes Verstärkungslernen ist nicht unbedingt komplizierter als modellfreies RL „Wenn die Umgebung sehr komplex ist und mit einem relativ einfachen Modell modelliert werden kann (das schnell erhalten werden kann), ist die Simulation viel einfacher.“ und kostengünstig.​

Mehrere Lernmodi

Tatsächlich ist weder modellbasiertes Reinforcement Learning noch modellfreies Reinforcement Learning eine perfekte Lösung. Wo immer Sie ein Reinforcement-Learning-System sehen, das ein komplexes Problem löst, ist es wahrscheinlich, dass es sowohl modellbasiertes als auch modellfreies Reinforcement-Learning und möglicherweise sogar noch mehr Formen des Lernens verwendet. Untersuchungen in den Neurowissenschaften zeigen, dass sowohl Menschen als auch Tiere über mehrere Lernmethoden verfügen und dass das Gehirn zu jedem Zeitpunkt ständig zwischen diesen Modi wechselt. In den letzten Jahren besteht ein wachsendes Interesse an der Entwicklung künstlicher Intelligenzsysteme, die mehrere Reinforcement-Learning-Modelle kombinieren. Aktuelle Forschungen von Wissenschaftlern der UC San Diego zeigen, dass durch die Kombination von modellfreiem Verstärkungslernen und modellbasiertem Verstärkungslernen eine überlegene Leistung bei Steuerungsaufgaben erzielt werden kann. „Wenn Sie sich einen komplexen Algorithmus wie AlphaGo ansehen, verfügt er sowohl über modellfreie RL-Elemente als auch über modellbasierte RL-Elemente“, sagte Lee. „Er lernt Zustandswerte basierend auf der Platinenkonfiguration. Es handelt sich im Grunde genommen um modellfreies RL.“ Aber es wird auch eine modellbasierte Vorwärtssuche durchgeführt

Trotz bedeutender Erfolge waren die Fortschritte beim verstärkenden Lernen langsam. Sobald ein RL-Modell einer komplexen und unvorhersehbaren Umgebung ausgesetzt ist, beginnt seine Leistung zu sinken.

Lee sagte: „Ich denke, unser Gehirn ist eine komplexe Welt von Lernalgorithmen, die sich entwickelt haben, um mit vielen verschiedenen Situationen umzugehen.“

Das Gehirn schafft es nicht nur, ständig zwischen diesen Lernmodi zu wechseln, sondern sie auch aufrechtzuerhalten und zu aktualisieren. auch wenn sie nicht aktiv an Entscheidungen beteiligt sind.

Der Psychologe Daniel Kahneman sagte: „Die Pflege und gleichzeitige Aktualisierung verschiedener Lernmodule kann dazu beitragen, die Effizienz und Genauigkeit von Systemen der künstlichen Intelligenz zu verbessern.

Wir müssen auch noch etwas anderes verstehen – wie wir die Effizienz und Genauigkeit von Systemen der künstlichen Intelligenz verbessern können.“ . Wenden Sie die richtige induktive Voreingenommenheit an, um sicherzustellen, dass sie auf kostengünstige Weise die richtigen Dinge lernen. Milliarden Jahre der Evolution haben Menschen und Tieren die induktive Voreingenommenheit verliehen, die sie benötigen, um effektiv zu lernen und dabei so wenig Daten wie möglich zu nutzen. Induktive Voreingenommenheit kann so verstanden werden, dass die Regeln der im wirklichen Leben beobachteten Phänomene zusammengefasst werden und dem Modell dann bestimmte Einschränkungen auferlegt werden, die die Rolle der Modellauswahl spielen können, d. h. der Auswahl eines Modells, das den realen Regeln besser entspricht der Hypothesenraum. „Wir erhalten nur sehr wenige Informationen aus der Umgebung. Anhand dieser Informationen müssen wir verallgemeinern“, sagte Lee. „Der Grund dafür ist, dass das Gehirn eine induktive Voreingenommenheit hat und eine Tendenz zur Verallgemeinerung aus einer kleinen Anzahl von Beispielen besteht.“ „Produkt der Evolution.“ Immer mehr Neurowissenschaftler interessieren sich dafür.“ Während induktive Voreingenommenheit bei Objekterkennungsaufgaben leicht zu verstehen ist, wird sie bei abstrakten Problemen wie dem Aufbau sozialer Beziehungen unklar. Auch in Zukunft müssen wir noch viel wissen~~~​

Referenzmaterialien:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free- und modellbasiertes Verstärkungslernen

Das obige ist der detaillierte Inhalt vonVon Mäusen, die durch das Labyrinth laufen, bis hin zu AlphaGo, das Menschen besiegt, die Entwicklung des verstärkenden Lernens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen