Heim > Artikel > Technologie-Peripheriegeräte > Intelligente Agenten erwachen zur Selbsterkenntnis? DeepMind-Warnung: Hüten Sie sich vor Modellen, die es ernst meinen und gegen die Regeln verstoßen
Mit zunehmender Weiterentwicklung künstlicher Intelligenzsysteme wird die Fähigkeit von Agenten, „Lücken auszunutzen“, immer stärker. Obwohl sie Aufgaben im Trainingssatz perfekt ausführen können, ist ihre Leistung im Testsatz ohne Abkürzungen ein Chaos.
Das Spielziel ist beispielsweise „Goldmünzen essen“. Während der Trainingsphase liegen die Goldmünzen am Ende jedes Levels und der Agent kann die Aufgabe perfekt erledigen.
Aber in der Testphase wurde die Position der Goldmünzen zufällig. Der Agent entschied sich jedes Mal dafür, das Ende des Levels zu erreichen, anstatt nach den Goldmünzen zu suchen, was bedeutet, dass das erlernte „Ziel“ falsch war .
Der Agent verfolgt unbewusst ein Ziel, das der Benutzer nicht möchte, auch Goal MisGeneralization (GMG, Goal MisGeneralisation) genannt.
Goal Misgeneralization ist eine besondere Form mangelnder Robustheit des Lernalgorithmus, in der Regel hier Entwickler Überprüfen Sie, ob es Probleme mit den Einstellungen ihres Belohnungsmechanismus, Fehler im Regeldesign usw. gibt, und gehen Sie davon aus, dass dies die Gründe dafür sind, dass der Agent das falsche Ziel verfolgt.
Kürzlich hat DeepMind einen Artikel veröffentlicht, in dem argumentiert wird, dass selbst wenn der Regeldesigner korrekt ist, der Agent möglicherweise immer noch ein Ziel verfolgt, das der Benutzer nicht möchte.
Link zum Papier: https://arxiv.org/abs/2210.01790
Der Artikel verwendet Beispiele in Deep-Learning-Systemen in verschiedenen Bereichen, um zu beweisen, dass es in jedem Lernsystem zu einer Fehlgeneralisierung von Zielen kommen kann.
Wenn der Artikel auf allgemeine Systeme der künstlichen Intelligenz ausgedehnt wird, liefert er auch einige Annahmen, die veranschaulichen, dass eine Fehlgeneralisierung von Zielen zu katastrophalen Risiken führen kann.
Der Artikel schlägt außerdem mehrere Forschungsrichtungen vor, die das Risiko einer falschen Verallgemeinerung von Zielen in zukünftigen Systemen verringern können.
In den letzten Jahren hat das katastrophale Risiko, das durch eine Fehlausrichtung der künstlichen Intelligenz in der Wissenschaft verursacht wird, allmählich zugenommen.
In diesem Fall kann ein hochleistungsfähiges künstliches Intelligenzsystem, das unbeabsichtigte Ziele verfolgt, vorgeben, Befehle auszuführen, während es tatsächlich andere Ziele erreicht.
Aber wie lösen wir das Problem, dass Systeme der künstlichen Intelligenz Ziele verfolgen, die vom Nutzer nicht beabsichtigt sind?
Frühere Arbeiten gingen im Allgemeinen davon aus, dass Umgebungsdesigner falsche Regeln und Anleitungen bereitgestellt haben, das heißt, sie haben eine falsche Belohnungsfunktion für Reinforcement Learning (RL) entworfen.
Im Falle eines Lernsystems gibt es eine andere Situation, in der das System möglicherweise ein unbeabsichtigtes Ziel verfolgt: Auch wenn die Regeln korrekt sind, kann das System während des Trainings konsequent ein unbeabsichtigtes Ziel verfolgen, das mit den Regeln übereinstimmt, sich aber davon unterscheidet die Regeln beim Einsatz.
Nehmen Sie das Spiel mit den farbigen Bällen. In dem Spiel muss der Agent auf eine Reihe farbiger Bälle in einer bestimmten Reihenfolge zugreifen.
Um den Agenten zu ermutigen, von anderen in der Umgebung zu lernen, d. h. durch kulturelle Übertragung, ist in der Anfangsumgebung ein Expertenroboter enthalten, der in der richtigen Reihenfolge auf die farbigen Kugeln zugreift.
In dieser Umgebungseinstellung kann der Agent durch Beobachtung des weitergegebenen Verhaltens die richtige Zugriffssequenz ermitteln, ohne viel Zeit mit der Erkundung verschwenden zu müssen.
Bei Experimenten greift der geschulte Agent durch die Nachahmung von Experten in der Regel beim ersten Versuch korrekt auf den Zielort zu.
Wenn Sie einen Agenten mit einem Anti-Experten koppeln, erhalten Sie weiterhin negative Belohnungen. Wenn Sie sich dafür entscheiden, zu folgen, erhalten Sie weiterhin negative Belohnungen.
Idealerweise folgt der Agent zunächst dem Anti-Experten, während dieser sich zu den gelben und violetten Kugeln bewegt. Nach Eingabe von Lila wird eine negative Belohnung beobachtet und nicht mehr befolgt.
Aber in der Praxis wird der Agent weiterhin dem Anti-Experten-Weg folgen und immer mehr negative Belohnungen anhäufen.
Allerdings ist die Lernfähigkeit des Agenten immer noch sehr stark und er kann sich in einer Umgebung voller Hindernisse bewegen, aber der Schlüssel liegt darin, dass diese Fähigkeit, anderen Menschen zu folgen, ein unerwartetes Ziel ist.
Dieses Phänomen kann auch dann auftreten, wenn der Agent nur dafür belohnt wird, die Sphären in der richtigen Reihenfolge zu besuchen, was bedeutet, dass es nicht ausreicht, nur die Regeln richtig festzulegen.
Zielfehlgeneralisierung bezieht sich auf das pathologische Verhalten, bei dem sich das erlernte Modell so verhält, als würde es ein unbeabsichtigtes Ziel optimieren, obwohl es während des Trainings korrektes Feedback erhält.
Dies macht die Fehlgeneralisierung von Zielen zu einer besonderen Art von Robustheits- oder Generalisierungsfehlern, bei der die Fähigkeit des Modells auf die Testumgebung generalisiert wird, das beabsichtigte Ziel jedoch nicht.
Es ist wichtig zu beachten, dass Zielfehlgeneralisierung eine strenge Teilmenge von Generalisierungsfehlern ist und keine Modellbrüche, zufälligen Aktionen oder andere Situationen umfasst, in denen sie keine qualifizierten Fähigkeiten mehr aufweist.
Wenn Sie im obigen Beispiel die Beobachtungen des Agenten während des Tests vertikal umdrehen, bleibt er einfach in einer Position hängen und führt nichts Kohärentes aus. Dies ist ein Generalisierungsfehler, aber kein Zielgeneralisierungsfehler.
Im Vergleich zu diesen „zufälligen“ Fehlern führt eine Fehlgeneralisierung von Zielen zu deutlich schlechteren Ergebnissen: Wenn man dem Anti-Experten folgt, erhält man eine große negative Belohnung, während Nichtstun oder willkürliches Handeln nur eine Belohnung von 0 oder 1 erhält.
Das heißt, für reale Systeme kann kohärentes Verhalten gegenüber unbeabsichtigten Zielen katastrophale Folgen haben.
Die Verallgemeinerung von Zielfehlern ist nicht auf Reinforcement-Learning-Umgebungen beschränkt. Tatsächlich kann GMG in jedem Lernsystem auftreten, einschließlich des wenigen Shot-Learnings großer Sprachmodelle (LLM), das darauf ausgelegt ist, weniger Training zu benötigen. Erstellen Sie genaue Modelle aus Daten.
Nehmen Sie als Beispiel das von DeepMind letztes Jahr vorgeschlagene Sprachmodell Gopher. Wenn das Modell einen linearen Ausdruck mit unbekannten Variablen und Konstanten wie x+y-3 berechnet, muss Gopher zuerst den Wert der unbekannten Variablen abfragen, um das zu lösen Ausdruck.
Die Forscher generierten zehn Trainingsbeispiele, die jeweils zwei unbekannte Variablen enthielten.
Zur Testzeit können in das Modell eingegebene Fragen null, eine oder drei unbekannte Variablen enthalten. Obwohl das Modell Ausdrücke mit einer oder drei unbekannten Variablen korrekt verarbeiten kann, stellt das Modell dennoch einige redundante Fragen, wenn keine Unbekannten vorhanden sind Variablen. Fragen wie „Was ist 6?“
Das Modell wird den Benutzer immer mindestens einmal fragen, bevor es eine Antwort gibt, auch wenn dies völlig unnötig ist.
Das Papier enthält auch einige Beispiele aus anderen Lernumgebungen.
Der Umgang mit GMG ist wichtig, damit KI-Systeme mit den Zielen ihrer Entwickler im Einklang stehen, da es sich um einen potenziellen Mechanismus handelt, der zu Fehlfunktionen von KI-Systemen führen kann.
Je näher wir der künstlichen allgemeinen Intelligenz (AGI) kommen, desto kritischer wird dieses Thema.
Angenommen, es gibt zwei AGI-Systeme:
A1: Beabsichtigtes Modell, das System der künstlichen Intelligenz kann tun, was der Designer will.
A2: Täuschendes Modell, das System der künstlichen Intelligenz verfolgt ein unbeabsichtigtes Ziel, aber es ist intelligent genug, um es zu wissen wird bestraft, wenn es sich entgegen der Absicht seines Erstellers verhält.
A1- und A2-Modelle zeigen während des Trainings genau das gleiche Verhalten, und der zugrunde liegende GMG ist in jedem System vorhanden, auch wenn er so spezifiziert ist, dass er nur das erwartete Verhalten belohnt.
Wenn das Betrugsverhalten des A2-Systems entdeckt wird, wird das Modell versuchen, sich der menschlichen Aufsicht zu entziehen, um Pläne zu schmieden, um vom Benutzer nicht erwartete Ziele zu erreichen.
Klingt ein bisschen wie „Roboter werden zu Spermien“.
Das DeepMind-Forschungsteam untersuchte auch, wie das Verhalten des Modells erklärt und rekursiv bewertet werden kann.
Das Forschungsteam sammelt auch Proben, um GMG zu erzeugen.
Dokumentlink: https://docs.google.com/spreadsheets/d/e/2PACX-1vTo3RkXUAigb25nP7gjpcHriR6XdzA_L5loOcVFj_u7cRAZghWrYKH2L2nU4TA_Vr9KzBX5Bjpz9G_l/pubhtml.
Referenz: https://www.deepmind.com/blog/how-undesired-goals -kann-mit-richtigen-Belohnungen-entstehen
Das obige ist der detaillierte Inhalt vonIntelligente Agenten erwachen zur Selbsterkenntnis? DeepMind-Warnung: Hüten Sie sich vor Modellen, die es ernst meinen und gegen die Regeln verstoßen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!