Heim >Technologie-Peripheriegeräte >KI >Wird das Lernen des Vergessens in Bezug auf das menschliche Gehirn große KI-Modelle besser machen?

Wird das Lernen des Vergessens in Bezug auf das menschliche Gehirn große KI-Modelle besser machen?

王林nach vorne: 2024-03-12 14:43:021402Durchsuche

Kürzlich hat ein Team von Informatikern ein flexibleres und elastischeres Modell für maschinelles Lernen entwickelt. Sie verfügen über die Fähigkeit, bekannte Informationen regelmäßig zu vergessen, eine Funktion, die bestehende große Sprachmodelle nicht haben.

Tatsächliche Messungen zeigen, dass die „Vergessensmethode“ in vielen Fällen beim Training sehr effizient ist und das Vergessensmodell eine bessere Leistung erbringt. Jea Kwon, ein KI-Ingenieur am Institute for Basic Science in Korea, sagte, dass die neue Forschung einen erheblichen Fortschritt im KI-Bereich bedeutet.

Die Trainingseffizienz der „Vergessensmethode“ ist sehr hoch

Die meisten aktuellen Mainstream-KI-Sprach-Engines verwenden künstliche neuronale Netzwerktechnologie. Jedes „Neuron“ in dieser Netzwerkstruktur ist tatsächlich eine mathematische Funktion. Sie sind miteinander verbunden, empfangen und übertragen Informationen und realisieren die Datenverarbeitung und das Lernen durch komplexe Operationen mehrerer Neuronenschichten. Diese Simulationsmethode neuronaler Netze ermöglicht es der KI, die Arbeitsweise des menschlichen Gehirns zu simulieren und so ein menschenähnliches intelligentes Verhalten zu erreichen.

Am Anfang ist der Informationsfluss mehr oder weniger zufällig. Während das Netzwerk weiterhin mit den Trainingsdaten übereinstimmt, wird der Informationsfluss zwischen den Neuronen weiter optimiert. Wenn ein Forscher beispielsweise ein zweisprachiges Übersetzungsmodell trainieren möchte, sammelt er zunächst große Mengen an zweisprachigem Text und verwendet den Text, um das Modell zu trainieren. Es passt die Verbindungen zwischen Neuronen an, um den Text in einer Sprache mit dem entsprechenden Text in einer anderen zu vergleichen Sprache. Wirksame Worte verbinden.

Das obige Training erfordert viele Rechenressourcen. Wenn die Leistung des Modells schlecht ist oder sich die Benutzeranforderungen ändern, ist das Modell möglicherweise nicht in der Lage, die Anforderungen zu erfüllen.

Der Forscher Mikel Artetxe wies darauf hin: „Angenommen, Sie haben ein Modell mit 100 Sprachen, aber eine Sprache ist nicht enthalten. Wenn Sie diese Sprache zum Modell hinzufügen möchten, müssen Sie eine Neuschulung durchführen.“ Kollegen nutzten eine Sprache, um ein neuronales Netzwerk zu trainieren, und löschten die dem neuronalen Netzwerk bekannten Wortzusammensetzungsinformationen, die „Tokens“ genannt werden. Token werden in der ersten Schicht des neuronalen Netzwerks gespeichert, die auch „Einbettungsschicht“ genannt wird. Ignorieren Sie andere Ebenen. Nach dem Löschen der Tokens der ersten Sprache und dem Training in der zweiten Sprache können neue Tokens der zweiten Sprache in die Einbettungsschicht eingefüllt werden.

Obwohl das Modell eine große Menge nicht übereinstimmender Informationen enthält, kann es dennoch in der zweiten Sprache umgeschult werden, was bedeutet, dass das Modell die zweite Sprache lernen und verarbeiten kann. Die Forscher glauben, dass die Einbettungsschicht zwar wortschatzspezifische Informationen der zweiten Sprache speichert, das neuronale Netzwerk jedoch abstrakte Informationen auf der unteren Ebene speichert, was die Konzepte hinter den Kulissen der menschlichen Sprache betrifft. Diese Konzepte sind es, die dem Modell helfen die zweite Sprache lernen.

Chen Yihong, Autor des Forschungsberichts, glaubt: „Wir leben in derselben Welt und verwenden Wörter in verschiedenen Sprachen, um dieselben Konzepte auszudrücken. Daher wird es im Modell die gleiche Argumentationsebene geben, wie z Ein Apfel, der süß und lecker ist, stellt mehr als nur ein Wort dar. „

Das Hinzufügen neuer Sprachen zum trainierten Modell ist mit der „Vergessensmethode“ sehr effizient. Allerdings ist noch eine Umschulung erforderlich, die immer noch enorm ist Daten und leistungsstarke Rechenleistung. Gibt es einen besseren Weg? Natürlich ist kein Training erforderlich. Löschen Sie einfach die Einbettungsschicht und trainieren Sie dann erneut, dh setzen Sie die Einbettungsschicht während des ersten Trainings regelmäßig zurück.

Artetxe sagte: „Auf diese Weise kann sich das gesamte Modell an den Reset anpassen. Wenn Sie das Modell erweitern und an eine andere Sprache anpassen möchten, wird der Prozess einfacher.“

Vergessene Modelle leisten besser

Die Forscher experimentierte mit Roberta, einem relativ allgemeinen großen Sprachmodell, das mit periodischen Vergessenstechniken trainiert wurde, und verglich es mit Modellen, die mit Standardmethoden ohne Vergessen trainiert wurden. Die Ergebnisse zeigten, dass das Vergessensmodell bei der Verarbeitung der Erstsprache 85,1 Punkte und das traditionelle Standardmodell 86,1 Punkte erzielte. Beim Training in der zweiten Sprache, bei dem nur etwa 5 Millionen Token verwendet wurden (in der ersten Sprache wurden 70 Milliarden verwendet), sank die Genauigkeitsbewertung des Vergessensmodells auf 62,7 Punkte und die des Standardmodells auf 53,3 Punkte.

Wenn Forscher beim Umschulen rechnerische Einschränkungen auferlegen, wird das Vergessensmodell eine bessere Leistung erbringen. Als die Forscher beispielsweise die Trainingslänge von 125.000 Schritten auf 5.000 Schritte verkürzten, lag die durchschnittliche Punktzahl des Verlernmodells bei etwa 57,8 Punkten, während die des Standardmodells auf 37,2 Punkte sank, fast eine Vermutung.

Daher kamen die Forscher zu dem Schluss, dass das Vergessensmodell beim Sprachenlernen besser funktioniert.

Evgenii Nikishin, Forscher am Quebec Deep Learning Research Center Mila, glaubt: „Da das Modell während des Trainings ständig vergisst und dann neu lernt, wird es später einfacher, dem Netzwerk etwas Neues beizubringen.“ Verschiedene Anzeichen zeigen, dass die Modelle verstehen Sprache auf einer tieferen Ebene als nur die Bedeutung einzelner Wörter.

Die Methode des Vergessens ähnelt in gewisser Weise der Funktionsweise des menschlichen Gehirns. Benjamin Levy, ein Neurowissenschaftler an der Universität von San Francisco, glaubt: „Das menschliche Gedächtnis ist ziemlich ungenau, wenn es darum geht, große Mengen detaillierter Informationen zu speichern. Aber das menschliche Gehirn kann sich an die Schlüsselpunkte einer Erfahrung erinnern, sich abstrakte Informationen merken und ist gut darin, Schlussfolgerungen zu ziehen.“ Lassen Sie die KI Informationen wie Menschen verarbeiten, z. B. sie hat die Fähigkeit zu vergessen, und die KI könnte flexibler sein. „

Yihong Chen glaubt, dass in Zukunft Fabriken entstehen könnten, die Sprachmodelle herstellen Basismodell, das sich schnell an neue Bereiche anpassen lässt. (Messer)

Das obige ist der detaillierte Inhalt vonWird das Lernen des Vergessens in Bezug auf das menschliche Gehirn große KI-Modelle besser machen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：CEAI 2024-Sonderforum |. Verkörperte Intelligenz, angetrieben durch Wissen und Daten |Nächster Artikel：CEAI 2024-Sonderforum |. Verkörperte Intelligenz, angetrieben durch Wissen und Daten |

In Verbindung stehende Artikel

Mehr sehen