Heim > Artikel > Technologie-Peripheriegeräte > Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode
Transformer wurde 2017 geboren und von Google in der Veröffentlichung „Attention is all you need“ vorgestellt. In diesem Artikel wird auf CNN und RNN verzichtet, die in früheren Deep-Learning-Aufgaben verwendet wurden. Diese bahnbrechende Forschung hat die bisherige Idee, Sequenzmodellierung und RNN gleichzusetzen, auf den Kopf gestellt und wird heute häufig im NLP verwendet. Die beliebten GPT, BERT usw. basieren alle auf Transformer.
Transformer Seit seiner Einführung haben Forscher viele Variationen vorgeschlagen. Aber alle Beschreibungen von Transformer scheinen die Architektur in verbaler Form, grafischen Erklärungen usw. vorzustellen. Für Pseudocode-Beschreibungen von Transformer sind nur sehr wenige Informationen verfügbar.
Wie in der folgenden Passage ausgedrückt: Ein sehr berühmter Forscher auf dem Gebiet der KI schickte einmal einen Artikel, den er für sehr gut geschrieben hielt, an einen berühmten Komplexitätstheoretiker. Und die Antwort des Theoretikers lautet: Ich kann in der Arbeit keinen Satz finden, ich weiß nicht, worum es in der Arbeit geht.
Für Praktiker sind die Arbeiten vielleicht detailliert genug, aber Theoretiker verlangen in der Regel mehr Präzision. Aus irgendeinem Grund scheint die DL-Community nicht bereit zu sein, Pseudocode für ihre neuronalen Netzwerkmodelle bereitzustellen.
Derzeit scheint es, dass die DL-Community folgende Probleme hat:
DL-Veröffentlichungen mangelt es an wissenschaftlicher Genauigkeit und Detailliertheit. Deep Learning hat in den letzten 5 bis 10 Jahren große Erfolge erzielt und jedes Jahr Tausende von Artikeln veröffentlicht. Viele Forscher beschreiben nur informell, wie sie frühere Modelle modifiziert haben, wobei Arbeiten mit über 100 Seiten nur wenige Zeilen informeller Modellbeschreibungen enthalten. Bestenfalls einige High-Level-Diagramme, kein Pseudocode, keine Gleichungen, keine Erwähnung einer genauen Interpretation des Modells. Niemand stellt Pseudocode für den berühmten Transformer und seine Encoder/Decoder-Varianten zur Verfügung.
Quellcode und Pseudocode. Open-Source-Quellcode ist sehr nützlich, aber im Vergleich zu den Tausenden von Zeilen echten Quellcodes ist gut gestalteter Pseudocode normalerweise weniger als eine Seite lang und dennoch im Wesentlichen vollständig. Es schien harte Arbeit zu sein, die niemand machen wollte.
Es ist ebenso wichtig, den Trainingsprozess zu erklären, aber manchmal wird in der Arbeit nicht einmal erwähnt, was die Ein- und Ausgänge des Modells sind und welche möglichen Nebenwirkungen es gibt. Experimentelle Abschnitte in Aufsätzen erklären oft nicht, was und wie in den Algorithmus eingespeist wird. Wenn der Abschnitt „Methoden“ einige Erklärungen enthält, ist er oft von dem, was im Abschnitt „Experimentelles“ beschrieben wird, getrennt, wahrscheinlich weil verschiedene Autoren unterschiedliche Abschnitte geschrieben haben.
Manche Leute fragen sich vielleicht: Wird Pseudocode wirklich benötigt?
Forscher von DeepMind glauben, dass die Bereitstellung von Pseudocode viele Vorteile hat, verglichen mit dem Lesen eines Artikels oder dem Scrollen durch 1000 Zeilen tatsächlichen Codes. Pseudocode fasst alle wichtigen Inhalte auf einer Seite zusammen und erleichtert so die Entwicklung neuer Varianten. Zu diesem Zweck haben sie kürzlich einen Artikel „Formal Algorithms for Transformers“ veröffentlicht, der die Transformer-Architektur vollständig und mathematisch korrekt beschreibt.
Dieser Artikel behandelt, was Transformer ist, wie Transformer trainiert wird, wofür Transformer verwendet wird, die wichtigsten Architekturkomponenten von Transformer und eine Vorschau auf die bekannteren Modelle.
Papieradresse: https://arxiv.org/pdf/2207.09238.pdf
Um diesen Artikel lesen zu können, müssen die Leser jedoch mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen vertraut sein (wie MLPs) ). Wenn die Leser den Inhalt des Artikels verstanden haben, verfügen sie über ein solides Verständnis von Transformer und können Pseudocode verwenden, um ihre eigenen Transformer-Varianten zu implementieren.
Der Hauptteil dieses Dokuments ist Kapitel 3-8, in dem Transformer und seine typischen Aufgaben, die Tokenisierung, die architektonische Zusammensetzung von Transformer, Transformer-Schulung und -Inferenz sowie praktische Anwendungen vorgestellt werden.
Der im Wesentlichen vollständige Pseudocode im Papier umfasst etwa 50 Zeilen, während der tatsächliche echte Quellcode Tausende von Zeilen umfasst. Der Pseudocode, der den Algorithmus in der Arbeit beschreibt, eignet sich für theoretische Forscher, die kompakte, vollständige und genaue Formeln benötigen, für experimentelle Forscher, die Transformer von Grund auf implementieren, und ist auch nützlich, um Arbeiten oder Lehrbücher mit dem formalen Transformer-Algorithmus zu erweitern.
Pseudocode-Beispiele im Artikel
Für Anfänger, die mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen (wie MLP) vertraut sind, hilft Ihnen dieser Artikel dabei, eine solide Grundlage für Transformer zu erlernen und zu verwenden Pseudocode-Vorlagen zur Implementierung Ihres eigenen Transformer-Modells.
Vorstellung des Autors
Die erste Autorin dieses Artikels ist Mary Phuong, eine Forscherin, die im März dieses Jahres offiziell zu DeepMind kam. Sie schloss ihr Studium am Österreichischen Institut für Wissenschaft und Technologie mit einem Doktortitel ab und beschäftigte sich hauptsächlich mit theoretischer Forschung zum maschinellen Lernen.
Ein weiterer Autor des Papiers ist Marcus Hutter, leitender Forscher bei DeepMind und Honorarprofessor am Research Institute of Computer Science (RSCS) der Australian National University (ANU).
Marcus Hutter beschäftigt sich seit vielen Jahren mit der Forschung zur mathematischen Theorie der Künstlichen Intelligenz. Dieser Forschungsbereich basiert auf mehreren mathematischen und computerwissenschaftlichen Konzepten, darunter Reinforcement Learning, Wahrscheinlichkeitstheorie, algorithmische Informationstheorie, Optimierung, Suche und Computertheorie. Sein Buch „General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability“ wurde 2005 veröffentlicht und ist ein sehr technisches und mathematisches Buch.
Im Jahr 2002 schlug Marcus Hutter zusammen mit Jürgen Schmidhuber und Shane Legg die mathematische Theorie der künstlichen Intelligenz AIXI vor, die auf idealisierten Agenten und Belohnungsverstärkungslernen basiert. Im Jahr 2009 schlug Marcus Hutter die Feature-Reinforcement-Learning-Theorie vor.
Das obige ist der detaillierte Inhalt vonDer neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!