Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode-KI-php.cn

Heim

Technologie-Peripheriegeräte

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

王林

Apr 09, 2023 pm 08:31 PM

代码deepmind

Transformer wurde 2017 geboren und von Google in der Veröffentlichung „Attention is all you need“ vorgestellt. In diesem Artikel wird auf CNN und RNN verzichtet, die in früheren Deep-Learning-Aufgaben verwendet wurden. Diese bahnbrechende Forschung hat die bisherige Idee, Sequenzmodellierung und RNN gleichzusetzen, auf den Kopf gestellt und wird heute häufig im NLP verwendet. Die beliebten GPT, BERT usw. basieren alle auf Transformer.

Transformer Seit seiner Einführung haben Forscher viele Variationen vorgeschlagen. Aber alle Beschreibungen von Transformer scheinen die Architektur in verbaler Form, grafischen Erklärungen usw. vorzustellen. Für Pseudocode-Beschreibungen von Transformer sind nur sehr wenige Informationen verfügbar.

Wie in der folgenden Passage ausgedrückt: Ein sehr berühmter Forscher auf dem Gebiet der KI schickte einmal einen Artikel, den er für sehr gut geschrieben hielt, an einen berühmten Komplexitätstheoretiker. Und die Antwort des Theoretikers lautet: Ich kann in der Arbeit keinen Satz finden, ich weiß nicht, worum es in der Arbeit geht.

Für Praktiker sind die Arbeiten vielleicht detailliert genug, aber Theoretiker verlangen in der Regel mehr Präzision. Aus irgendeinem Grund scheint die DL-Community nicht bereit zu sein, Pseudocode für ihre neuronalen Netzwerkmodelle bereitzustellen.

Derzeit scheint es, dass die DL-Community folgende Probleme hat:

DL-Veröffentlichungen mangelt es an wissenschaftlicher Genauigkeit und Detailliertheit. Deep Learning hat in den letzten 5 bis 10 Jahren große Erfolge erzielt und jedes Jahr Tausende von Artikeln veröffentlicht. Viele Forscher beschreiben nur informell, wie sie frühere Modelle modifiziert haben, wobei Arbeiten mit über 100 Seiten nur wenige Zeilen informeller Modellbeschreibungen enthalten. Bestenfalls einige High-Level-Diagramme, kein Pseudocode, keine Gleichungen, keine Erwähnung einer genauen Interpretation des Modells. Niemand stellt Pseudocode für den berühmten Transformer und seine Encoder/Decoder-Varianten zur Verfügung.

Quellcode und Pseudocode. Open-Source-Quellcode ist sehr nützlich, aber im Vergleich zu den Tausenden von Zeilen echten Quellcodes ist gut gestalteter Pseudocode normalerweise weniger als eine Seite lang und dennoch im Wesentlichen vollständig. Es schien harte Arbeit zu sein, die niemand machen wollte.

Es ist ebenso wichtig, den Trainingsprozess zu erklären, aber manchmal wird in der Arbeit nicht einmal erwähnt, was die Ein- und Ausgänge des Modells sind und welche möglichen Nebenwirkungen es gibt. Experimentelle Abschnitte in Aufsätzen erklären oft nicht, was und wie in den Algorithmus eingespeist wird. Wenn der Abschnitt „Methoden“ einige Erklärungen enthält, ist er oft von dem, was im Abschnitt „Experimentelles“ beschrieben wird, getrennt, wahrscheinlich weil verschiedene Autoren unterschiedliche Abschnitte geschrieben haben.

Manche Leute fragen sich vielleicht: Wird Pseudocode wirklich benötigt?

Forscher von DeepMind glauben, dass die Bereitstellung von Pseudocode viele Vorteile hat, verglichen mit dem Lesen eines Artikels oder dem Scrollen durch 1000 Zeilen tatsächlichen Codes. Pseudocode fasst alle wichtigen Inhalte auf einer Seite zusammen und erleichtert so die Entwicklung neuer Varianten. Zu diesem Zweck haben sie kürzlich einen Artikel „Formal Algorithms for Transformers“ veröffentlicht, der die Transformer-Architektur vollständig und mathematisch korrekt beschreibt.

Einführung in den Artikel

Dieser Artikel behandelt, was Transformer ist, wie Transformer trainiert wird, wofür Transformer verwendet wird, die wichtigsten Architekturkomponenten von Transformer und eine Vorschau auf die bekannteren Modelle.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Papieradresse: https://arxiv.org/pdf/2207.09238.pdf

Um diesen Artikel lesen zu können, müssen die Leser jedoch mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen vertraut sein (wie MLPs) ). Wenn die Leser den Inhalt des Artikels verstanden haben, verfügen sie über ein solides Verständnis von Transformer und können Pseudocode verwenden, um ihre eigenen Transformer-Varianten zu implementieren.

Der Hauptteil dieses Dokuments ist Kapitel 3-8, in dem Transformer und seine typischen Aufgaben, die Tokenisierung, die architektonische Zusammensetzung von Transformer, Transformer-Schulung und -Inferenz sowie praktische Anwendungen vorgestellt werden.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Der im Wesentlichen vollständige Pseudocode im Papier umfasst etwa 50 Zeilen, während der tatsächliche echte Quellcode Tausende von Zeilen umfasst. Der Pseudocode, der den Algorithmus in der Arbeit beschreibt, eignet sich für theoretische Forscher, die kompakte, vollständige und genaue Formeln benötigen, für experimentelle Forscher, die Transformer von Grund auf implementieren, und ist auch nützlich, um Arbeiten oder Lehrbücher mit dem formalen Transformer-Algorithmus zu erweitern.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Pseudocode-Beispiele im Artikel

Für Anfänger, die mit der grundlegenden ML-Terminologie und einfachen neuronalen Netzwerkarchitekturen (wie MLP) vertraut sind, hilft Ihnen dieser Artikel dabei, eine solide Grundlage für Transformer zu erlernen und zu verwenden Pseudocode-Vorlagen zur Implementierung Ihres eigenen Transformer-Modells.

Vorstellung des Autors

Die erste Autorin dieses Artikels ist Mary Phuong, eine Forscherin, die im März dieses Jahres offiziell zu DeepMind kam. Sie schloss ihr Studium am Österreichischen Institut für Wissenschaft und Technologie mit einem Doktortitel ab und beschäftigte sich hauptsächlich mit theoretischer Forschung zum maschinellen Lernen.

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Ein weiterer Autor des Papiers ist Marcus Hutter, leitender Forscher bei DeepMind und Honorarprofessor am Research Institute of Computer Science (RSCS) der Australian National University (ANU).

Der neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode

Marcus Hutter beschäftigt sich seit vielen Jahren mit der Forschung zur mathematischen Theorie der Künstlichen Intelligenz. Dieser Forschungsbereich basiert auf mehreren mathematischen und computerwissenschaftlichen Konzepten, darunter Reinforcement Learning, Wahrscheinlichkeitstheorie, algorithmische Informationstheorie, Optimierung, Suche und Computertheorie. Sein Buch „General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability“ wurde 2005 veröffentlicht und ist ein sehr technisches und mathematisches Buch.

Im Jahr 2002 schlug Marcus Hutter zusammen mit Jürgen Schmidhuber und Shane Legg die mathematische Theorie der künstlichen Intelligenz AIXI vor, die auf idealisierten Agenten und Belohnungsverstärkungslernen basiert. Im Jahr 2009 schlug Marcus Hutter die Feature-Reinforcement-Learning-Theorie vor.

Das obige ist der detaillierte Inhalt vonDer neue Artikel von DeepMind wurde von Grund auf neu entwickelt und erklärt Transformer ausführlich mit Pseudocode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.