Überblick über die Prinzipien der Transformatortechnologie-KI-php.cn

Heim

Technologie-Peripheriegeräte

Überblick über die Prinzipien der Transformatortechnologie

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 pm 05:03 PM

人工智能

Überblick über die Prinzipien der Transformatortechnologie

1. Vorwort

AIGC (AI-Generated Content) hat sich in letzter Zeit rasant entwickelt und ist nicht nur bei Verbrauchern gefragt, sondern erregt auch Aufmerksamkeit in Technologie- und Branchenkreisen. Am 23. September 2022 veröffentlichte Sequoia America einen Artikel mit dem Titel „Generative AI: A Creative New World“ und glaubte, dass AIGC den Beginn einer neuen Runde des Paradigmenwechsels darstellen wird. Im Oktober 2022 veröffentlichte Stability AI das Open-Source-Modell Stable Diffusion, das automatisch Bilder basierend auf von Benutzern eingegebenen Textbeschreibungen (sogenannten Eingabeaufforderungen) generieren kann, nämlich Text-to-Image, DALL-E 2, Midjourney, Wenxin Yige und andere AIGC-Modelle, die Bilder erzeugen können, haben den Bereich der KI-Malerei zum Durchbruch gebracht. KI-Malerei ist populär geworden und markiert das Eindringen künstlicher Intelligenz in den Kunstbereich. Das Bild unten zeigt die Arbeit zum Thema „Future Mecha“, die von Baidus „Wenxin Yige“-Plattform erstellt wurde.

Überblick über die Prinzipien der Transformatortechnologie

Abbildung 1 KI-Gemälde erstellt von Baidus „Wenxin Yige“-Plattform

Die rasante Entwicklung des AIGC-Bereichs ist untrennbar mit dem Fortschritt tiefer neuronaler Netze verbunden. Insbesondere verleiht das Aufkommen des Transformationsmodells dem neuronalen Netzwerk leistungsfähigere globale Rechenfunktionen, reduziert den Zeitaufwand für das Netzwerktraining und verbessert die Leistung des Netzwerkmodells. Die aktuellen AIGC-Domänenmodelle, die relativ gut funktionieren, umfassen Aufmerksamkeits- und Transformationstechnologien in ihrer zugrunde liegenden technischen Architektur. 2. Entwicklungsgeschichte Im Jahr 2006 verwendeten Hinton et al. ein einschichtiges RBM-Autoencoding-Vortraining, um ein tiefes neuronales Netzwerktraining zu realisieren. Im Jahr 2012 erreichte das von Hinton und Alex Krizhevsky entwickelte neuronale Netzwerkmodell AlexNet die Bilderkennung und -klassifizierung und wurde zu einem neuen Modell Runde Der Ausgangspunkt für die Entwicklung der Künstlichen Intelligenz. Das derzeit beliebte tiefe neuronale Netzwerk basiert auf den Konzepten biologischer neuronaler Netzwerke. In biologischen neuronalen Netzen übertragen biologische Neuronen empfangene Informationen Schicht für Schicht, und die Informationen von mehreren Neuronen werden aggregiert, um das Endergebnis zu erhalten. Mathematische Modelle, die mithilfe logischer neuronaler Einheiten erstellt werden, die analog zu biologischen neuronalen Einheiten gestaltet sind, werden als künstliche neuronale Netze bezeichnet. In künstlichen neuronalen Netzen werden logische neuronale Einheiten verwendet, um die verborgene Beziehung zwischen Eingabedaten und Ausgabedaten zu untersuchen. Wenn die Datenmenge gering ist, können flache neuronale Netze die Anforderungen einiger Aufgaben erfüllen Zunehmende, expandierende, tiefe neuronale Netze beginnen, ihre einzigartigen Vorteile zu zeigen.

2.2 Aufmerksamkeitsmechanismus

Der Aufmerksamkeitsmechanismus wurde 2014 vom Bengio-Team vorgeschlagen und wurde in den letzten Jahren häufig in verschiedenen Bereichen des Deep Learning eingesetzt, beispielsweise im Computer Vision zur Aufnahme von Bildern um wichtige Token oder Funktionen im NLP zu finden. Eine große Anzahl von Experimenten hat gezeigt, dass Modelle mit Aufmerksamkeitsmechanismen erhebliche Verbesserungen bei der Bildklassifizierung, Segmentierung, Verfolgung, Verbesserung sowie beim Erkennen, Verstehen, Beantworten und Übersetzen natürlicher Sprache erzielt haben. Der Aufmerksamkeitsmechanismus ist dem visuellen Aufmerksamkeitsmechanismus nachempfunden. Der visuelle Aufmerksamkeitsmechanismus ist eine angeborene Fähigkeit des menschlichen Gehirns. Wenn wir ein Bild sehen, scannen wir zunächst schnell das Bild und fokussieren uns dann auf den Zielbereich, auf den fokussiert werden muss. Wenn wir beispielsweise die folgenden Bilder betrachten, fällt unsere Aufmerksamkeit leicht auf das Gesicht des Babys, den Titel des Artikels und den ersten Satz des Artikels. Stellen Sie sich vor, wenn nicht jede lokale Information losgelassen wird, wird viel Energie verbraucht, was dem Überleben und der Entwicklung des Menschen nicht förderlich ist. Ebenso kann die Einführung ähnlicher Mechanismen in Deep-Learning-Netzwerke Modelle vereinfachen und Berechnungen beschleunigen. Im Wesentlichen besteht Aufmerksamkeit darin, aus einer großen Informationsmenge eine kleine Menge wichtiger Informationen herauszufiltern und sich auf diese wichtigen Informationen zu konzentrieren, während die meisten unwichtigen Informationen ignoriert werden.

Abbildung 2 Schematische Darstellung des menschlichen Aufmerksamkeitsmechanismus

3. Technische Details

Überblick über die Prinzipien der Transformatortechnologie

Das intelligente Transformer-Modell verzichtet auf die traditionellen CNN- und RNN-Einheiten und die gesamte Netzwerkstruktur besteht vollständig aus Aufmerksamkeitsmechanismen. In diesem Kapitel stellen wir zunächst den Gesamtprozess des Transformer-Modells vor und stellen dann die damit verbundenen Positionskodierungsinformationen und Selbstaufmerksamkeitsberechnungen im Detail vor.

3.1 Übersicht über den Prozess

# 🎜 ## oben Wie in der Abbildung gezeigt, besteht Transformer aus zwei Teilen: Encoder-Modul und Decoder-Modul. Sowohl Encoder als auch Decoder enthalten N Blöcke. Am Beispiel der Übersetzungsaufgabe sieht der Workflow von Transformer ungefähr wie folgt aus:

Überblick über die Prinzipien der Transformatortechnologie Schritt 1: Erhalten Sie den Darstellungsvektor X jedes Wortes des Eingabesatzes.

Schritt 2: Übergeben Sie die erhaltene Wortdarstellungsvektormatrix an das Encoder-Modul. Das Encoder-Modul verwendet die Attention-Methode, um die Eingabedaten zu berechnen. Nach N Encoder-Modulen kann die Codierungsinformationsmatrix aller Wörter im Satz abgerufen werden. Die von jedem Encoder-Modul ausgegebenen Matrixdimensionen sind genau die gleichen wie die Eingabe.

Der dritte Schritt: Übergeben Sie die vom Encoder-Modul ausgegebene Codierungsinformationsmatrix an das Decoder-Modul, und der Decoder übersetzt das nächste Wort i + 1 basierend auf dem aktuell übersetzten Wort i. Wie die Encoder-Struktur verwendet auch die Decoder-Struktur die Attention-Methode zur Berechnung. Während der Verwendung müssen Sie beim Übersetzen in das Wort i+1 die Maskenoperation verwenden, um die Wörter nach i+1 abzudecken.

3.2 Selbstaufmerksamkeitsberechnung

Der Kern des Transform-Modells ist die Aufmerksamkeitsberechnung, die sein kann berechnet durch die Formel Dargestellt als

wobei Q, K und V jeweils Abfrage, Schlüssel und Wert darstellen. Diese drei Konzepte sind Aus dem Informationsabrufsystem nehmen wir ein einfaches Suchbeispiel. Wenn Sie auf einer E-Commerce-Plattform nach einem Produkt suchen, geben Sie in die Suchmaschine den Inhalt einer Suchanfrage ein, und die Suchmaschine gleicht dann den Schlüssel für Sie basierend auf der Suchanfrage ab (z. B. Typ, Farbe, Beschreibung usw.). ) des Produkts und erhält dann basierend auf der Abfrage und der Ähnlichkeit des Schlüssels den passenden Inhalt (Wert). Q, K, V in der Selbstaufmerksamkeit spielen ebenfalls eine ähnliche Rolle. Bei Matrixberechnungen ist das Skalarprodukt eine der Methoden zur Berechnung der Ähnlichkeit zweier Matrizen, daher wird die obige Formel verwendet Die Matrix wird mit der Transponierten der K-Matrix multipliziert, um die Ähnlichkeit zu berechnen. Um zu verhindern, dass das innere Produkt zu groß wird, muss es durch die Quadratwurzel von d geteilt werden und schließlich wird eine Softmax-Aktivierungsfunktion auf das Ergebnis angewendet.

3.3 Positionskodierung

Überblick über die Prinzipien der Transformatortechnologie

Zusätzlich zur Einbettung des Wortes selbst muss der Transformer dies auch tun Verwenden Sie die Positionseinbettung, um die Wortposition im Satz darzustellen. Da Transformer nicht die Struktur von RNN, sondern globale Informationen verwendet, kann er die Reihenfolgeinformationen von Wörtern nicht verwenden, und dieser Teil der Informationen ist für NLP oder CV sehr wichtig. Daher wird Position Embedding in Transformer verwendet, um die relative oder absolute Position des Wortes in der Sequenz zu speichern.

Position Embedding wird durch PE dargestellt, und die Dimension von PE ist dieselbe wie die des Wortes Embedding. Der PE kann durch Training erlangt oder anhand einer bestimmten Formel berechnet werden. Letzteres wird in Transformer verwendet und die Berechnungsformel lautet wie folgt:

wobei pos die Position des darstellt Wort im Satz, d repräsentiert die Dimension von PE, seine Größe entspricht der Einbettung des Wortes selbst, 2i repräsentiert die gerade Dimension und 2i + 1 repräsentiert die ungerade Dimension.

4. Zusammenfassung

Der Fokus von Transformer liegt auf der Selbstaufmerksamkeitsstruktur. Durch die mehrdimensionale Aufmerksamkeitsstruktur kann das Netzwerk die verborgenen Beziehungen zwischen Wörtern in mehreren Dimensionen erfassen. Allerdings kann Transformer selbst die Reihenfolgeninformationen von Wörtern nicht verwenden, daher ist die Positionseinbettung erforderlich zur Eingabe hinzugefügt werden, um die Positionsinformationen von Wörtern zu speichern. Im Vergleich zum rekursiven neuronalen Netzwerk kann das Transformer-Netzwerk besser parallel trainiert werden. Im Vergleich zum Faltungs-Neuronalen Netzwerk nimmt die Anzahl der Operationen, die das Transformer-Netzwerk zur Berechnung der Zuordnung zwischen zwei Positionen benötigt, nicht mit der Entfernung zu, die unterbrochen werden kann Durch das Faltungs-Neuronale Netzwerk ist die berechnete Entfernung auf die Größe des Empfangsfeldes begrenzt. Gleichzeitig kann das Transformer-Netzwerk besser interpretierbare Modelle erzeugen. Wir können die Aufmerksamkeitsverteilung anhand des Modells untersuchen und jeder Aufmerksamkeitskopf kann lernen, unterschiedliche Aufgaben auszuführen.

Das obige ist der detaillierte Inhalt vonÜberblick über die Prinzipien der Transformatortechnologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die verborgenen Gefahren des internen Einsatzes der KI: Governance -Lücken und katastrophale RisikenApr 28, 2025 am 11:12 AM

Laut einem neuen Bericht der Apollo Research stellt die nicht kontrollierte interne Bereitstellung fortschrittlicher KI -Systeme erhebliche Risiken dar. Dieser mangelnde Aufsicht, der bei großen KI -Unternehmen weit verbreitet ist

Bauen des AI PolygraphenApr 28, 2025 am 11:11 AM

Traditionelle Lügendetektoren sind veraltet. Wenn man sich auf den vom Armband verbundenen Zeiger stützt, ist ein Lügendetektor, der die lebenswichtigen Anzeichen und physikalischen Reaktionen des Probanden ausdruckt, bei der Identifizierung von Lügen nicht genau. Aus diesem Grund werden die Erkennungsergebnisse normalerweise nicht vom Gericht verabschiedet, obwohl es dazu geführt hat, dass viele unschuldige Menschen inhaftiert wurden. Im Gegensatz dazu ist künstliche Intelligenz eine leistungsstarke Datenmotor, und ihr Arbeitsprinzip besteht darin, alle Aspekte zu beobachten. Dies bedeutet, dass Wissenschaftler künstliche Intelligenz auf Anwendungen anwenden können, die auf verschiedene Weise Wahrheit suchen. Ein Ansatz besteht darin, die Vitalzeichenreaktionen der Person zu analysieren, die wie ein Lügendetektor befragt wird, jedoch mit einer detaillierteren und präziseren vergleichenden Analyse. Ein anderer Ansatz ist die Verwendung von Sprachmarkup, um zu analysieren, was Menschen tatsächlich sagen und Logik und Argumentation verwenden. Wie das Sprichwort sagt, züchtet eine Lüge eine andere Lüge und schließlich

Wird die KI für den Start in der Luft- und Raumfahrtindustrie geklärt?Apr 28, 2025 am 11:10 AM

Die Luft- und Raumfahrtindustrie, ein Pionier der Innovation, nutzt KI, um ihre komplizierten Herausforderungen zu bewältigen. Die zunehmende Komplexität der Modern Aviation erfordert die Automatisierung und Echtzeit-Intelligenzfunktionen von KI für verbesserte Sicherheit, reduzierter Oper

Beobachten Sie das Frühling -Roboter -Rennen von PekingApr 28, 2025 am 11:09 AM

Die schnelle Entwicklung der Robotik hat uns eine faszinierende Fallstudie gebracht. Der N2 -Roboter von Noetix wiegt über 40 Pfund und ist 3 Fuß groß und soll in der Lage sein, sich zurückzufassen. Der G1 -Roboter von Unitree wiegt etwa doppelt so groß wie der N2 und ist etwa 4 Fuß hoch. Es gibt auch viele kleinere humanoide Roboter, die am Wettbewerb teilnehmen, und es gibt sogar einen Roboter, der von einem Fan vorangetrieben wird. Dateninterpretation Der Halbmarathon zog mehr als 12.000 Zuschauer an, aber nur 21 humanoide Roboter nahmen teil. Obwohl die Regierung darauf hinwies, dass die teilnehmenden Roboter vor dem Wettbewerb eine "intensive Ausbildung" durchführten, haben nicht alle Roboter den gesamten Wettbewerb abgeschlossen. Champion - Tiangong ult entwickelt vom Peking Humanoiden Roboter Innovation Center

Die Spiegelfalle: AI -Ethik und der Zusammenbruch der menschlichen VorstellungskraftApr 28, 2025 am 11:08 AM

Künstliche Intelligenz in ihrer aktuellen Form ist nicht wirklich intelligent. Es ist geschickt darin, vorhandene Daten nachzuahmen und zu verfeinern. Wir schaffen keine künstliche Intelligenz, sondern künstliche Schluss

Neues Google Leak enthüllt praktische Google -Fotos -Funktionen UpdateApr 28, 2025 am 11:07 AM

In einem Bericht wurde festgestellt, dass eine aktualisierte Schnittstelle im Code für Google Photos Android Version 7.26 versteckt wurde. Bei jedem Anzeigen eines Fotos werden am unteren Bildschirmrand eine Reihe neu erkannter Vorschaubildesansichten angezeigt. In den neuen Miniaturansichten des Gesichts fehlen Namensschilds. Ich vermute daher, dass Sie einzeln auf sie klicken müssen, um weitere Informationen zu jeder erkannten Person anzuzeigen. Im Moment bietet diese Funktion keine anderen Informationen als diejenigen, die Google Photos in Ihren Bildern gefunden haben. Diese Funktion ist noch nicht verfügbar, daher wissen wir nicht, wie Google sie genau verwendet. Google kann Miniaturansichten verwenden, um mehr Fotos von ausgewählten Personen zu finden, oder kann für andere Zwecke verwendet werden, z. B. für die Bearbeitung der Person. Lassen Sie uns warten und sehen. Wie vorerst

Leitfaden zur Verstärkungsfonetuning - Analytics VidhyaApr 28, 2025 am 09:30 AM

Die Verstärkungsfonetuning hat die KI -Entwicklung erschüttert, indem sie Modelle unterrichten, um sich auf der Grundlage des menschlichen Feedbacks anzupassen. Es mischt beaufsichtigte Lernfundamente mit belohnungsbasierten Updates, um sie sicherer, genauerer und wirklich hilfreicher zu machen

Lassen Sie uns tanzen: Strukturierte Bewegung, um unsere menschlichen neuronalen Netze zu optimierenApr 27, 2025 am 11:09 AM

Wissenschaftler haben ausführlich menschliche und einfachere neuronale Netzwerke (wie die in C. elegans) untersucht, um ihre Funktionalität zu verstehen. Es stellt sich jedoch eine entscheidende Frage: Wie passen wir unsere eigenen neuronalen Netze an, um neben neuartigen Ai S effektiv zu arbeiten

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Monate vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

1 Monate vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

3 Wochen vorByDDD

Heiße Werkzeuge

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software