Heim >Technologie-Peripheriegeräte >KI >Entdecken Sie eine neue Generation kleiner Modelle, die über GPT 3.5 hinausgehen.

Entdecken Sie eine neue Generation kleiner Modelle, die über GPT 3.5 hinausgehen.

PHPz
PHPznach vorne
2023-04-27 11:43:071599Durchsuche

Ende letzten Jahres stellte OpenAI ChatGPT der Öffentlichkeit vor. Nach seiner Veröffentlichung rückten KI-gesteuerte Chatbots sofort in den Mittelpunkt des Mainstream-Diskurses. Viele Forscher starteten Diskussionsrunden darüber, wie sie Unternehmen, Bildung usw. verändern können . Eine Diskussionsrunde.

Anschließend folgten Technologieriesen diesem Beispiel und investierten in wissenschaftliche Forschungsteams, und auch ihre sogenannte „generative KI“-Technologie (Technologie, die Dialogtexte, Grafiken usw. erzeugen kann) war bereit.

Wie wir alle wissen, basiert ChatGPT auf der Grundlage der GPT-3.5-Modellreihe. Im Vergleich zu ChatGPT sind die neuen Forschungsergebnisse jedoch sehr gut ? Kürzlich schlugen sie in einem von Amazon veröffentlichten Artikel „Multimodal Chain-of-Thought Reasoning in Language Models“ vor, dass diese Architektur im ScienceQA-Benchmark gut abschneidet, wenn die Anzahl der Parameter weniger als 1 Milliarde beträgt. 16 Prozentpunkte höher als GPT-3,5 (75,17 % → 91,68 %) und übertrifft sogar viele Menschen.

Hier ist eine kurze Einführung in den ScienceQA-Benchmark. Es handelt sich um den ersten multimodalen wissenschaftlichen Frage- und Antwortdatensatz mit detaillierten Erläuterungen. Er wurde hauptsächlich von der UCLA vorgeschlagen Wird zum Testen der Multimodalität des Modells verwendet. Die Fähigkeit zum dynamischen Denken weist eine sehr reiche Feldvielfalt auf, die die Bereiche Naturwissenschaften, Sprachwissenschaft und Sozialwissenschaften abdeckt, und stellt hohe Anforderungen an die Fähigkeit zum logischen Denken des Modells.

超越GPT 3.5的小模型来了!

Papieradresse: https://arxiv.org/abs/2302.00923

Projektadresse: https://github.com/amazon-science/mm-cot

Werfen wir einen Blick darauf, wie das Sprachmodell von Amazon GPT-3.5 übertrifft.

Multimodal-CoT einschließlich visueller Funktionen

Das Large Language Model (LLM) eignet sich gut für komplexe Argumentationsaufgaben, was untrennbar mit der Unterstützung von Chain of Thought (CoT)-Eingabeaufforderungen verbunden ist. Die bestehende CoT-Forschung konzentriert sich jedoch nur auf Sprachmodalitäten. Um eine CoT-Inferenz in Multimodalität auszulösen, besteht eine mögliche Lösung in der Feinabstimmung eines kleinen Sprachmodells, um eine CoT-Inferenz durch die Verschmelzung visueller und sprachlicher Merkmale durchzuführen.

Es wurde jedoch beobachtet, dass kleine Models häufiger Dinge erfinden als große Models. Dieses Verhalten von Models wird oft als „Halluzination“ bezeichnet. Eine frühere Google-Studie hat auch gezeigt (Papier „Chain-of-Thought Prompting Elicits Reasoning in Large Language Models“), dass CoT-basierte Eingabeaufforderungen nur dann nützlich sind, wenn das Modell mindestens 100 Milliarden Parameter hat!

Das heißt, CoT-Hinweise haben keinen positiven Einfluss auf die Leistung kleiner Modelle und führen nur zu Leistungssteigerungen, wenn sie mit Modellen mit ∼100B-Parametern verwendet werden.

In diesem Artikel wird jedoch die Leistungsverbesserung mit weniger als 1 Milliarde Parametern untersucht. Vereinfacht ausgedrückt schlägt dieses Papier ein multimodales CoT vor, das visuelle Merkmale enthält, und verwendet dieses Paradigma (multimodales CoT), um CoT-Argumentation in mehreren Modalitäten zu finden.

Multimodal-CoT kombiniert visuelle Funktionen in einem einzigen Trainingsrahmen, um die Auswirkungen von Sprachmodellen zu reduzieren, die dazu neigen, illusorische Argumentationsmuster zu erzeugen. Insgesamt unterteilt dieses Framework den Argumentationsprozess in zwei Teile: Begründungsgenerierung (Gründe finden) und Antwortbegründung (Antworten finden).

超越GPT 3.5的小模型来了!

Multimodaler CoT Zweistufiger Prozess: Verwenden Sie Text (Frage + Kontext) und visuelle Funktionen, um eine logische Begründung zu generieren.

Datensatz

Dieser Artikel konzentriert sich auf den ScienceQA-Datensatz, der Bilder und Text als Teil des Kontexts enthält. Darüber hinaus enthält der Datensatz auch Erläuterungen zu den Antworten, damit das Modell in Ordnung sein kann -Abgestimmt, um CoT-Begründung zu generieren. Darüber hinaus nutzt dieser Artikel das DETR-Modell, um visuelle Merkmale zu generieren.

Kleinere LMs neigen bei der Generierung von CoT/Grundprinzipien zu Halluzinationen. Der Autor spekuliert, dass das Modell bei einer modifizierten Architektur die vom LM generierten Textfunktionen und die von der generierten visuellen Funktionen nutzen kann Bildmodell, Dann können Sie besser begründen und Fragen beantworten.

Architektur

Generell brauchen wir eine Architektur, die das kann Modelle, die Text- und visuelle Funktionen generieren und diese zur Generierung von Textantworten verwenden.

Es ist auch bekannt, dass es eine gewisse Interaktion zwischen Text und visuellen Merkmalen gibt, bei der es sich im Wesentlichen um eine Art gemeinsamen Aufmerksamkeitsmechanismus handelt, der dabei hilft, die Informationen der beiden Modalitäten zu kapseln Das, was in ihnen vorhanden ist, ermöglicht es, auf Ideen zurückzugreifen. Um all dies zu erreichen, wählten die Autoren das T5-Modell, das über eine Encoder-Decoder-Architektur verfügt, und wie oben erwähnt, wird das DETR-Modell zur Generierung visueller Funktionen verwendet.

Der Encoder des T5-Modells ist für die Generierung von Textfunktionen verantwortlich, der Decoder des T5-Modells nutzt jedoch nicht die vom Encoder generierten Textfunktionen, sondern die Vom Autor vorgeschlagene gemeinsame Aufmerksamkeit Die Ausgabe der Interaktionsschicht im Co-Aufmerksamkeitsstil.

Demontage, vorausgesetzt, H_Sprache ist die Ausgabe des T5-Encoders. X_vision ist die Ausgabe von DETR. Der erste Schritt besteht darin, sicherzustellen, dass die visuellen Merkmale und die Textmerkmale dieselbe verborgene Größe haben, damit wir die Aufmerksamkeitsebene verwenden können.

Hinweis: Alle Codeausschnitte stammen vom GitHub des Artikels: https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)

W_h ist im Wesentlichen eine lineare Ebene und H_vision entspricht den endgültigen visuellen Merkmalen. W_h hilft dabei, die Größe der visuellen Merkmale an die Größe der Textmerkmale anzupassen.

Als nächstes müssen wir eine Aufmerksamkeitsebene hinzufügen, damit visuelle und textliche Funktionen miteinander interagieren können. Zu diesem Zweck verwenden die Autoren eine Single-Head-Aufmerksamkeitsschicht mit H_Language als Abfragevektor und H_Vision als Schlüssel- und Wertvektoren.

self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, 
kdim=config.hidden_size, vdim=config.hidden_size,
num_heads=1, batch_first=True)


image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)

Jetzt haben wir eine Einbettung, die Informationen aus Text- und visuellen Funktionen enthält. Anschließend nutzen die Autoren Gated Fusion, um einen endgültigen Satz von Funktionen zu generieren, die an den Decoder gesendet werden. Es gibt zwei Schritte zur Gated Fusion:

  1. Erhalten Sie einen Bewertungsvektor zwischen 0 und 1, um die Wichtigkeit jedes Aufmerksamkeitsmerkmalsgeschlechts zu bestimmen.
  2. Verwenden Sie Score, um Text- und Aufmerksamkeitsfunktionen zu verschmelzen. W_I und W_v sind im Wesentlichen zwei lineare Schichten.
  3. self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) 
    self.sigmoid = nn.Sigmoid()
    
    
    hidden_states = encoder_outputs[0]
    merge = torch.cat([hidden_states, image_att], dim=-1)
    gate = self.sigmoid(self.gate_dense(merge))
    hidden_states = (1 - gate) * hidden_states + gate * image_att

Zuletzt werden die fusionierten Features an den Decoder übergeben.

超越GPT 3.5的小模型来了!

decoder_outputs = self.decoder( input_ids=decoder_input_ids, 
attention_mask=decoder_attention_mask, 
inputs_embeds=decoder_inputs_embeds, 
past_key_values=past_key_values, 
encoder_hidden_states=hidden_states,

Das ist so ziemlich die Struktur, der der Autor folgt! Bedenken Sie jedoch, dass es zwei Phasen gibt. Der erste Schritt besteht darin, die Begründung/CoT zu generieren. Die zweite Stufe nutzt das in der ersten Stufe erstellte CoT, um die Antwort zu generieren, wie in der Abbildung oben dargestellt.

Ergebnisse

Die Autoren verwendeten die Gewichte des UnifiedQA-Modells als Initialisierungspunkt des T5-Modells und optimierten es auf ScienceQA Datensatz. Sie stellten fest, dass ihre multimodale CoT-Methode alle vorherigen Basislinien, einschließlich GPT-3.5, übertraf.

Das Interessante ist, dass selbst das Basismodell mit nur 223 Millionen Parametern GPT-3.5 und andere visuelle QA-Modelle übertrifft! Dies unterstreicht die Leistungsfähigkeit einer multimodalen Architektur.

Die Autoren zeigen auch, dass ihr zweistufiger Ansatz den einstufigen Ansatz übertrifft.

Fazit

Dieses Papier bringt das Größte Man kann daraus ablesen, wie leistungsfähig multimodale Funktionen sind, wenn es darum geht, Probleme sowohl mit visuellen als auch mit textlichen Merkmalen zu lösen.

超越GPT 3.5的小模型来了!Die Autoren zeigen, dass durch die Nutzung visueller Funktionen sogar ein kleines Sprachmodell (LM) sinnvolle Gedankenketten/Argumentation mit viel weniger Halluzinationen erzeugen kann, was die Rolle des Visuellen offenbart Modelle können bei der Entwicklung von Lerntechniken auf der Grundlage von Gedankenketten eine Rolle spielen.

Aus Experimenten sehen wir, dass das Hinzufügen visueller Funktionen auf Kosten von Millionen von Parametern einen größeren Mehrwert bringen kann als die Skalierung eines Klartextmodells auf Milliarden von Parametern.

Das obige ist der detaillierte Inhalt vonEntdecken Sie eine neue Generation kleiner Modelle, die über GPT 3.5 hinausgehen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen