Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Generatives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus

Generatives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus

王林
王林Original
2024-06-07 18:32:371046Durchsuche

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Wenn Sie mehr über AIGC erfahren möchten, besuchen Sie bitte:

51CTO AI scheint jeden Tag neue Bewertungen von (generativen) Systemen zu veröffentlichen, und viele davon konzentrieren sich auf die Abrufphase des Frameworks fraglich. Allerdings kann der generative Aspekt – wie das Modell diese abgerufenen Informationen synthetisiert und ausdrückt – in der Praxis ebenso wichtig sein. Viele praktische Anwendungsfälle beweisen, dass das System nicht nur Daten aus dem Kontext zurückgeben, sondern diese Informationen auch in eine komplexere Antwort umwandeln muss.

Zu diesem Zweck haben wir mehrere Experimente durchgeführt, um die Erzeugungsfähigkeiten von drei Modellen zu bewerten und zu vergleichen: GPT-4, Claude 2.1 und Claude 3 Opus. In diesem Artikel werden unsere Forschungsmethoden, Ergebnisse und Nuancen dieser Modelle, auf die wir unterwegs gestoßen sind, detailliert beschrieben und erläutert, warum diese für diejenigen wichtig sind, die mit generativer KI arbeiten.

Wenn interessierte Leser die Ergebnisse des obigen Experiments reproduzieren möchten, finden Sie alles, was für das Experiment benötigt wird, im GitHub-Repository (https://github.com/Arize-ai/LLMTest_NeedleInAHaystack).

Zusätzliche Hinweise

Obwohl erste Ergebnisse darauf hindeuteten, dass Claude GPT-4 übertraf, zeigten spätere Tests, dass GPT-4 mit dem Aufkommen strategischer Prompt-Engineering-Techniken eine breitere Palette von Bewertungsleistungen übertraf. Kurz gesagt, es gibt immer noch viele Probleme im Modellverhalten und in der prompten Technik, die dem RAG-System innewohnen.

Die Leistung von GPT-4 wird erheblich (mehr als doppelt so hoch) verbessert, indem einfach „Bitte erklären Sie sich selbst und beantworten Sie dann die Frage“ zur Eingabeaufforderungsvorlage hinzugefügt wird. Es ist klar, dass die Antwort von LLM dabei zu helfen scheint, die Idee weiterzuentwickeln. Durch Interpretation ist es dem Modell möglich, die richtige Antwort im Einbettungs-/Aufmerksamkeitsraum erneut auszuführen. „Wichtigkeit der Rag-Phase und Generation“ Phase, die diese Rohdaten erhält und sie in kohärente, aussagekräftige und kontextbezogene Antworten umwandelt. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. In der Generierungsphase werden leere Informationen ausgefüllt, um eine vollständige und verständliche Interpretation der relevanten Informationen zu erreichen. Gleichzeitig können Benutzer bei Bedarf relevante Informationen abfragen. Durch die Verarbeitung in der Generierungsphase wird durch das Ausfüllen der leeren Informationen das endgültige generierte Ergebnis vollständiger und leichter verständlich. Dies bietet eine Möglichkeit, relevante Informationen zu verstehen und abzufragen und hilft Benutzern, tiefer zu forschen und zu recherchieren.

In vielen realen Anwendungen liegt der Wert von RAG-Systemen nicht nur in ihrer Fähigkeit, bestimmte Fakten oder Informationen zu lokalisieren, sondern auch in ihrer Fähigkeit, Informationen in einen breiteren Rahmen zu integrieren und zu kontextualisieren. Die Generierungsphase ermöglicht es RAG-Systemen, über das einfache Abrufen von Fakten hinauszugehen und wirklich intelligente und adaptive Antworten bereitzustellen.
  • Test #1: Datumszuordnung
  • Der erste Test, den wir durchgeführt haben, bestand darin, eine Datumszeichenfolge aus zwei zufällig abgerufenen Zahlen zu generieren: eine repräsentiert den Monat und die andere repräsentiert den Tag. Die Aufgabe des Modells besteht darin:

Zufallszahl Nr. 1 abzurufen

Die letzte Ziffer zu isolieren und um 1 zu erhöhen 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Basierend auf dem Ergebnis einen Monat für unsere Datumszeichenfolge zu generieren

Zufallszahl Nr. 2 abzurufen

Generieren Datum aus Zufallszahl 2 Datum der Zeichenfolge

Beispielsweise repräsentieren die Zufallszahlen 4827143 und 17 den 17. April.

Die Figuren sind unterschiedlich lang und unterschiedlich tief im Kontext platziert. Das Modell hatte zunächst Schwierigkeiten, diese Aufgabe zu bewältigen.

  • Abbildung 2: Erste Testergebnisse
  • Während beide Modelle schlecht abschnitten, übertraf Claude 2.1 GPT-4 in unseren ersten Tests deutlich, mit einer fast vierfach höheren Erfolgsquote. Hier scheint die ausführliche Natur von Claudes Modell – die Bereitstellung detaillierter, erklärender Antworten – ihm einen klaren Vorteil zu verschaffen, was zu genaueren Ergebnissen im Vergleich zu den ursprünglichen knappen Antworten von GPT-4 führt.
  • Angetrieben durch diese unerwarteten experimentellen Ergebnisse haben wir eine neue Variable in das Experiment eingeführt. Wir haben GPT-4 angewiesen, „sich selbst zu erklären und dann die Frage zu beantworten“, eine Aufforderung, die zu detaillierteren Antworten ermutigte, die denen ähnelten, die das Claude-Modell auf natürliche Weise liefert. Daher sind die Auswirkungen dieser kleinen Anpassung weitreichend.
  • 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

    Abbildung 3: Ersttest der gezielten Eingabeaufforderungsergebnisse

    Die Leistung des GPT-4-Modells verbesserte sich deutlich und erzielte in nachfolgenden Tests perfekte Ergebnisse. Auch die Ergebnisse des Claude-Modells verbesserten sich.

    Dieses Experiment verdeutlicht nicht nur Unterschiede in der Art und Weise, wie Sprachmodelle Generierungsaufgaben bewältigen, sondern demonstriert auch die möglichen Auswirkungen der Hint-Engineering auf ihre Leistung. Claudes Stärke scheint die Ausführlichkeit zu sein, die sich als reproduzierbare Strategie für GPT-4 herausstellt, was darauf hindeutet, dass die Art und Weise, wie ein Modell Schlussfolgerungen verarbeitet und präsentiert, seine Genauigkeit bei Generierungsaufgaben erheblich beeinflussen kann. Insgesamt spielte in all unseren Experimenten auch der scheinbar kleine Satz „Erklären Sie sich“ eine Rolle bei der Verbesserung der Leistung des Modells. Weitere Tests und Ergebnisse : Kombinieren Sie Textfragmente zu zusammenhängenden Zeichenfolgen, um die grundlegenden Textmanipulationsfähigkeiten Ihres Modells zu testen.

    Währungsformat: Formatieren Sie Zahlen in Währungen, runden Sie sie und berechnen Sie prozentuale Änderungen, um die Genauigkeit des Modells und die Fähigkeit, numerische Daten zu verarbeiten, zu bewerten.

    Datumszuordnung: Die Konvertierung numerischer Darstellungen in Monatsnamen und Tage erfordert hybrides Abrufen und Kontextverständnis. 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

    Modulare Operationen: Führen Sie komplexe Zahlenoperationen durch, um die mathematischen Generierungsfähigkeiten des Modells zu testen.

    Wie erwartet zeigte jedes Modell eine starke Leistung bei der String-Verkettung, was auch das bisherige Verständnis bestätigt, dass Textmanipulation eine grundlegende Stärke von Sprachmodellen ist.

    • Abbildung 5: Ergebnisse des Währungsformatierungstests
    • Was den Währungsformatierungstest betrifft, schnitten Claude 3 und GPT-4 nahezu fehlerfrei ab. Die Leistung von Claude 2.1 ist im Allgemeinen schlecht. Die Genauigkeit variiert kaum je nach Markierungslänge, ist jedoch im Allgemeinen geringer, je näher sich der Zeiger am Anfang des Kontextfensters befindet.

    Abbildung 6: Offizielle Testergebnisse von der Haystack-Website

    Obwohl in einer Testgeneration hervorragende Ergebnisse erzielt wurden, sank die Genauigkeit von Claude 3 in einem reinen Retrieval-Experiment. Theoretisch sollte es auch einfacher sein, Zahlen einfach abzurufen als sie zu manipulieren – was den Leistungsabfall überraschend macht und einen Bereich darstellt, den wir weiter testen möchten. Wenn überhaupt, bestätigt dieser kontraintuitive Rückgang nur noch mehr die Idee, dass sowohl der Abruf als auch die Generierung bei der Entwicklung mit RAG getestet werden sollten. 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

    Fazit

    Beim Testen verschiedener Generierungsaufgaben haben wir festgestellt, dass beide Modelle, Claude und GPT-4, zwar bei trivialen Aufgaben wie der String-Manipulation gut sind, in komplexeren Szenarien jedoch ihre Stärken und Schwächen offensichtlich werden (https:// arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/). LLM ist immer noch nicht sehr gut in Mathematik! Ein weiteres wichtiges Ergebnis ist, dass die Einführung von „selbsterklärenden“ Hinweisen die Leistung von GPT-4 erheblich verbessert und die Bedeutung der Art und Weise, wie das Modell angedeutet und seine Argumentation verdeutlicht werden kann, um genaue Ergebnisse zu erzielen, unterstreicht Ergebnisse.

    Diese Ergebnisse haben umfassendere Auswirkungen auf die Bewertung von LLM. Beim Vergleich von Modellen wie dem detaillierten Claude und dem anfangs weniger detaillierten GPT-4 wird deutlich, dass die RAG-Bewertungskriterien (https://arize.com/blog-course/rag-evaluation/) über die bisherige Betonung von nur hinausgehen müssen Das ist richtiger Sex. Die Ausführlichkeit von Modellantworten führt eine Variable ein, die ihre wahrgenommene Leistung erheblich beeinflussen kann. Diese Nuance könnte darauf hindeuten, dass zukünftige Modellbewertungen die durchschnittliche Antwortlänge als nennenswerten Faktor berücksichtigen sollten, um die Fähigkeiten des Modells besser zu verstehen und einen faireren Vergleich zu gewährleisten.

    生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 OpusEinführung in den Übersetzer

    Zhu Xianzhong, 51CTO-Community-Redakteur, 51CTO-Expertenblogger, Dozent, Computerlehrer an einer Universität in Weifang und ein Veteran in der freiberuflichen Programmierbranche.

    Originaltitel: Tips for Getting the Generation Part Right in Retrieval Augmented Generation, Autor: Aparna Dhinakaran

    Link:

    nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -generation-7deaa26f28dc.

    Um mehr über AIGC zu erfahren, besuchen Sie bitte:

    51CTO AI.x Community

    https://www.51cto.com/aigc/

Das obige ist der detaillierte Inhalt vonGeneratives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn