Heim > Artikel > Technologie-Peripheriegeräte > Generatives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus

Generatives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus

王林Original: 2024-06-07 18:32:371046Durchsuche

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Wenn Sie mehr über AIGC erfahren möchten, besuchen Sie bitte:

51CTO AI scheint jeden Tag neue Bewertungen von (generativen) Systemen zu veröffentlichen, und viele davon konzentrieren sich auf die Abrufphase des Frameworks fraglich. Allerdings kann der generative Aspekt – wie das Modell diese abgerufenen Informationen synthetisiert und ausdrückt – in der Praxis ebenso wichtig sein. Viele praktische Anwendungsfälle beweisen, dass das System nicht nur Daten aus dem Kontext zurückgeben, sondern diese Informationen auch in eine komplexere Antwort umwandeln muss.

Zu diesem Zweck haben wir mehrere Experimente durchgeführt, um die Erzeugungsfähigkeiten von drei Modellen zu bewerten und zu vergleichen: GPT-4, Claude 2.1 und Claude 3 Opus. In diesem Artikel werden unsere Forschungsmethoden, Ergebnisse und Nuancen dieser Modelle, auf die wir unterwegs gestoßen sind, detailliert beschrieben und erläutert, warum diese für diejenigen wichtig sind, die mit generativer KI arbeiten.

Wenn interessierte Leser die Ergebnisse des obigen Experiments reproduzieren möchten, finden Sie alles, was für das Experiment benötigt wird, im GitHub-Repository (https://github.com/Arize-ai/LLMTest_NeedleInAHaystack).

Zusätzliche Hinweise

Obwohl erste Ergebnisse darauf hindeuteten, dass Claude GPT-4 übertraf, zeigten spätere Tests, dass GPT-4 mit dem Aufkommen strategischer Prompt-Engineering-Techniken eine breitere Palette von Bewertungsleistungen übertraf. Kurz gesagt, es gibt immer noch viele Probleme im Modellverhalten und in der prompten Technik, die dem RAG-System innewohnen.

Die Leistung von GPT-4 wird erheblich (mehr als doppelt so hoch) verbessert, indem einfach „Bitte erklären Sie sich selbst und beantworten Sie dann die Frage“ zur Eingabeaufforderungsvorlage hinzugefügt wird. Es ist klar, dass die Antwort von LLM dabei zu helfen scheint, die Idee weiterzuentwickeln. Durch Interpretation ist es dem Modell möglich, die richtige Antwort im Einbettungs-/Aufmerksamkeitsraum erneut auszuführen. „Wichtigkeit der Rag-Phase und Generation“ Phase, die diese Rohdaten erhält und sie in kohärente, aussagekräftige und kontextbezogene Antworten umwandelt. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. Die Aufgabe des Generierungsschritts besteht darin, die abgerufenen Informationen zu synthetisieren, die Lücken zu schließen und sie auf eine Weise darzustellen, die leicht verständlich und für die Benutzeranfrage relevant ist. In der Generierungsphase werden leere Informationen ausgefüllt, um eine vollständige und verständliche Interpretation der relevanten Informationen zu erreichen. Gleichzeitig können Benutzer bei Bedarf relevante Informationen abfragen. Durch die Verarbeitung in der Generierungsphase wird durch das Ausfüllen der leeren Informationen das endgültige generierte Ergebnis vollständiger und leichter verständlich. Dies bietet eine Möglichkeit, relevante Informationen zu verstehen und abzufragen und hilft Benutzern, tiefer zu forschen und zu recherchieren.

In vielen realen Anwendungen liegt der Wert von RAG-Systemen nicht nur in ihrer Fähigkeit, bestimmte Fakten oder Informationen zu lokalisieren, sondern auch in ihrer Fähigkeit, Informationen in einen breiteren Rahmen zu integrieren und zu kontextualisieren. Die Generierungsphase ermöglicht es RAG-Systemen, über das einfache Abrufen von Fakten hinauszugehen und wirklich intelligente und adaptive Antworten bereitzustellen.

Test #1: Datumszuordnung
Der erste Test, den wir durchgeführt haben, bestand darin, eine Datumszeichenfolge aus zwei zufällig abgerufenen Zahlen zu generieren: eine repräsentiert den Monat und die andere repräsentiert den Tag. Die Aufgabe des Modells besteht darin:

Zufallszahl Nr. 1 abzurufen

Die letzte Ziffer zu isolieren und um 1 zu erhöhen 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Basierend auf dem Ergebnis einen Monat für unsere Datumszeichenfolge zu generieren

Zufallszahl Nr. 2 abzurufen

Generieren Datum aus Zufallszahl 2 Datum der Zeichenfolge

Beispielsweise repräsentieren die Zufallszahlen 4827143 und 17 den 17. April.

Die Figuren sind unterschiedlich lang und unterschiedlich tief im Kontext platziert. Das Modell hatte zunächst Schwierigkeiten, diese Aufgabe zu bewältigen.

Abbildung 2: Erste Testergebnisse
Während beide Modelle schlecht abschnitten, übertraf Claude 2.1 GPT-4 in unseren ersten Tests deutlich, mit einer fast vierfach höheren Erfolgsquote. Hier scheint die ausführliche Natur von Claudes Modell – die Bereitstellung detaillierter, erklärender Antworten – ihm einen klaren Vorteil zu verschaffen, was zu genaueren Ergebnissen im Vergleich zu den ursprünglichen knappen Antworten von GPT-4 führt.
Angetrieben durch diese unerwarteten experimentellen Ergebnisse haben wir eine neue Variable in das Experiment eingeführt. Wir haben GPT-4 angewiesen, „sich selbst zu erklären und dann die Frage zu beantworten“, eine Aufforderung, die zu detaillierteren Antworten ermutigte, die denen ähnelten, die das Claude-Modell auf natürliche Weise liefert. Daher sind die Auswirkungen dieser kleinen Anpassung weitreichend.

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Abbildung 3: Ersttest der gezielten Eingabeaufforderungsergebnisse

Die Leistung des GPT-4-Modells verbesserte sich deutlich und erzielte in nachfolgenden Tests perfekte Ergebnisse. Auch die Ergebnisse des Claude-Modells verbesserten sich.

Dieses Experiment verdeutlicht nicht nur Unterschiede in der Art und Weise, wie Sprachmodelle Generierungsaufgaben bewältigen, sondern demonstriert auch die möglichen Auswirkungen der Hint-Engineering auf ihre Leistung. Claudes Stärke scheint die Ausführlichkeit zu sein, die sich als reproduzierbare Strategie für GPT-4 herausstellt, was darauf hindeutet, dass die Art und Weise, wie ein Modell Schlussfolgerungen verarbeitet und präsentiert, seine Genauigkeit bei Generierungsaufgaben erheblich beeinflussen kann. Insgesamt spielte in all unseren Experimenten auch der scheinbar kleine Satz „Erklären Sie sich“ eine Rolle bei der Verbesserung der Leistung des Modells. Weitere Tests und Ergebnisse : Kombinieren Sie Textfragmente zu zusammenhängenden Zeichenfolgen, um die grundlegenden Textmanipulationsfähigkeiten Ihres Modells zu testen.

Währungsformat: Formatieren Sie Zahlen in Währungen, runden Sie sie und berechnen Sie prozentuale Änderungen, um die Genauigkeit des Modells und die Fähigkeit, numerische Daten zu verarbeiten, zu bewerten.

Datumszuordnung: Die Konvertierung numerischer Darstellungen in Monatsnamen und Tage erfordert hybrides Abrufen und Kontextverständnis. 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

Wie erwartet zeigte jedes Modell eine starke Leistung bei der String-Verkettung, was auch das bisherige Verständnis bestätigt, dass Textmanipulation eine grundlegende Stärke von Sprachmodellen ist.

Abbildung 5: Ergebnisse des Währungsformatierungstests
Was den Währungsformatierungstest betrifft, schnitten Claude 3 und GPT-4 nahezu fehlerfrei ab. Die Leistung von Claude 2.1 ist im Allgemeinen schlecht. Die Genauigkeit variiert kaum je nach Markierungslänge, ist jedoch im Allgemeinen geringer, je näher sich der Zeiger am Anfang des Kontextfensters befindet.

Abbildung 6: Offizielle Testergebnisse von der Haystack-Website

Obwohl in einer Testgeneration hervorragende Ergebnisse erzielt wurden, sank die Genauigkeit von Claude 3 in einem reinen Retrieval-Experiment. Theoretisch sollte es auch einfacher sein, Zahlen einfach abzurufen als sie zu manipulieren – was den Leistungsabfall überraschend macht und einen Bereich darstellt, den wir weiter testen möchten. Wenn überhaupt, bestätigt dieser kontraintuitive Rückgang nur noch mehr die Idee, dass sowohl der Abruf als auch die Generierung bei der Entwicklung mit RAG getestet werden sollten. 生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus Einführung in den Übersetzer

Zhu Xianzhong, 51CTO-Community-Redakteur, 51CTO-Expertenblogger, Dozent, Computerlehrer an einer Universität in Weifang und ein Veteran in der freiberuflichen Programmierbranche.

Originaltitel: Tips for Getting the Generation Part Right in Retrieval Augmented Generation, Autor: Aparna Dhinakaran

Link:

nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -generation-7deaa26f28dc.

51CTO AI.x Community

https://www.51cto.com/aigc/

Das obige ist der detaillierte Inhalt vonGeneratives KI-Modell großer PK – GPT-4, Claude 2.1 und Claude 3.0 Opus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

for 字符串指针 github 人工智能 https AIGC gpt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Haben unterschiedliche Datensätze unterschiedliche Skalierungsgesetze? Und Sie können es mit einem Komprimierungsalgorithmus vorhersagenNächster Artikel：Haben unterschiedliche Datensätze unterschiedliche Skalierungsgesetze? Und Sie können es mit einem Komprimierungsalgorithmus vorhersagen

In Verbindung stehende Artikel

Mehr sehen