Heim >Technologie-Peripheriegeräte >KI >Ist die Ära von GPT-4 vorbei? Internetnutzer auf der ganzen Welt testeten Claude 3 und waren schockiert
Die Klartextrichtung des großen Modells wurde zu Ende gerollt?
Gestern Abend hat OpenAIs größter Konkurrent Anthropic eine neue Generation großer KI-Modellreihen veröffentlicht – Claude 3.
Diese Serie enthält drei Modelle, sortiert vom schwächsten zum stärksten, nämlich Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus. Unter ihnen hat Opus, das leistungsfähigste, in mehreren Benchmark-Tests bessere Ergebnisse erzielt als GPT-4 und Gemini 1.0 Ultra und damit neue Branchenmaßstäbe in mehreren Dimensionen wie Mathematik, Programmierung, Mehrsprachenverständnis und Vision gesetzt.
Anthropic gibt an, dass Claude 3 Opus über menschliches Grundwissen verfügt.
Nach der Veröffentlichung des neuen Modells bietet Claude erstmals Unterstützung für multimodale Funktionen (der MMMU-Score der Opus-Version beträgt 59,4 %, übertrifft GPT-4V und liegt auf dem Niveau von Gemini 1.0 Ultra ). Benutzer können jetzt Fotos, Diagramme, Dokumente und andere Arten unstrukturierter Daten hochladen, damit die KI sie analysieren und beantworten kann.
Darüber hinaus behalten diese drei Modelle auch den konsequenten Vorteil der Modelle der Claude-Serie bei, nämlich das lange Kontextfenster. Die Anfangsphase unterstützt ein Kontextfenster von 200.000 Tokens, aber Anthropic sagte, dass alle drei Modelle eine Kontexteingabe von 1 Million Tokens (für bestimmte Kunden) unterstützen, was der englischen Version von „Moby Dick“ oder „Harry Potter and the“ entspricht „Heiligtümer des Todes“ 》Länge.
Allerdings ist der leistungsstärkste Claude 3 auch viel teurer als GPT-4 Turbo: GPT-4 Turbo verlangt 10/30 USD pro Million Token-Input/Output, während Claude 3 Opus 15 $ kostet; 75.
Opus- und Sonnet-Modelle sind jetzt in claude.ai und Claude API verfügbar, Haiku-Modelle folgen in Kürze. Amazon Cloud Technologies hat bekannt gegeben, dass sein neues Modell jetzt auf Amazon Bedrock verfügbar ist. Anthropic kündigte die offizielle Demo an, die Details sind wie folgt:
Nach der offiziellen Ankündigung von Anthropic teilten auch viele Forscher, die die Gelegenheit hatten, es auszuprobieren, ihre Erfahrungen. Manche sagen, dass Claude 3 Sonnet ein Rätsel gelöst hat, das zuvor nur GPT-4 lösen konnte.
Einige Leute sagten jedoch, dass Claude 3 in Bezug auf die tatsächliche Erfahrung GPT-4 nicht vollständig besiegt habe. -4 ? Derzeit glauben die meisten Menschen, dass es eine Bedeutung hat.
Das Folgende sind einige aktuelle Messergebnisse:
Dann haben wir die Bereiche getestet, in denen Claude 3 gut ist. Aus der offiziellen Einführung können wir ersehen, dass Claude gut darin ist, „Bilder zu verstehen und zu verarbeiten“, einschließlich des Extrahierens von Text aus Bildern und der Konvertierung der Benutzeroberfläche in Front-. Code beenden, komplexe Gleichungen verstehen, handschriftliche Notizen transkribieren und mehr.
Bei großen Modellen ist es oft schwierig, zwischen gebratenem Huhn und Teddy zu unterscheiden. Als wir ein Bild mit Teddy und gebratenem Huhn eingaben, gab Claude 3 die Antwort: „Dieses Bild ist eine Collage mit einem Hund und einem Huhn.“ Nuggets oder Nuggets, die eine verblüffende Ähnlichkeit mit dem Hund selbst haben …“ Diese Frage ist beantwortet.
Auf die Frage, wie viele Personen darin seien, antwortete Claude 3 ebenfalls richtig: „Diese Animation zeigt sieben kleine Zeichentrickfiguren.“
Claude 3 kann Text aus Fotos extrahieren, sogar die vertikale Reihenfolge von Chinesisch und Japanisch kann korrekt erkannt werden:
Wenn ich Memes im Internet verwende, wie wird es damit umgehen? In Bezug auf das Bild des Sehfehlers gaben GPT-4 und Claude3 gegensätzliche Vermutungen an:
Neben dem Verstehen von Bildern ist Claude auch in der Lage, lange Texte zu verarbeiten. Die gesamte Serie der diesmal veröffentlichten großen Modelle kann 200.000 Kontextfenster bereitstellen und mehr als 1 Million Token-Eingaben akzeptieren.
Wie ist die Wirkung? Wir haben ihm einen kürzlich von Microsoft und der National University of Science and Technology veröffentlichten Artikel „The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits“ vorgelegt und ihn gebeten, die Hauptpunkte des Artikels in der Form zusammenzufassen von 1, 2 und 3. Wir haben die Zeit aufgezeichnet, die Zeit zur Ausgabe der Gesamtantwort beträgt etwa 15 Sekunden.
Aber das ist nur der Ausgabeeffekt von Claude 3 Sonnet. Wenn Sie die Claude Pro-Version verwenden, ist es schneller, kostet aber 20 $ pro Monat.
Es ist erwähnenswert, dass Claude jetzt verlangt, dass die Größe des hochgeladenen Artikels 10 MB nicht überschreitet. Wenn die Größe überschritten wird, wird eine Meldung angezeigt:
Im Blog von Claude 3, Anthropic schlug vor, dass die Codierungsfunktionen des neuen Modells erheblich verbessert werden. Jemand warf Claude den grundlegenden ASCII-Code direkt zu und stellte fest, dass er keinen Druck hatte:
Wir sollten in der Lage sein zu bestätigen, dass Claude 3 über stärkere Codierungsfunktionen verfügt als GPT-4.
Vor einiger Zeit schlug Karpathy, der gerade von OpenAI zurückgetreten ist, eine „Wortsegmentierer“-Herausforderung vor. Konkret stellte er sein 2 Stunden und 13 Minuten langes Tutorial-Video in LLM ein und ließ es in das Format eines Buchkapitels oder Blogbeitrags über Tokenizer übersetzen.
Angesichts dieser Aufgabe hat Claude 3 sie angenommen. Das folgende Ergebnis wurde vom AnthropicAI-Forschungsingenieur Emmanuel Ameisen veröffentlicht:
Bild
Vielleicht ist es nicht mehr relevant , Karpathy gab eine relativ vollständige und objektive Bewertung ab:
Aus stilistischer Sicht ist es tatsächlich ganz gut! Wenn Sie genau hinschauen, werden Sie einige subtile Probleme/Illusionen bemerken. Unabhängig davon ist es beeindruckend, ein System zu haben, das fast sofort funktioniert. Ich freue mich darauf, mehr mit dem Claude 3 zu spielen, es scheint ein starkes Modell zu sein.
Wenn ich etwas Relevantes zu sagen habe, dann ist es, dass man bei Beurteilungsvergleichen äußerst vorsichtig sein sollte, nicht nur, weil die Beurteilungsergebnisse selbst schlechter sind, als man denkt, sondern auch, weil viele Beurteilungsergebnisse mit „Es ist überpasst in“ enden auf undefinierte Weise, auch weil die durchgeführten Vergleiche irreführend sein können. Die Kodierungsrate (HumanEval) von GPT-4 beträgt nicht 67 %. Immer wenn ich sehe, dass dieser Vergleich anstelle der Codierungsleistung verwendet wird, beginnen meine Augenwinkel zu zucken.
Aufgrund der oben genannten verschiedenen kniffligen Testergebnisse haben einige Leute bereits gerufen „Anthropic ist so zurück“.
Schließlich hat anthropopic auch eine Prompt-Bibliothek gestartet, die Prompt-Inhalte in mehrere Richtungen enthält. Wenn Sie mehr über die neuen Funktionen von Claude 3 erfahren möchten, probieren Sie es aus.
Link: https://docs.anthropic.com/claude/prompt-library
Die drei Versionen der Claude 3 Series-Modelle sind Claude 3 Opus, Claude 3 Sonnet und Claude 3 Haiku.
Unter diesen ist Claude 3 Opus das intelligenteste Modell, das ein Kontextfenster mit 200.000 Token unterstützt und die aktuelle SOTA-Leistung bei hochkomplexen Aufgaben erreicht. Das Modell verarbeitet offene Eingabeaufforderungen und unsichtbare Szenen mit hervorragender Geläufigkeit und menschlichem Verständnis. Claude 3 Opus zeigt uns die Grenzen dessen, was mit generativer KI möglich ist.
Claude 3 Sonnet bietet die ideale Balance zwischen Intelligenz und Geschwindigkeit, insbesondere für Unternehmens-Workloads. Es bietet leistungsstarke Leistung zu geringeren Kosten als vergleichbare Modelle und ist für eine hohe Haltbarkeit bei groß angelegten KI-Einsätzen ausgelegt. Claude 3 Sonnet unterstützt ein Kontextfenster mit 200.000 Token.
Claude 3 Haiku ist das schnellste und kompakteste Modell mit nahezu Echtzeit-Reaktionsfähigkeit. Interessanterweise ist das unterstützte Kontextfenster ebenfalls 200 KB groß. Das Modell ist in der Lage, einfache Anfragen und Anfragen mit beispielloser Geschwindigkeit zu beantworten, sodass Benutzer nahtlose KI-Erlebnisse erstellen können, die menschliche Interaktionen nachahmen.
Als nächstes werfen wir einen detaillierten Blick auf die Funktionen und die Leistung der Modelle der Claude 3-Serie.
Als intelligentestes Modell der Claude 3-Serie übertrifft Opus Konkurrenzprodukte bei den meisten Bewertungsbenchmarks von KI-Systemen, einschließlich Expertenwissen auf Bachelor-Niveau (MMLU), Graduate Level Expert Reasoning (GPQA), Basic Mathematics (GSM8K) und andere Benchmarks. Darüber hinaus demonstriert Opus ein nahezu menschliches Verständnis und eine fließende Bewältigung komplexer Aufgaben und führt damit die Grenzen der allgemeinen Intelligenz an.
Darüber hinaus verfügen alle Modelle der Claude 3-Serie, einschließlich Opus, über erweiterte Funktionen für Analysen und Vorhersagen, granulare Inhaltserstellung, Codegenerierung und Konversation in nicht-englischen Sprachen wie Spanisch, Japanisch und Französisch.
Das Bild unten zeigt den Vergleich zwischen dem Claude 3-Modell und Konkurrenzmodellen bei mehreren Leistungsbenchmarks. Es ist ersichtlich, dass das stärkste Opus besser ist als das GPT-4 von OpenAI.
Antwort nahezu in Echtzeit
Das Modell Claude 3 kann Aufgaben wie Live-Kundenchat, automatische Auffüllung und Datenextraktion unterstützen, bei denen die Antwort sofort und in Echtzeit erfolgen muss.
Haiku ist das schnellste und kostengünstigste Modell auf dem Markt in der Smart-Kategorie. Es kann ein arXiv-Plattformpapier (~10.000 Token) mit dichten Diagrammen und grafischen Informationen in weniger als drei Sekunden lesen.
Für die überwiegende Mehrheit der Jobs ist Sonnet 2x schneller und intelligenter als Claude 2 und Claude 2.1. Es eignet sich hervorragend für Aufgaben, die schnelle Reaktionen erfordern, wie z. B. Wissensabruf oder Vertriebsautomatisierung. Das Opus ist in der Geschwindigkeit dem Claude 2 und 2.1 ähnlich, verfügt jedoch über ein höheres Maß an Intelligenz.
Leistungsstarke visuelle Fähigkeiten
Claude 3 verfügt über ausgefeilte visuelle Fähigkeiten, die mit anderen Kopfmodellen vergleichbar sind. Sie können Daten in verschiedenen visuellen Formaten verarbeiten, darunter Fotos, Diagramme, Grafiken und technische Diagramme.
Anthropic sagt, dass bei einigen ihrer Kunden mehr als 50 % ihrer Wissensdatenbanken in verschiedenen Datenformaten wie PDFs, Flussdiagrammen oder Präsentationsfolien programmiert sind. Daher sind die leistungsstarken visuellen Fähigkeiten des neuen Modells sehr hilfreich.
Weniger Ablehnungsantworten
Das vorherige Claude-Modell hat häufig unnötige Ablehnungen vorgenommen, was auf einen Mangel an Kontextverständnis des Modells hindeutet. Anthropic hat in diesem Bereich bedeutende Fortschritte gemacht: Opus, Sonnet und Haiku lehnen eine Antwort mit deutlich geringerer Wahrscheinlichkeit ab als frühere Modellgenerationen, selbst wenn Benutzeraufforderungen nahe am Endergebnis des Systems liegen. Wie unten gezeigt, weist das Claude-3-Modell ein differenzierteres Verständnis von Anfragen auf, ist in der Lage, wirklich schädliche Aufforderungen zu identifizieren und weigert sich viel seltener, auf harmlose Aufforderungen zu antworten.
Verbesserte Genauigkeit
Um die Modellgenauigkeit zu bewerten, verwendete Anthropic eine Reihe komplexer, faktenbasierter Fragen, um bekannte Schwächen in aktuellen Modellen zu beheben. Anthropic klassifiziert Antworten in richtige Antworten, falsche Antworten (oder Halluzinationen) und unsichere Antworten, bei denen das Modell die Antwort nicht kennt, anstatt falsche Informationen bereitzustellen. Im Vergleich zu Claude 2.1 hat Opus die Genauigkeit (oder korrekten Antworten) bei diesen anspruchsvollen offenen Fragen verdoppelt und gleichzeitig falsche Antworten reduziert.
Anthropic erzeugt nicht nur vertrauenswürdigere Antworten, sondern ermöglicht auch Zitate im Claude-3-Modell, sodass das Modell auf präzise Sätze im Referenzmaterial verweisen kann, um Antworten zu untermauern.
Langer Kontext und nahezu perfekte Erinnerung
Modelle der Claude 3-Serie bieten beim Start zunächst ein 200K-Kontextfenster. Beamte geben jedoch an, dass alle drei Modelle in der Lage sind, Eingaben von mehr als 1 Million Token zu empfangen, und diese Fähigkeit wird bestimmten Benutzern zur Verfügung gestellt, die erweiterte Verarbeitungsfähigkeiten benötigen.
Um lange kontextbezogene Hinweise effektiv verarbeiten zu können, benötigt das Modell starke Erinnerungsfähigkeiten. Die Needle In A Haystack (NIAH)-Bewertung misst die Fähigkeit eines Modells, Informationen aus großen Datenmengen genau abzurufen. Anthropic verbesserte die Robustheit dieses Benchmarks, indem es ihn auf einer anderen Crowdsourcing-Dokumentenbasis mit 30 zufälligen Nadel-/Fragenpaaren in jeder Eingabeaufforderung testete. Claude 3 Opus erreicht nicht nur eine nahezu perfekte Erinnerung, sondern erreicht auch eine Genauigkeit von über 99 %. Und in einigen Fällen wurden sogar Einschränkungen in der Bewertung selbst festgestellt, da die „Nadel“-Sätze scheinbar künstlich in den Originaltext eingefügt worden waren.
Sicher und einfach zu bedienen
Anthropic sagte, es habe ein engagiertes Team gegründet, um Sicherheitsrisiken zu verfolgen und zu reduzieren. Das Unternehmen entwickelt außerdem Methoden wie Constitutional AI, um die Modellsicherheit und -transparenz zu verbessern und Datenschutzbedenken auszuräumen, die neue Modelle aufwerfen könnten.
Während die Modellreihe Claude 3 im Vergleich zu früheren Modellen Verbesserungen bei Schlüsselindikatoren für biologisches Wissen, netzwerkbezogenes Wissen und Autonomie erzielt hat, befindet sich das neue Modell laut Untersuchungen auf der KI-Sicherheitsstufe 2 (ASL-2). .
In Bezug auf die Benutzererfahrung kann Claude 3 komplexe mehrstufige Anweisungen besser befolgen als frühere Modelle und ist besser in der Lage, Marken- und Reaktionsrichtlinien einzuhalten, sodass vertrauenswürdige Anwendungen besser entwickelt werden können. Darüber hinaus sind Claude-3-Modelle laut Anthropic jetzt besser in der Lage, gängige strukturierte Ausgaben in Formaten wie JSON zu erzeugen, was es einfacher macht, Claude bei Anwendungsfällen wie der Klassifizierung natürlicher Sprache und der Stimmungsanalyse anzuleiten.
Aktuell hat Anthropic einen 42-seitigen technischen Bericht „The Claude 3 Model Family: Opus, Sonnet, Haiku“ veröffentlicht. 🔜 detaillierte experimentelle Ergebnisse.
In Bezug auf Trainingsdaten werden die Modelle der Claude 3-Serie auf einer proprietären Mischung aus Daten trainiert, die ab August 2023 öffentlich im Internet verfügbar sind, sowie nicht öffentlichen Daten von Dritten, Daten, die von Datenkennzeichnungsdiensten bereitgestellt werden bezahlte Auftragnehmer, Claudes interne Daten.
Die Modelle der Claude 3-Serie wurden ausführlich anhand mehrerer Kriterien bewertet, darunter:
语Eine Denkfähigkeit 言 Mehrsprachigkeit
Anthropic bewertete die Modelle der Claude-3-Serie beim Law School Admission Test (LSAT), beim Multistate Bar Examination (MBE), beim USA Mathematical Competition 2023 Math Competition und beim Graduate Record Examination (GRE) General Exam, insbesondere bei The Die Ergebnisse sind in Tabelle 2 unten aufgeführt.
Die Modelle der Claude 3-Serie sind multimodal (Eingabe von Bildern und Videobildern) und haben erhebliche Fortschritte bei der Lösung komplexer Herausforderungen beim multimodalen Denken gemacht, die über das einfache Textverständnis hinausgehen.
Ein typisches Beispiel ist die Leistung des Claude-3-Modells beim AI2D Scientific Charts-Benchmark, einer visuellen Frage-Antwort-Bewertung, bei der Diagramme analysiert und entsprechende Fragen in einem Multiple-Choice-Format beantwortet werden.
Claude 3 Sonnet erreichte das SOTA-Niveau in der 0-Schuss-Einstellung – 89,2 %, gefolgt von Claude 3 Opus (88,3 %) und Claude 3 Haiku (80,6 %). Die spezifischen Ergebnisse sind in Tabelle 3 unten aufgeführt.
Zu diesem technischen Bericht gab Fu Yao, ein Doktorand an der Universität Edinburgh, sofort seine eigene Analyse ab.
... .
Er glaubt, dass das, was die Modelle wirklich auszeichnen kann, MATH und GPQA ist. Diese äußerst heiklen Probleme sind die Ziele, die KI-Modelle als nächstes anstreben sollten.
Im Vergleich zu Claudes Vorgängermodell sind die Bereiche Finanzen und Medizin die Bereiche mit größeren Verbesserungen.
In Bezug auf die visuelle Darstellung machen die visuellen OCR-Funktionen von Claude 3 das enorme Potenzial von Claude 3 bei der Datenerfassung deutlich.
Darüber hinaus hat er auch einige andere Trends entdeckt:
Aus den aktuellen Bewertungsmaßstäben und Erfahrungen geht hervor, dass Claude 3 klug und multimodal ist wurden sowohl in Bezug auf Leistungsfähigkeit als auch Geschwindigkeit gemacht. Mit der weiteren Optimierung und Anwendung der neuen Modellreihe werden wir möglicherweise ein diversifizierteres Ökosystem großer Modelle sehen.
Blog-Adresse: https://www.anthropic.com/news/claude-3-family
Das obige ist der detaillierte Inhalt vonIst die Ära von GPT-4 vorbei? Internetnutzer auf der ganzen Welt testeten Claude 3 und waren schockiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!