Soeben hat Anthropic die Einführung der Modellreihe Claude 3 angekündigt, die bei einem breiten Spektrum kognitiver Aufgaben einen neuen Branchenmaßstab setzt. Das Sortiment umfasst drei hochmoderne Modelle, die in aufsteigender Reihenfolge ihrer Leistungsfähigkeit angeordnet sind: Claude 3 Haiku, Claude 3 Sonnet und Claude 3 Opus. Jedes nachfolgende Modell bietet eine immer leistungsfähigere Leistung, sodass Benutzer das beste Gleichgewicht zwischen Intelligenz, Geschwindigkeit und Kosten für ihre spezifischen Anwendungen wählen können.
Opus und Sonnet sind jetzt in claude.ai und der Claude API verfügbar, wobei letztere jetzt in 159 Ländern vollständig verfügbar ist. Haiku wird bald verfügbar sein.
Opus, das intelligenteste Modell von Anthropic, schneidet bei den meisten gängigen Bewertungsbenchmarks für KI-Systeme gut ab, einschließlich Expertenwissen auf Bachelor-Niveau (MMLU) und Expertenbegründung auf Graduiertenniveau (GPQA). ), Grundmathematik (GSM8K) usw. Es demonstriert ein nahezu menschliches Verständnis und eine fließende Bewältigung komplexer Aufgaben und führt damit die Grenze der allgemeinen Intelligenz an.
Das Claude 3-Modell zeigt starke Fähigkeiten in der Analyse und Vorhersage, detailliert in der Inhaltserstellung, Codegenerierung und der Führung von Gesprächen in nicht-englischen Sprachen wie Spanisch, Japanisch und Französisch.
So vergleicht sich das Claude-3-Modell mit seinen Anthropic-Gegenstücken bei mehreren Leistungsbenchmarks[1]:
Das Claude-3-Modell kann sofortigen Kundenchat, automatische Vervollständigung und Datenextraktionsaufgaben unterstützen, bei denen Antworten erforderlich sind unmittelbar und in Echtzeit sein.
Im Bereich Intelligenz ist Haiku ein äußerst kostengünstiges Modell mit der schnellsten Geschwindigkeit auf dem Markt. Es war in der Lage, ein informationsreiches arXiv-Forschungspapier (ca. 10.000 Token) mit Diagrammen und Grafiken in weniger als drei Sekunden zu entschlüsseln. Anthropic wird seine Leistung in naher Zukunft weiter optimieren und auch die Leistung von Haiku wird verbessert.
Sonnet ist bei den meisten Arbeitslasten mehr als doppelt so schnell wie Claude 2 und Claude 2.1 und verfügt über ein höheres Maß an Intelligenz. Es eignet sich hervorragend für Aufgaben, die schnelle Reaktionen erfordern, wie z. B. Wissensabruf oder Vertriebsautomatisierung. Das Opus ist ähnlich schnell wie Claude 2 und 2.1, weist jedoch ein höheres Maß an Intelligenz auf.
Das Claude 3-Modell verfügt über ausgefeilte visuelle Fähigkeiten, die mit anderen führenden Modellen vergleichbar sind. Sie können eine Vielzahl visueller Formate verarbeiten, darunter Fotos, Diagramme, Grafiken und technische Diagramme. Anthropic freut sich besonders, diese neue Modalität Unternehmenskunden anbieten zu können, von denen einige bis zu 50 % ihrer Wissensdatenbanken in verschiedenen Formaten wie PDFs, Flussdiagrammen oder Präsentationsfolien kodiert haben.
Das vorherige Claude-Modell führte häufig zu unnötigen Ablehnungen, was auf einen Mangel an Kontextverständnis hindeutet. Anthropic hat in dieser Hinsicht erhebliche Fortschritte gemacht: Opus, Sonnet und Haiku verweigern deutlich seltener die Antwort auf Eingabeaufforderungen, die sich der Alarmlinie des Systems nähern, viel seltener als bei früheren Modellen. Wie in der Abbildung unten gezeigt, verfügt das Claude-3-Modell über ein differenzierteres Verständnis von Anfragen, identifiziert echten Schaden und weigert sich deutlich seltener, auf harmlose Aufforderungen zu antworten.
Unternehmen aller Größen verlassen sich auf die Modelle von Anthropic, um ihre Kunden zu bedienen. Daher ist es von entscheidender Bedeutung, dass die Modellausgabe von Anthropic im Maßstab hochpräzise bleibt. Um dies zu beurteilen, nutzte Anthropic eine Vielzahl komplexer, sachlicher Fragen, die auf bekannte Schwächen aktueller Modelle abzielen. Anthropic klassifiziert Antworten in richtige Antworten, falsche Antworten (oder Halluzinationen) und Eingeständnisse von Unsicherheit, wobei das Modell zum Ausdruck bringt, die Antwort nicht zu kennen, anstatt falsche Informationen bereitzustellen. Im Vergleich zu Claude 2.1 erzielte Opus bei diesen anspruchsvollen offenen Fragen eine zweifache Verbesserung der Genauigkeit (oder korrekten Antworten) und reduzierte gleichzeitig die Anzahl falscher Antworten.
Zusätzlich zur Erstellung vertrauenswürdigerer Antworten wird Anthropic bald Zitate in den Claude-3-Modellen von Anthropic ermöglichen, sodass sie auf präzise Sätze in Referenzen verweisen können, um ihre Antworten zu überprüfen.
Modelle der Claude 3-Serie bieten beim Start ein Kontextfenster mit 200.000 Mark. Alle drei Modelle sind jedoch in der Lage, Eingaben von über 1 Million Token zu akzeptieren, die Anthropic bestimmten Kunden anbieten kann, die eine höhere Verarbeitungsleistung benötigen.
Um lange kontextbezogene Hinweise effektiv verarbeiten zu können, benötigt das Modell starke Erinnerungsfähigkeiten. „Needle In A Haystack“ (NIAH) bewertet die Fähigkeit eines Messmodells, Informationen aus einem großen Datenbestand genau abzurufen. Anthropic erhöht die Robustheit dieses Benchmarks, indem es eines von 30 zufälligen Pin/Fragen-Paaren für jede Eingabeaufforderung verwendet und anhand eines vielfältigen Crowdsourcing-Korpus von Dokumenten testet.
Claude 3 Opus erreicht nicht nur eine nahezu perfekte Erinnerung mit einer Genauigkeit von über 99 %, sondern erkennt in einigen Fällen sogar Einschränkungen in der Auswertung selbst, indem es „Nadel“-Sätze identifiziert, die scheinbar künstlich in das Originaltextgeschlecht eingefügt wurden.
Anthropic hat die Modellreihe Claude 3 entwickelt, um Zuverlässigkeit und Leistungsfähigkeit zu bieten. Anthropic verfügt über mehrere engagierte Teams, die Risiken verfolgen und mindern, die von Fehlinformationen und CSAM bis hin zu Biomissbrauch, Wahleinmischung und autonomen Replikationsfähigkeiten reichen. Anthropic entwickelt weiterhin Methoden wie Constitutional AI, um die Sicherheit und Transparenz der Modelle von Anthropic zu verbessern und die Modelle von Anthropic anzupassen, um Datenschutzbedenken auszuräumen, die sich aus neuen Modalitäten ergeben können.
Die Beseitigung von Verzerrungen in immer komplexeren Modellen ist eine kontinuierliche Anstrengung, und Anthropic macht mit dieser neuen Version Fortschritte. Wie in der Modellkarte gezeigt, weist Claude 3 laut Bias Question Answering Benchmark (BBQ) weniger Voreingenommenheit auf als das Vorgängermodell von Anthropic. Anthropic setzt sich weiterhin für die Weiterentwicklung von Technologien ein, die Voreingenommenheit reduzieren und eine größere Neutralität der Modelle fördern, um sicherzustellen, dass diese nicht auf eine bestimmte parteiische Position ausgerichtet sind.
Während die Modellreihe Claude 3 im Vergleich zu früheren Modellen Verbesserungen in Bezug auf biologisches Wissen, Cyber-bezogenes Wissen und Autonomie bietet, bleibt sie gemäß der Responsible Scaling Policy von Anthropic auf AI Safety Level 2 (ASL-2). Die Red-Team-Bewertung von Anthropic (durchgeführt im Einklang mit den Verpflichtungen von Anthropic im Weißen Haus und der US-Exekutivverordnung von 2023) kam zu dem Schluss, dass die aktuellen Modelle ein vernachlässigbares Katastrophenrisiko aufweisen. Anthropic wird künftige Modelle weiterhin genau beobachten, um zu beurteilen, wie nahe sie der ASL-3-Schwelle kommen. Weitere Sicherheitsdetails finden Sie auf der Modellkarte Claude 3.
Das Modell Claude 3 ist besser darin, komplexe mehrstufige Anweisungen zu befolgen. Sie sind besonders gut darin, die Richtlinien zur Markenstimme und -reaktion zu befolgen und kundenorientierte Erlebnisse zu entwickeln, denen Benutzer vertrauen können. Darüber hinaus bietet das Claude 3-Modell eine bessere Leistung bei der Generierung gängiger strukturierter Ausgaben, wie z. B. JSON-Formate, wodurch es einfacher wird, Claude für Anwendungsfälle wie die Klassifizierung natürlicher Sprache und die Stimmungsanalyse zu trainieren.
Claude 3 Opus ist das intelligenteste Modell von Anthropic und zeigt die beste Leistung auf dem Markt bei hochkomplexen Aufgaben. Es fließt brillant in offenen Aufforderungen und unsichtbaren Situationen mit menschenähnlichem Verständnis. Opus zeigt Anthropic die Grenzen dessen, was mit generativer KI möglich ist.
Claude 3 Sonnet schafft die ideale Balance zwischen Intelligenz und Geschwindigkeit – insbesondere für Unternehmens-Workloads. Es bietet leistungsstarke Leistung zu geringeren Kosten als seine Mitbewerber und ist auf eine hohe Haltbarkeit für groß angelegte KI-Einsätze ausgelegt.
Claude 3 Haiku ist das schnellste und kompakteste Modell von Anthropic und ermöglicht eine nahezu sofortige Reaktion. Es beantwortet einfache Fragen und Wünsche mit beispielloser Geschwindigkeit. Benutzer können nahtlose KI-Erlebnisse erstellen, die menschliche Interaktionen simulieren.
Opus und Sonnet sind ab heute in der API von Anthropic verfügbar, die jetzt allgemein verfügbar ist und Entwickler sich anmelden und sofort mit der Nutzung dieser Modelle beginnen können. Haiku wird bald verfügbar sein. Sonnet ermöglicht das kostenlose Erlebnis auf claude.ai, während Opus für Claude Pro-Abonnenten verfügbar ist.
Sonnet ist auch über Amazons Bedrock und Google Clouds Vertex AI Model Garden erhältlich, Opus und Haiku folgen in Kürze.
Anthropic ist davon überzeugt, dass die Modellintelligenz noch lange nicht an ihre Grenzen stößt und plant, die Modellreihe Claude 3 in den nächsten Monaten regelmäßig zu aktualisieren. Anthropic freut sich außerdem, eine Reihe von Funktionen veröffentlichen zu können, um die Fähigkeiten der Anthropic-Modelle zu verbessern, insbesondere für Unternehmensanwendungsfälle und groß angelegte Bereitstellungen. Zu diesen neuen Funktionen gehören die Tool-Nutzung (auch als Funktionsaufrufe bezeichnet), interaktive Codierung (auch als REPL bezeichnet) und erweiterte Agentenfunktionen.
Das obige ist der detaillierte Inhalt vonClaude3 wird veröffentlicht. Wird es GPT-4 vollständig übertreffen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!