Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die GPT-4-Krone ist weg! Die menschlichen Abstimmungsergebnisse der Claude 3 Arena werden veröffentlicht: nur der dritte Platz

Die GPT-4-Krone ist weg! Die menschlichen Abstimmungsergebnisse der Claude 3 Arena werden veröffentlicht: nur der dritte Platz

WBOY
WBOYnach vorne
2024-03-08 15:07:27416Durchsuche

Das Arena-Ranking von Claude 3 ist endlich da:

In nur 3 Tagen wurden 20.000 Stimmen abgegeben, was den Traffic des Rankings auf ein beispielloses Niveau trieb.

Am Ende erzielte Claude 3s stärkstes „Big Cup“-Modell Opus 1233 Punkte und war damit der erste Spieler, der mit GPT-4-Turbo konkurrierte.

Das Sonnet mit mittlerer Tasse ist auch ziemlich gut und liegt auf Augenhöhe mit den beiden älteren Versionen von GPT-4.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Bilder

Aber insgesamt hat die GPT-4-Serie die Oberhand.

Die Leistung von Claude 3 unterscheidet sich geringfügig von der Aktion. Wie Internetnutzer es zusammenfassen:

GPT-4 ist immer noch der König der großen Modelle!

Allerdings bietet die kostenlose „mittlere Tasse“ Claude 3 (Sonnet) ein besseres Preis-Leistungs-Verhältnis. 🔜 welche Version von GPT-4 es war.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Bilder

Das neueste Update der Arena-Bestenliste (LMSYS Chatbot Arena Leaderboard) hilft uns, das herauszufinden.

Sehen wir uns die Details an.

Ganz oben auf der Liste steht GPT-4 Turbo, das im November letzten Jahres von OpenAI eingeführt wurde: GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三GPT-4-1106-Vorschau.

Es ist leistungsfähiger und günstiger, hat 128.000 Kontext und die Trainingsdaten wurden von September 2021 bis April 2023 aktualisiert.

Auf dem ersten Platz liegt die neueste Version von GPT-4 Turbo, die im Januar dieses Jahres veröffentlicht wurde:

GPT-4-0125-Vorschau.

Die Trainingsdaten sind umfassender und reichen bis Dezember 2023.

Beide erreichten eine Punktzahl von 1251.

Dann kommt Claude 3 (Trainingsdaten Stand August 2023).

Seine stärkste Version, Opus, erzielte 1233 Punkte, was 18 Punkte weniger als GPT-4 Turbo ist.

Bilder

Im Vergleich ist dieser Abstand nicht allzu groß:

Er ist 48 Punkte bzw. 72 Punkte höher als die beiden Versionen von GPT-4 (0314 und 0613).

Die mittlere Leistung von Claude 3 Sonnet belegt den 6. Platz zwischen den beiden GPT-4-Versionen: GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Aber sie liegt nur 5 Punkte unter der 0314-Version und hat großes Potenzial, sie auf einen Schlag zu übertreffen .

Bilder

Also im Allgemeinen ist die offizielle Promotion kein großes Problem, sie hat die alte Version von GPT-4 komplett übertroffen, ist aber immer noch ein wenig weit von GPT-4 Turbo entfernt, obwohl es so ist nicht zu groß.

——Nach dem Bewertungsmechanismus dieser Liste zu urteilen, werden ihre Ergebnisse von der Branche durchaus anerkannt.

Initiiert wird es vom Autorenteam von „Vicuna“. GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Aber der Magistrat ist kein „kleines Alpaka“, geschweige denn GPT-4, sondern orientiert sich an menschlichen Vorlieben.

Im Detail stellen wir zwei anonymen Models nach dem Zufallsprinzip beliebige Fragen, bewerten dann deren jeweilige Antworten und stimmen für das bessere Modell.

Bilder

Wenn wir nicht in einer Runde abstimmen können, können wir uns dafür entscheiden, weiterhin Fragen zu stellen. Wenn ein Model während des Chats versehentlich seine Identität preisgibt, wird die Abstimmung ungültig.

Insbesondere die Bewertungsregeln übernehmen den Elo-Mechanismus, um Fairness zu gewährleisten (alle Freunde, die Honor of Kings spielen, sind damit vertraut).

Zum Beispiel: Wenn ein bestimmtes Modell verliert, ist seine Punktzahl nicht unbedingt niedrig, weil es schwach ist. Dies ist zu erwarten. GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Bisher kann man sagen, dass diese Liste sehr beliebt ist. 73 Models aus der ganzen Welt haben an der Challenge teilgenommen und insgesamt wurden über 370.000 Stimmen von Internetnutzern abgegeben.

Tongyi Qianwen hat es in die Top 10 geschafft

Neben Claude 3 werfen wir auch einen Blick auf andere Spieler, die gute Leistungen erbracht haben.

Als erstes ist Bard zu erwähnen, das auf Gemini Pro basiert und hinter GPT-4Turbo und Claude 3 den vierten Platz belegt.

Bilder

kann man als etwas überraschend bezeichnen.

Netizens scherzten:

Google hat ein „Loch“ in der Rangliste geöffnet. GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Und rief schnell Jeff Dean und den Verantwortlichen von DeepMind an: Hey, arbeite härter (Wang Chai)

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Bilder

Dann möchte ich über Ali Tongyi Qianwen (Version 1.5, letzten Monat veröffentlicht) sprechen.

Es schaffte es in die Top Ten und belegte in dieser Rangliste den neunten Platz und ist der beste Spieler unter den einheimischen Spielern.

GPT-4王冠没掉!Claude 3竞技场人类投票成绩出炉:仅居第三Bilder

Dahinter sind neben anderen heimischen Spielern auch Claude 2, Gemini Pro, GPT-3.5 usw.

Vollständige Liste:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
Referenzlink:https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0

Das obige ist der detaillierte Inhalt vonDie GPT-4-Krone ist weg! Die menschlichen Abstimmungsergebnisse der Claude 3 Arena werden veröffentlicht: nur der dritte Platz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen