Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Der LMSYS-Benchmark, der mit GPT-4 den ersten Platz belegt, zeigt, dass das Claude-3-Modell eine gute Leistung erbringt

Der LMSYS-Benchmark, der mit GPT-4 den ersten Platz belegt, zeigt, dass das Claude-3-Modell eine gute Leistung erbringt

WBOY
WBOYnach vorne
2024-03-28 17:26:43491Durchsuche

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Nachrichten vom 28. März: Laut dem neuesten Benchmark-Bericht von LMSYS Org übertraf Claude-3 GPT-4 knapp und wurde zum „besten“ großen Sprachmodell auf der Plattform.

Auf dieser Website wird zunächst LMSYS Org vorgestellt, eine Forschungsorganisation, die gemeinsam von der University of California, Berkeley, der University of California, San Diego und der Carnegie Mellon University gegründet wurde.

Das System startet Chatbot Arena, eine Benchmark-Plattform für große Sprachmodelle (LLM), die Crowdsourcing nutzt, um große Modellprodukte anonym und zufällig zu testen. Ihre Bewertungen basieren auf dem Elo-Bewertungssystem, das in Wettbewerbsspielen wie Schach weit verbreitet ist.

Anhand der durch Benutzerabstimmung generierten Bewertungsergebnisse wählt das System jedes Mal zufällig zwei verschiedene große Modellroboter aus, um mit Benutzern zu chatten, und ermöglicht Benutzern, anonym auszuwählen, welches große Modellprodukt insgesamt eine bessere Leistung erbringt.

Chatbot Arena Seit seiner Einführung im letzten Jahr liegt GPT-4 fest an der Spitze und hat sich sogar zum Goldstandard für die Bewertung großer Modelle entwickelt.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Aber gestern besiegte Claude 3 Opus von Anthropic GPT-4 mit einem knappen Vorsprung von 1253 zu 1251 und LLM von OpenAI wurde von der Spitzenposition verdrängt. Da die Punktzahl zu knapp ausfiel, ließ die Agentur aus Gründen der Fehlerrate Claude 3 und GPT-4 den ersten Platz teilen, und eine weitere Vorschauversion von GPT-4 belegte ebenfalls den ersten Platz.

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

和 GPT-4 并列第一,LMSYS 基准测试显示 Claude-3 模型表现优异

Noch beeindruckender ist, dass es Claude 3 Haiku in die Top Ten geschafft hat. Haiku ist das lokale Größenmodell von Anthropic, das dem Gemini Nano von Google entspricht.

Es ist viel kleiner als Opus, das Billionen von Parametern hat, also ist es im Vergleich viel schneller. Laut LMSYS-Daten belegt Haiku den siebten Platz auf der Liste, mit einer Leistung, die mit GPT-4 vergleichbar ist.

Das obige ist der detaillierte Inhalt vonDer LMSYS-Benchmark, der mit GPT-4 den ersten Platz belegt, zeigt, dass das Claude-3-Modell eine gute Leistung erbringt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen