suchen
HeimTechnologie-PeripheriegeräteKIDie quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Vor einiger Zeit haben Forscher von LMSYS Org (unter der Leitung von UC Berkeley) eine große Neuigkeit gemacht – den großen Qualifizierungswettbewerb für Sprachmodellversionen!

Dieses Mal brachte das Team nicht nur 4 neue Spieler mit, sondern auch eine (quasi) chinesische Bestenliste.

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B (Open Source)

Es besteht kein Zweifel, solange GPT-4 Wenn jemand am Kampf teilnimmt, steht Steady an erster Stelle.

Allerdings übertraf Claude unerwartet nicht nur GPT-3.5, was OpenAI zum Altar brachte, und belegte den zweiten Platz, sondern lag auch nur 50 Punkte hinter GPT-4.

Im Vergleich dazu liegt der drittplatzierte GPT-3.5 nur 72 Punkte höher als Vicuna, das stärkste Open-Source-Modell mit 13 Milliarden Parametern.

Das 14 Milliarden Parameter umfassende „reine RNN-Modell“ RWKV-4-Raven-14B setzt auf seine hervorragende Leistung, um alle Transformer-Modelle zu übertreffen und den 6. Platz zu belegen – mit Ausnahme des Vicuna-Modells steht RWKV im Wettbewerb mit allen anderen Open-Source-Modellen Mehr als 50 % der Spiele ohne Unentschieden gewonnen.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Darüber hinaus hat das Team auch zwei separate Rankings erstellt: „Nur Englisch“ und „Nicht-Englisch“ (meist auf Chinesisch).

Man sieht, dass sich die Rankings vieler Models deutlich verändert haben.

Zum Beispiel schnitt ChatGLM-6B, das mit mehr chinesischen Daten trainiert wurde, besser ab, und GPT-3.5 übertraf Claude ebenfalls erfolgreich und belegte den zweiten Platz.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Die Hauptmitwirkenden an diesem Update sind Sheng Ying, Lianmin Zheng, Hao Zhang, Joseph E. Gonzalez und Ion Stoica.

Sheng Ying ist einer der drei Gründer von LMSYS Org (die anderen beiden sind Lianmin Zheng und Hao Zhang) und Doktorand am Fachbereich Informatik der Stanford University.

Sie ist auch ein Werk des beliebten FlexGen-Systems, das 175B-Modellinferenz auf einer einzelnen GPU ausführen kann. Es hat derzeit 8.000 Sterne erhalten.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Papieradresse: https://arxiv.org/abs/2303.06865

Projektadresse: https://github.com/FMInference/FlexGen

Persönliche Homepage :https://sites.google.com/view/yingsheng/home

„Open Source“ VS „Closed Source“

Mit Hilfe der Community sammelte das Team insgesamt 13.000 anonyme Stimmen und einige interessante Entdeckung.

Die Kluft zwischen proprietär und Open Source

Unter den drei proprietären Modellen ist das Claude-Modell von Anthropic bei Benutzern beliebter als GPT-3.5-Turbo.

Darüber hinaus zeigte Claude auch im Wettbewerb mit dem leistungsstärksten GPT-4 eine sehr konkurrenzfähige Leistung.

Der Siegestabelle unten nach zu urteilen, gewann Claude von den 66 Spielen ohne Unentschieden zwischen GPT-4 und Claude 32 (48 %).

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

In allen nicht unentschiedenen A-gegen-B-Kämpfen ist der Anteil der Sieger von Modell A

Allerdings besteht immer noch eine große Lücke zwischen anderen Open-Source-Modellen und diesen drei proprietären Modellen.

Insbesondere GPT-4 führt die Rangliste mit einem Elo-Score von 1274 an. Das sind fast 200 Punkte mehr als die beste Open-Source-Alternative auf der Liste, Vicuna-13B.

Nach dem Ausscheiden von Unentschieden gewann GPT-4 82 % der Spiele gegen Vicuna-13B und sogar 79 % gegen die vorherige Generation GPT-3.5-turbo.

Es ist jedoch erwähnenswert, dass diese Open-Source-Modelle auf der Bestenliste im Allgemeinen weniger Parameter haben als proprietäre Modelle und zwischen 3 und 14 Milliarden liegen.

Tatsächlich haben die jüngsten Fortschritte im LLM und in der Datenkuratierung es möglich gemacht, mit kleineren Modellen erhebliche Leistungsverbesserungen zu erzielen.

Googles neuestes PaLM 2 ist ein gutes Beispiel: Wir wissen, dass PaLM 2 bei Verwendung kleinerer Modellgrößen eine bessere Leistung als sein Vorgänger erzielt.

Daher ist das Team optimistisch, dass Open-Source-Sprachmodelle aufholen werden.

Wann wird GPT-4 „umkippen“?

Im Bild unten hat ein Benutzer eine knifflige Frage gestellt, die sorgfältiges Nachdenken und Planung erfordert. Während Claude und GPT-4 ähnliche Antworten lieferten, war Claudes Antwort etwas besser.

Aufgrund der Zufälligkeit der Stichproben stellte das Team jedoch fest, dass diese Situation nicht immer reproduziert werden kann. Manchmal kann GPT-4 auch die gleiche Sequenz wie Claude liefern, aber es scheiterte in diesem Generationsversuch.

Darüber hinaus stellte das Team fest, dass sich GPT-4 bei Verwendung der OpenAI-API und der ChatGPT-Schnittstelle etwas anders verhält, was möglicherweise auf unterschiedliche Eingabeaufforderungen, Sampling-Parameter oder andere unbekannte Faktoren zurückzuführen ist.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Ein Beispiel für Benutzer, die Claude gegenüber GPT-4 bevorzugen

Im Bild unten haben sie trotz erstaunlicher Fähigkeiten von Claude und GPT-4 immer noch mit dieser Art komplexer Probleme zu kämpfen Argumentationsfragen.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Ein Beispiel, bei dem ein Benutzer denkt, dass sowohl Claude als auch GPT-4 falsch sind

Zusätzlich zu diesen kniffligen Situationen gibt es viele einfache Probleme, die keine komplexen Überlegungen oder Kenntnisse erfordern.

In diesem Fall können Open-Source-Modelle wie Vicuna eine mit GPT-4 vergleichbare Leistung erbringen, sodass wir möglicherweise stattdessen ein etwas schwächeres (aber kleineres oder billigeres) Large Language Model (LLM) wie leistungsstärkere Modelle wie GPT verwenden können -4.

Elo-Score-Änderungen

Der Chatbot-Bereich war noch nie so wettbewerbsintensiv, seit drei leistungsstarke proprietäre Modelle beteiligt waren.

Da die Open-Source-Modelle im Spiel gegen proprietäre Modelle viele Spiele verloren, sanken ihre Elo-Werte.

Schließlich plant das Team auch die Öffnung einiger APIs, damit Benutzer ihre eigenen Chatbots registrieren können, um an Ranglistenspielen teilzunehmen.

Das obige ist der detaillierte Inhalt vonDie quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Neueste jährliche Zusammenstellung der besten technischen TechnikenNeueste jährliche Zusammenstellung der besten technischen TechnikenApr 10, 2025 am 11:22 AM

Für diejenigen unter Ihnen, die in meiner Kolumne neu sein könnten, erforsche ich allgemein die neuesten Fortschritte in der KI auf dem gesamten Vorstand, einschließlich Themen wie verkörpertes KI, KI-Argumentation, High-Tech

Europas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIEuropas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIApr 10, 2025 am 11:21 AM

Der ehrgeizige Aktionsplan in Europa Continent Continent zielt darauf ab, die EU als weltweit führend in der künstlichen Intelligenz zu etablieren. Ein Schlüsselelement ist die Schaffung eines Netzwerks von AI Gigafactories, in dem jeweils rund 100.000 fortschrittliche KI -Chips enthalten sind - das vierfache Capaci

Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Apr 10, 2025 am 11:20 AM

Der einheitliche Ansatz von Microsoft bei AI -Agentenanwendungen: Ein klarer Sieg für Unternehmen Die jüngste Ankündigung von Microsoft zu neuen KI -Agentenfunktionen beeindruckte von der klaren und einheitlichen Präsentation. Im Gegensatz zu vielen technischen Ankündigungen, die in TE festgefahren sind

Verkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoVerkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoApr 10, 2025 am 11:19 AM

Das jüngste Memo von Shopify -CEO Tobi Lütke erklärt kühn für jeden Mitarbeiter eine grundlegende Erwartung und kennzeichnet eine bedeutende kulturelle Veränderung innerhalb des Unternehmens. Dies ist kein flüchtiger Trend; Es ist ein neues operatives Paradigma, das in P integriert ist

IBM startet Z17 Mainframe mit vollem KI -IntegrationIBM startet Z17 Mainframe mit vollem KI -IntegrationApr 10, 2025 am 11:18 AM

IBMs Z17 Mainframe: Integration von KI für verbesserten Geschäftsbetrieb Letzten Monat erhielt ich im New Yorker Hauptquartier von IBM eine Vorschau auf die Fähigkeiten des Z17. Aufbau des Erfolgs des Z16 (im Jahr 2022 eingeführt und nachweisliche Einnahmen nachweisen

5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauen5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauenApr 10, 2025 am 11:17 AM

Schalte das unerschütterliche Vertrauen frei und beseitige die Notwendigkeit einer externen Validierung! Diese fünf Chatgpt-Eingabeaufforderungen führen Sie zu einer vollständigen Selbstständigkeit und einer transformativen Verschiebung der Selbstwahrnehmung. Einfach kopieren, einfügen und die Klammer anpassen

KI ist Ihnen gefährlich ähnlich wie Ihr GeistKI ist Ihnen gefährlich ähnlich wie Ihr GeistApr 10, 2025 am 11:16 AM

Eine aktuelle [Studie] von Anthropic, einer Sicherheit für künstliche Intelligenz und Forschungsunternehmen, beginnt die Wahrheit über diese komplexen Prozesse zu offenbaren und zeigt eine Komplexität, die unserer eigenen kognitiven Domäne beunruhigend ähnlich ist. Natürliche Intelligenz und künstliche Intelligenz können ähnlicher sein als wir denken. Snooping Inside: Anthropic Interpretierbarkeitsstudie Die neuen Ergebnisse der von Anthropic durchgeführten Forschungsergebnisse stellen im Bereich der mechanistischen Interpretierbarkeit erhebliche Fortschritte dar, die darauf abzielen, das interne Computer der KI zu verkehren - nicht nur zu beobachten, was KI tut, sondern verstehen, wie es auf künstlicher Neuronebene tut. Stellen Sie sich vor, Sie versuchen, das Gehirn zu verstehen, indem Sie zeichnen, welche Neuronen feuern, wenn jemand ein bestimmtes Objekt sieht oder über eine bestimmte Idee nachdenkt. A

Dragonwing präsentiert Qualcomms Edge -DynamikDragonwing präsentiert Qualcomms Edge -DynamikApr 10, 2025 am 11:14 AM

Qualcomms Dragonwing: Ein strategischer Sprung in Unternehmen und Infrastruktur Qualcomm erweitert seine Reichweite über Mobile aggressiv und zielt auf Unternehmens- und Infrastrukturmärkte weltweit mit seiner neuen Dragonwing -Marke ab. Dies ist nicht nur eine Rebran

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor