Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs-KI-php.cn

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 16, 2023 pm 10:43 PM

模型排行

Vor einiger Zeit haben Forscher von LMSYS Org (unter der Leitung von UC Berkeley) eine große Neuigkeit gemacht – den großen Qualifizierungswettbewerb für Sprachmodellversionen!

Dieses Mal brachte das Team nicht nur 4 neue Spieler mit, sondern auch eine (quasi) chinesische Bestenliste.

OpenAI GPT-4
OpenAI GPT-3.5-turbo
Anthropic Claude-v1
RWKV-4-Raven-14B (Open Source)

Es besteht kein Zweifel, solange GPT-4 Wenn jemand am Kampf teilnimmt, steht Steady an erster Stelle.

Allerdings übertraf Claude unerwartet nicht nur GPT-3.5, was OpenAI zum Altar brachte, und belegte den zweiten Platz, sondern lag auch nur 50 Punkte hinter GPT-4.

Im Vergleich dazu liegt der drittplatzierte GPT-3.5 nur 72 Punkte höher als Vicuna, das stärkste Open-Source-Modell mit 13 Milliarden Parametern.

Das 14 Milliarden Parameter umfassende „reine RNN-Modell“ RWKV-4-Raven-14B setzt auf seine hervorragende Leistung, um alle Transformer-Modelle zu übertreffen und den 6. Platz zu belegen – mit Ausnahme des Vicuna-Modells steht RWKV im Wettbewerb mit allen anderen Open-Source-Modellen Mehr als 50 % der Spiele ohne Unentschieden gewonnen.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Darüber hinaus hat das Team auch zwei separate Rankings erstellt: „Nur Englisch“ und „Nicht-Englisch“ (meist auf Chinesisch).

Man sieht, dass sich die Rankings vieler Models deutlich verändert haben.

Zum Beispiel schnitt ChatGLM-6B, das mit mehr chinesischen Daten trainiert wurde, besser ab, und GPT-3.5 übertraf Claude ebenfalls erfolgreich und belegte den zweiten Platz.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Die Hauptmitwirkenden an diesem Update sind Sheng Ying, Lianmin Zheng, Hao Zhang, Joseph E. Gonzalez und Ion Stoica.

Sheng Ying ist einer der drei Gründer von LMSYS Org (die anderen beiden sind Lianmin Zheng und Hao Zhang) und Doktorand am Fachbereich Informatik der Stanford University.

Sie ist auch ein Werk des beliebten FlexGen-Systems, das 175B-Modellinferenz auf einer einzelnen GPU ausführen kann. Es hat derzeit 8.000 Sterne erhalten.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Papieradresse: https://arxiv.org/abs/2303.06865

Projektadresse: https://github.com/FMInference/FlexGen

Persönliche Homepage ：https://sites.google.com/view/yingsheng/home

„Open Source“ VS „Closed Source“

Mit Hilfe der Community sammelte das Team insgesamt 13.000 anonyme Stimmen und einige interessante Entdeckung.

Die Kluft zwischen proprietär und Open Source

Unter den drei proprietären Modellen ist das Claude-Modell von Anthropic bei Benutzern beliebter als GPT-3.5-Turbo.

Darüber hinaus zeigte Claude auch im Wettbewerb mit dem leistungsstärksten GPT-4 eine sehr konkurrenzfähige Leistung.

Der Siegestabelle unten nach zu urteilen, gewann Claude von den 66 Spielen ohne Unentschieden zwischen GPT-4 und Claude 32 (48 %).

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

In allen nicht unentschiedenen A-gegen-B-Kämpfen ist der Anteil der Sieger von Modell A

Allerdings besteht immer noch eine große Lücke zwischen anderen Open-Source-Modellen und diesen drei proprietären Modellen.

Insbesondere GPT-4 führt die Rangliste mit einem Elo-Score von 1274 an. Das sind fast 200 Punkte mehr als die beste Open-Source-Alternative auf der Liste, Vicuna-13B.

Nach dem Ausscheiden von Unentschieden gewann GPT-4 82 % der Spiele gegen Vicuna-13B und sogar 79 % gegen die vorherige Generation GPT-3.5-turbo.

Es ist jedoch erwähnenswert, dass diese Open-Source-Modelle auf der Bestenliste im Allgemeinen weniger Parameter haben als proprietäre Modelle und zwischen 3 und 14 Milliarden liegen.

Tatsächlich haben die jüngsten Fortschritte im LLM und in der Datenkuratierung es möglich gemacht, mit kleineren Modellen erhebliche Leistungsverbesserungen zu erzielen.

Googles neuestes PaLM 2 ist ein gutes Beispiel: Wir wissen, dass PaLM 2 bei Verwendung kleinerer Modellgrößen eine bessere Leistung als sein Vorgänger erzielt.

Daher ist das Team optimistisch, dass Open-Source-Sprachmodelle aufholen werden.

Wann wird GPT-4 „umkippen“?

Im Bild unten hat ein Benutzer eine knifflige Frage gestellt, die sorgfältiges Nachdenken und Planung erfordert. Während Claude und GPT-4 ähnliche Antworten lieferten, war Claudes Antwort etwas besser.

Aufgrund der Zufälligkeit der Stichproben stellte das Team jedoch fest, dass diese Situation nicht immer reproduziert werden kann. Manchmal kann GPT-4 auch die gleiche Sequenz wie Claude liefern, aber es scheiterte in diesem Generationsversuch.

Darüber hinaus stellte das Team fest, dass sich GPT-4 bei Verwendung der OpenAI-API und der ChatGPT-Schnittstelle etwas anders verhält, was möglicherweise auf unterschiedliche Eingabeaufforderungen, Sampling-Parameter oder andere unbekannte Faktoren zurückzuführen ist.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Ein Beispiel für Benutzer, die Claude gegenüber GPT-4 bevorzugen

Im Bild unten haben sie trotz erstaunlicher Fähigkeiten von Claude und GPT-4 immer noch mit dieser Art komplexer Probleme zu kämpfen Argumentationsfragen.

Die quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs

Ein Beispiel, bei dem ein Benutzer denkt, dass sowohl Claude als auch GPT-4 falsch sind

Zusätzlich zu diesen kniffligen Situationen gibt es viele einfache Probleme, die keine komplexen Überlegungen oder Kenntnisse erfordern.

In diesem Fall können Open-Source-Modelle wie Vicuna eine mit GPT-4 vergleichbare Leistung erbringen, sodass wir möglicherweise stattdessen ein etwas schwächeres (aber kleineres oder billigeres) Large Language Model (LLM) wie leistungsstärkere Modelle wie GPT verwenden können -4.

Elo-Score-Änderungen

Der Chatbot-Bereich war noch nie so wettbewerbsintensiv, seit drei leistungsstarke proprietäre Modelle beteiligt waren.

Da die Open-Source-Modelle im Spiel gegen proprietäre Modelle viele Spiele verloren, sanken ihre Elo-Werte.

Schließlich plant das Team auch die Öffnung einiger APIs, damit Benutzer ihre eigenen Chatbots registrieren können, um an Ranglistenspielen teilzunehmen.

Das obige ist der detaillierte Inhalt vonDie quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Spielentwicklung tritt mit dem Dreamer -Portal von Upheaval in seine agentenische Ära einMay 02, 2025 am 11:17 AM

Umwälzungsspiele: Revolutionierung der Spielentwicklung mit KI -Agenten Upprudaval, ein Studio für Spieleentwicklung, das aus Veteranen von Branchengiganten wie Blizzard und Obsidian besteht

Uber will dein Robotaxi -Shop sein. Werden Anbieter sie lassen?May 02, 2025 am 11:16 AM

Die Robotaxi-Strategie von Uber: Ein Fahrwerk Ökosystem für autonome Fahrzeuge Auf der jüngsten Curbivore-Konferenz stellte Richard Willder von Uber ihre Strategie vor, die Robotaxi-Anbieter zu werden. Nutzung ihrer dominanten Position in

KI -Agenten, die Videospiele spielen, werden zukünftige Roboter verändernMay 02, 2025 am 11:15 AM

Videospiele erweisen sich als unschätzbare Testgründe für die modernste KI-Forschung, insbesondere bei der Entwicklung autonomer Agenten und realer Roboter, die möglicherweise sogar zum Streben nach künstlicher allgemeiner Intelligenz (AGI) beitragen. A

Der Startup Industrial Complex, VC 3.0 und James Curriers ManifestoMay 02, 2025 am 11:14 AM

Die Auswirkungen der sich entwickelnden Risikokapitallandschaft sind in Medien, Finanzberichten und alltäglichen Gesprächen offensichtlich. Die spezifischen Konsequenzen für Anleger, Startups und Mittel werden jedoch häufig übersehen. Risikokapital 3.0: ein Paradigma

Adobe Updates Creative Cloud und Firefly bei Adobe Max London 2025May 02, 2025 am 11:13 AM

Adobe Max London 2025 lieferte erhebliche Aktualisierungen für Creative Cloud und Firefly, was eine strategische Verlagerung in Richtung Zugänglichkeit und generativer KI widerspiegelt. Diese Analyse enthält Erkenntnisse aus Briefings vor der Ereignis mit Adobe Leadership. (Hinweis: Adob

Alles, was Meta in Lamacon angekündigt hatMay 02, 2025 am 11:12 AM

Die Lamacon-Ankündigungen von Meta zeigen eine umfassende KI-Strategie, die direkt mit geschlossenen KI-Systemen wie OpenAIs konkurrieren und gleichzeitig neue Einnahmequellen für seine Open-Source-Modelle erstellt. Dieser vielfältige Ansatz zielt auf BO ab

Die Brau -Kontroverse über den Vorschlag, dass KI nichts anderes ist als nur normale TechnologieMay 02, 2025 am 11:10 AM

Es gibt schwerwiegende Unterschiede im Bereich der künstlichen Intelligenz zu dieser Schlussfolgerung. Einige bestehen darauf, dass es Zeit ist, die "neuen Kleidung des Kaisers" aufzudecken, während andere der Idee, dass künstliche Intelligenz nur gewöhnliche Technologie ist, stark aussieht. Lassen Sie uns darüber diskutieren. Eine Analyse dieses innovativen KI -Durchbruchs ist Teil meiner laufenden Forbes -Spalte, die die neuesten Fortschritte im Bereich der KI abdeckt, einschließlich der Identifizierung und Erklärung einer Vielzahl einflussreicher KI -Komplexitäten (klicken Sie hier, um den Link anzuzeigen). Künstliche Intelligenz als gemeinsame Technologie Erstens sind einige Grundkenntnisse erforderlich, um die Grundlage für diese wichtige Diskussion zu schaffen. Derzeit gibt es eine große Menge an Forschungen, die sich zur Weiterentwicklung künstlicher Intelligenz widmen. Das Gesamtziel ist es, künstliche allgemeine Intelligenz (AGI) und sogar mögliche künstliche Super Intelligence (AS) zu erreichen

Model -Bürger, warum KI -Wert der nächste Business -Maßstab istMay 02, 2025 am 11:09 AM

Die Effektivität des KI -Modells eines Unternehmens ist jetzt ein wichtiger Leistungsindikator. Seit dem KI -Boom wurde generative KI für alles verwendet, vom Komponieren von Geburtstagseinladungen bis zum Schreiben von Softwarecode. Dies hat zu einer Verbreitung von Sprachmod geführt

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

1 Monate vorByDDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vorByDDD

Wo finden Sie den Site Office -Schlüssel in Atomfall

1 Monate vorByDDD

Heiße Werkzeuge

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7911

1652

1411

1303

1248