


Vor einiger Zeit haben Forscher von LMSYS Org (unter der Leitung von UC Berkeley) eine große Neuigkeit gemacht – den großen Qualifizierungswettbewerb für Sprachmodellversionen!
Dieses Mal brachte das Team nicht nur 4 neue Spieler mit, sondern auch eine (quasi) chinesische Bestenliste.
- OpenAI GPT-4
- OpenAI GPT-3.5-turbo
- Anthropic Claude-v1
- RWKV-4-Raven-14B (Open Source)
Es besteht kein Zweifel, solange GPT-4 Wenn jemand am Kampf teilnimmt, steht Steady an erster Stelle.
Allerdings übertraf Claude unerwartet nicht nur GPT-3.5, was OpenAI zum Altar brachte, und belegte den zweiten Platz, sondern lag auch nur 50 Punkte hinter GPT-4.
Im Vergleich dazu liegt der drittplatzierte GPT-3.5 nur 72 Punkte höher als Vicuna, das stärkste Open-Source-Modell mit 13 Milliarden Parametern.
Das 14 Milliarden Parameter umfassende „reine RNN-Modell“ RWKV-4-Raven-14B setzt auf seine hervorragende Leistung, um alle Transformer-Modelle zu übertreffen und den 6. Platz zu belegen – mit Ausnahme des Vicuna-Modells steht RWKV im Wettbewerb mit allen anderen Open-Source-Modellen Mehr als 50 % der Spiele ohne Unentschieden gewonnen.
Darüber hinaus hat das Team auch zwei separate Rankings erstellt: „Nur Englisch“ und „Nicht-Englisch“ (meist auf Chinesisch).
Man sieht, dass sich die Rankings vieler Models deutlich verändert haben.
Zum Beispiel schnitt ChatGLM-6B, das mit mehr chinesischen Daten trainiert wurde, besser ab, und GPT-3.5 übertraf Claude ebenfalls erfolgreich und belegte den zweiten Platz.
Die Hauptmitwirkenden an diesem Update sind Sheng Ying, Lianmin Zheng, Hao Zhang, Joseph E. Gonzalez und Ion Stoica.
Sheng Ying ist einer der drei Gründer von LMSYS Org (die anderen beiden sind Lianmin Zheng und Hao Zhang) und Doktorand am Fachbereich Informatik der Stanford University.
Sie ist auch ein Werk des beliebten FlexGen-Systems, das 175B-Modellinferenz auf einer einzelnen GPU ausführen kann. Es hat derzeit 8.000 Sterne erhalten.
Papieradresse: https://arxiv.org/abs/2303.06865
Projektadresse: https://github.com/FMInference/FlexGen
Persönliche Homepage :https://sites.google.com/view/yingsheng/home
„Open Source“ VS „Closed Source“
Mit Hilfe der Community sammelte das Team insgesamt 13.000 anonyme Stimmen und einige interessante Entdeckung.
Die Kluft zwischen proprietär und Open Source
Unter den drei proprietären Modellen ist das Claude-Modell von Anthropic bei Benutzern beliebter als GPT-3.5-Turbo.
Darüber hinaus zeigte Claude auch im Wettbewerb mit dem leistungsstärksten GPT-4 eine sehr konkurrenzfähige Leistung.
Der Siegestabelle unten nach zu urteilen, gewann Claude von den 66 Spielen ohne Unentschieden zwischen GPT-4 und Claude 32 (48 %).
In allen nicht unentschiedenen A-gegen-B-Kämpfen ist der Anteil der Sieger von Modell A
Allerdings besteht immer noch eine große Lücke zwischen anderen Open-Source-Modellen und diesen drei proprietären Modellen.
Insbesondere GPT-4 führt die Rangliste mit einem Elo-Score von 1274 an. Das sind fast 200 Punkte mehr als die beste Open-Source-Alternative auf der Liste, Vicuna-13B.
Nach dem Ausscheiden von Unentschieden gewann GPT-4 82 % der Spiele gegen Vicuna-13B und sogar 79 % gegen die vorherige Generation GPT-3.5-turbo.
Es ist jedoch erwähnenswert, dass diese Open-Source-Modelle auf der Bestenliste im Allgemeinen weniger Parameter haben als proprietäre Modelle und zwischen 3 und 14 Milliarden liegen.
Tatsächlich haben die jüngsten Fortschritte im LLM und in der Datenkuratierung es möglich gemacht, mit kleineren Modellen erhebliche Leistungsverbesserungen zu erzielen.
Googles neuestes PaLM 2 ist ein gutes Beispiel: Wir wissen, dass PaLM 2 bei Verwendung kleinerer Modellgrößen eine bessere Leistung als sein Vorgänger erzielt.
Daher ist das Team optimistisch, dass Open-Source-Sprachmodelle aufholen werden.
Wann wird GPT-4 „umkippen“?
Im Bild unten hat ein Benutzer eine knifflige Frage gestellt, die sorgfältiges Nachdenken und Planung erfordert. Während Claude und GPT-4 ähnliche Antworten lieferten, war Claudes Antwort etwas besser.
Aufgrund der Zufälligkeit der Stichproben stellte das Team jedoch fest, dass diese Situation nicht immer reproduziert werden kann. Manchmal kann GPT-4 auch die gleiche Sequenz wie Claude liefern, aber es scheiterte in diesem Generationsversuch.
Darüber hinaus stellte das Team fest, dass sich GPT-4 bei Verwendung der OpenAI-API und der ChatGPT-Schnittstelle etwas anders verhält, was möglicherweise auf unterschiedliche Eingabeaufforderungen, Sampling-Parameter oder andere unbekannte Faktoren zurückzuführen ist.
Ein Beispiel für Benutzer, die Claude gegenüber GPT-4 bevorzugen
Im Bild unten haben sie trotz erstaunlicher Fähigkeiten von Claude und GPT-4 immer noch mit dieser Art komplexer Probleme zu kämpfen Argumentationsfragen.
Ein Beispiel, bei dem ein Benutzer denkt, dass sowohl Claude als auch GPT-4 falsch sind
Zusätzlich zu diesen kniffligen Situationen gibt es viele einfache Probleme, die keine komplexen Überlegungen oder Kenntnisse erfordern.
In diesem Fall können Open-Source-Modelle wie Vicuna eine mit GPT-4 vergleichbare Leistung erbringen, sodass wir möglicherweise stattdessen ein etwas schwächeres (aber kleineres oder billigeres) Large Language Model (LLM) wie leistungsstärkere Modelle wie GPT verwenden können -4.
Elo-Score-Änderungen
Der Chatbot-Bereich war noch nie so wettbewerbsintensiv, seit drei leistungsstarke proprietäre Modelle beteiligt waren.
Da die Open-Source-Modelle im Spiel gegen proprietäre Modelle viele Spiele verloren, sanken ihre Elo-Werte.
Schließlich plant das Team auch die Öffnung einiger APIs, damit Benutzer ihre eigenen Chatbots registrieren können, um an Ranglistenspielen teilzunehmen.
Das obige ist der detaillierte Inhalt vonDie quasi-chinesischen Rankings der UC Berkeley LLM sind da! GPT-4 steht an erster Stelle und das chinesische Open-Source-RNN-Modell schafft es unter die ersten sechs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

Dreamweaver CS6
Visuelle Webentwicklungstools

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion