suchen
HeimTechnologie-PeripheriegeräteKIGPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Die maßgebliche Liste der „Large Model Qualifying Competition“ Chatbot Arena wurde aktualisiert:

Google Bard übertraf GPT-4 und belegte den zweiten Platz, nur der zweite nach GPT-4 Turbo.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Viele Internetnutzer äußerten jedoch „Unzufriedenheit“ und „unfair“ darüber.

Es stellte sich heraus, dass Jeff Dean, der Leiter von Google AI, verriet, dass die Leistung von Bard erheblich verbessert wurde, weil er mit einer neuen Version des großen Modells Gemini Pro-scale ausgestattet ist.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Das bedeutet auch, dass Bard, der „Ranglistenspiele“ spielt, die Möglichkeit hat, eine Verbindung zum Internet herzustellen.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Die Zweifel der Internetnutzer drehen sich um diesen Punkt:

Es ist äußerst leicht, Missverständnisse zu verursachen, wenn große Online- und Offline-Modelle auf derselben Rangliste gemischt werden.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Omar Sanseviero, „Chief Alpaca Officer“ von Hugging Face, sagte auch:

Kann ich in diesem Fall auch Mixtral mit Suchfunktion an lmsys übermitteln?

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Angesichts verschiedener Zweifel antwortete Imsys offiziell:

  • Arena-Ranglisten sind in Echtzeit, Sie können Modelle direkt vergleichen und in Arena abstimmen ist offen und transparent, und in Kürze werden Forschungsergebnisse zur Benutzer-Prompt-Diversität und Abstimmungsqualität sowie entsprechende Datensätze veröffentlicht.
  • In Bezug auf das Problem, das den Internetnutzern am meisten am Herzen liegt, ist GPT-4, das von Bard übertroffen wurde, ein In der Offline-Version sagte Imsys: „Wenn der Zugriff auf Echtzeitdaten das Benutzererlebnis verbessern kann, werden die Rankings dies widerspiegeln.“

Und direkt @OpenAI und Bing sowie der Microsoft-Manager Mikhail Parakhin haben ihre Bereitschaft zum Ausdruck gebracht, die GPT-4-Onlineversion oder Bing Copilot in die Arena aufzunehmen.

Die neueste Nachricht ist, dass das neueste Modell gpt-4-0125-preview von OpenAI nun die Arena betreten hat und darauf wartet, dass Benutzer an der Abstimmung teilnehmen.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommenWie hat Bard GPT-4 übertroffen?

Chatbot Arena ist eine maßgebliche Liste großer Modelle, erstellt von der Organisation Imsys (Large Model Systems Organization) unter der Leitung von Forschern der UC Berkeley.

Dieses Ranking verwendet anonyme 1V1Battle-Abstimmungsregeln und wird basierend auf dem Elo-Bewertungssystem bewertet.

Im Einzelnen sieht die Abstimmungsseite wie folgt aus: Die beiden Modelle, Modell A und B, sind beide anonym. Benutzer bewerten die Antworten des Modells, nachdem sie mehrere Fragen gestellt haben: A ist besser, B ist besser. und A und B. Sowohl A als auch B sind gleich gut.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommenEs ist erwähnenswert, dass die Abstimmung ungültig ist, wenn die Identität des Models während des Frage- und Antwortvorgangs preisgegeben wird.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommenLaut aktueller Liste gibt es 56 große Modelle in der Arena:

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen Zuvor dominierte GPT-4 mit seinem „weit vorne“-Score lange Zeit die Liste, nach der Veröffentlichung jedoch Mit der neuen Version von Bard übertraf sie GPT direkt. Die beiden Versionen von 4 stürmten auf den zweiten Platz und lagen nur 34 Punkte hinter dem GPT-4 Turbo auf dem ersten Platz:

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen Genauer gesagt, in allen Modellen A-gegen-B-Matchups ohne Unentschieden, Modell Das Gewinnverhältnis von A ist wie folgt:

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen und die Anzahl der Heads-up-Matches für jedes Paar von Modellkombinationen

(kein Unentschieden)

:

Darüber hinaus verwenden Chatbot Arena-Bestenlisten Bootstrapping, um Elo-Score-Schätzungen 1.000 Mal nach dem Zufallsprinzip abzufragen, um Konfidenzintervalle und mehr auszuwerten.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Die durchschnittliche Gewinnquote eines einzelnen Modells im Vergleich zu allen anderen Modellen ist wie folgt:

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Es ist jedoch zu beachten, dass die Arena-Rangliste in Echtzeit erfolgt und Bard derzeit auf dem zweiten Platz liegt, es hat insgesamt nur mehr als 3.000 Stimmen.

Im Vergleich dazu hat die Anzahl der Stimmen für GPT-4 Turbo über 30.000 erreicht, und die Stimmen der beiden übertroffenen Versionen sind ebenfalls um ein Vielfaches höher als die von Bard.

GPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen

Da nun die neueste Version von GPT-4 auf den Markt gekommen ist (obwohl sie in der Rangliste noch nicht aktualisiert wurde), müssen wir auf die weiteren Ergebnisse warten~

Referenzlink: https:// twitter.com/lmsysorg /status/1752035632489300239.

Das obige ist der detaillierte Inhalt vonGPT-4 weigerte sich zu akzeptieren und wurde von Bard überholt: Das neueste Modell ist auf den Markt gekommen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaErste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrAV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonVerständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterAutomatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen