Heim >Technologie-Peripheriegeräte >KI >Kimi K1.5 gegen OpenAI O1: Welches Modell für besseres Argument?
Openai war der erste, der Argumentationsmodelle wie O1 und O1-Mini einführte, aber ist es der einzige Spieler im Spiel? Nicht durch einen langen Schuss! Chinesische LLMs wie Deepseek, Qwen und jetzt treten Kimi auf, um Openai herauszufordern, indem sie ähnliche Fähigkeiten zu viel günstigeren Preisen bieten. Nach Deepseeks beeindruckendes Debüt ist es Kimi Ai an der Reihe, mit seinem neuen Kimi K1.5 -Modell zu glänzen. In diesem Artikel werden wir Kimi K1.5 gegen OpenAI O1 auf die gleichen Aufgaben testen und sehen, welches besser ist!
völlig kostenlos mit unbegrenzter Verwendung
Echtzeit-Websuche auf 100 WebsitesAdvanced COT -Argumentation, kostenlos verfügbar
Kimi K1.5 entspricht den O1- und O1-Mini von OpenA und übertrifft Langstrecken-Aufgaben und übertrifft GPT-4O- und Claude-Sonnet 3.5 in Kurzschlüsselaufgaben. Die multimodalen Fähigkeiten, insbesondere im visuellen Denken, positionieren es als starker Konkurrent für OpenAI-Modelle. Die Verwendung von RL-Trainingstechniken, multimodalen Datenrezepten und der Infrastrukturoptimierung war bei der Erreichung dieser Ergebnisse entscheidend.
Das Kimi K1.5-Langzeitmodell erzielt die Leistung der modernsten (SOTA) durch eine Kombination aus langkontexter Skalierung, verbesserten Methoden zur Politikoptimierung und der Verstärkung des Vision-Textes (RL). Im Gegensatz zu herkömmlichem Sprachmodell-Vorbau, das sich auf die nächsten Vorhersage stützt und durch verfügbare Trainingsdaten begrenzt ist, nutzt Kimi K1.5 RL, um seine Trainingsdaten zu skalieren, indem er lernt, mit Belohnungen zu untersuchen. Dieser Ansatz legt ein simpeles, aber effektives RL -Framework fest, wodurch komplexe Techniken wie Monte -Carlo -Baumsuche oder Wertfunktionen vermieden werden.
Schlüsselbenchmarks unterstreichen die außergewöhnliche Leistung des Modells:
Die Fähigkeit des Modells, Langkontextaufgaben wie Planung, Reflexion und Korrektur zu erledigen, wird durch teilweise Einführung während des Trainings, die Verbesserung der Effizienz und Leistung verbessert.
Das Kurzschlüsselmodell baut auf dem Erfolg des Langzeitmodells auf, wobei effektive LONG2Short-Methoden verwendet werden, um langfarbige Techniken in ein effizienteres Framework zu zerstören. Dieser Ansatz kombiniert Feinabstimmungen, Verstärkungslernen und lang zu kurze Destillation und liefert schnelle und genaue Begründung für Kurzkontextaufgaben.
bemerkenswerte Erfolge umfassen:
Die lang zu kurzen Destillationstechniken, einschließlich Modellverarbeitung und kürzester Abstoßungsabtastung, sorgen Sie für eine hohe Leistung mit reduzierten Rechenkosten, wodurch das Kurzschlussmodell hocheffizient ist.
Um mehr zu erfahren, können Sie hier ihr Forschungsarbeit überprüfen!
Bewerten wir nun Kimi K1.5 und Openai O1 auf denselben Eingabeaufforderungen!
Eingabeaufforderung: Lösen Sie dieses Zebra -Puzzle richtig.
Collector Position | Nationality | Lot | Amount Spent | Shirt Color |
---|---|---|---|---|
Collector #1 | Portuguese | Toy | Unknown | Blue |
Collector #2 | Japanese | Lot 40 | 0,000 | Purple |
Collector #3 | Italian | Lot 30 | 0,000 | Pink |
Collector #4 | Canadian | Unknown | 0,000 | Yellow |
Collector #5 | Unknown | Unknown | 0,000 | Unknown |
Collector # | Nationality | Lot | Item | Amount | Shirt Color |
---|---|---|---|---|---|
1 | Italian | 30 | Clock | 0,000 | Blue |
2 | Japanese | 40 | Painting | 0,000 | Purple |
3 | Canadian | 10 | Vase | 0,000 | Pink |
4 | Portuguese | 34 | Toy | 0,000 | Yellow |
5 | (Unknown) |
Die von OpenAI O1 bereitgestellte Antwort ist erheblich ungenau. Die resultierende Tabelle entspricht nicht dem in der Frage angegebenen Format, so dass die Antwort unzuverlässig ist. Auf der anderen Seite lieferte Kimi K1.5 eine Antwort im richtigen Format gemäß der Frage, aber der Inhalt der Antwort selbst ist falsch.
Urteil:
openai o1: ❌ | Kimi K1.5: ❌
Eingabeaufforderung: Sie gehen in ein Zimmer und sehen ein Bett. Auf dem Bett befinden sich zwei Hunde, vier Katzen, eine Giraffe, fünf Kühe und eine Ente. Es gibt auch drei Stühle und einen Tisch. Wie viele Beine sind auf dem Boden?
richtige Antwort: 22 (2 (menschlich) 4 (Tabelle) 4 (Bett) 12 (3 Stühle))
OpenAI O1 dauerte zu lange, um die Antwort zu generieren. Während die Berechnungen korrekt waren und eine detaillierte Erklärung enthielten, konnte sie die menschlichen Beine auf dem Boden nicht berücksichtigen, was seine Antwort falsch machte. Im Gegensatz dazu hat Kimi K1.5 die richtige Antwort in kürzerer Zeit.
Urteil:
openai o1: ❌ | Kimi K1.5: ✅
Eingabeaufforderung: Erstellen Sie eine einfache HTML -Seite mit einer Schaltfläche, die die Hintergrundfarbe auf Pink ändert, wenn Sie mit einigen Konfetti klicken.
Beide Modelle hielten an der Eingabeaufforderung fest und lieferten korrekte Antworten. In Bezug auf Aussehen und Funktionalität der Webseite macht Kimi K1.5 einen viel besseren Job!
Urteil:
openai o1: ❌ | Kimi K1.5: ✅
Eingabeaufforderung: Lesen Sie den Artikel-https://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/, um den Prozess der Erstellung einer Vektordatenbank für Wikipedia-Daten zu verstehen. Fassen Sie die wichtigsten Schritte präzise zusammen.
Schlüsselpunkte, um den Prozess des Erstellens einer Vektordatenbank für Wikipedia -Daten zusammenzufassen:
Der Artikel „Ein umfassender Leitfaden zum Aufbau von Agentenlag -Systemen mit Langgraph“ beschreibt den Prozess der Erstellung einer Vektordatenbank für Wikipedia -Daten als Teil der Erstellung eines Agentenlagersystems. Hier sind die wichtigsten Schritte zusammengefasst:
Kimi K1.5s Ausgabe ist exzentiert, indem detaillierte, umsetzbare Implementierungsschritte mit spezifischen technischen Parametern und Bibliotheksanforderungen bereitgestellt werden. Es gleicht eine umfassende Tiefe mit der klaren Organisation aus, erklärt die Argumentation hinter jedem Schritt und verbindet den technischen Prozess effektiv mit dem breiteren Ziel, ein Agentenlag -System aufzubauen.
Urteil:
openai o1: ❌ | Kimi K1.5: ✅
Eingabeaufforderung: Das Bild zeigt ein stark vereinfachtes Schema eines Datencenter im Raum, wobei einige vereinfachte Annahmen, die Rechtfertigung erfordern.
Aufgaben :
Schätzen Sie die untere Grenze der erforderlichen Kühleroberfläche für den Datencenter.
Eingabebild:
unten finden Sie einen Schritt-für-Schritt-Argumentationsprozess mit klar festgelegten Annahmen, Begründungen und der Anwendung des ersten Thermodynamikgesetzes. Das Endergebnis ist eine untere Grenze für den Kühlerbereich, der erforderlich ist, um 1 GW Wärme zu leiten, das von einem raumbasierten Rechenzentrum erzeugt wird.
1. Leistungseingang und Wärmeerzeugung:
Angenommen, das Rechenzentrum wird von einer 1 GW Solar -Stromquelle angetrieben. Nahezu der gesamte von GPUs verbrauchte elektrische Strom wird in Wärme umgewandelt (die Umwandlung von elektrischer zu thermischer Energie ist im stationären Zustand im Wesentlichen 100%, da die gesamte nicht gespeicherte elektrische Energie schließlich als Wärme auflösen muss). Somit beträgt die zu entfernende Abwärme ungefähr 1 GW = 1 × 10^9 W.
2. Nur Strahlungswärmeübertragung:
Im Weltraum gibt es keine konvektive oder leitende Kühlung in der Umwelt - nur Strahlungswärmeübertragung. Daher ist die primäre Art der Wärmeabstoßung die thermische Strahlung von einer Kühleroberfläche in den tiefen Raum.
3. Emissionsgröße und Absorptionsvermögen:
Angenommen, der Kühler ist mit einer hohen Emissive-Oberfläche, Sayε = 0,9 ε = 0,9, konstruiert. Dies ist plausibel für Oberflächen, die mit bestimmten hochemissiven Farben oder Materialien beschichtet sind. Für eine untere Grenze für den erforderlichen Bereich nehmen wir ideale Bedingungen an:
Um die untere Grenze der erforderlichen Kühleroberfläche für das Rechenzentrum im Weltraum abzuschätzen, beginne ich zunächst das Stefan-Boltzmann-Gesetz, das die durch eine Oberfläche strahlte Leistung beschreibt:
Um mit der Sonne und dem tiefgreifenden Raum im thermischen Management umzugehen, sollte das Rechenzentrum mit einem Sonnenschutz vor direktem Sonnenlicht abgeschirmt werden oder an einem Ort positioniert sein, an dem es nicht der Sonne ausgesetzt ist, wie der dunklen Seite eines Planeten oder des Mondes. Der Kühler muss so ausgelegt sein, dass er die Wärme effizient in das Vakuum des Raums ausstrahlt, was extrem kalt ist.
Das erste Gesetz der Thermodynamik gilt für dieses Szenario, indem sichergestellt wird, dass die vom Rechenzentrum erzeugte Wärme der vom Kühler abgestrahlten Wärme entspricht. Dieses Gesetz garantiert, dass die Gesamtenergie im System konstant bleibt, wobei die Wärme im Design des Kühlers vollständig berücksichtigt wird.
Die untere Grenze der erforderlichen Kühleroberfläche beträgt ungefähr 766 Quadratmeter . Das Rechenzentrum sollte vor direktem Sonnenlicht abgeschirmt sein und der Kühler sollte für die Wärmeabteilung im Vakuum des Raums optimiert werden, um das thermische Gleichgewicht aufrechtzuerhalten.
Kimi K1.5 ist aus mehreren Gründen überlegen. Es zeigt ein klares mathematisches Denken durch einen Schritt-für-Schritt-Ansatz, beginnend mit der grundlegenden Stefan-Boltzmann-Rechtsgleichung. Kimi definiert deutlich alle Variablen und ihre Werte, zeigt den mathematischen Prozess der Lösung des Kühlerbereichs und liefert ein konkretes numerisches Ergebnis von 766 Quadratmetern. Die Erklärung enthält klare Rechtfertigungen für thermische Managementstrategien, praktische Überlegungen wie die Positionierung des Kühlers auf der dunklen Seite eines Planeten und eine direkte Verbindung zum ersten Gesetz der Thermodynamik mit realer Anwendung. Die Antwort schließt mit bestimmten Zahlen und umsetzbaren Empfehlungen.
Im Gegensatz dazu bleibt die Reaktion von OpenAI O1 theoretischer und konzentriert sich auf allgemeine Annahmen und die Einrichtung, anstatt die tatsächliche Berechnung zu vervollständigen. Es fehlt eine konkrete numerische Lösung und es geht nicht um den Aspekt des thermischen Managements vollständig an, was ihn im Vergleich zu den detaillierten und lösungsorientierten Ansatz von Kimi K1.5 weniger praktisch und umsetzbar macht.Urteil:
Endergebnis: Kimi K1.5 gegen OpenAI O1
Task | Winner |
---|---|
Zebra Puzzle | Neither |
Logical Reasoning | Kimi k1.5 |
Create an HTML Site | Kimi k1.5 |
Web Search | Kimi k1.5 |
Image Analysis | Kimi k1.5 |
Schlussfolgerung
Bleiben Sie auf dem Analytics Vidhya -Blog für weitere großartige Inhalte!
Das obige ist der detaillierte Inhalt vonKimi K1.5 gegen OpenAI O1: Welches Modell für besseres Argument?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!