Heim >Technologie-Peripheriegeräte >KI >Andrej Karpathys erster Blick auf GROK 3!

Andrej Karpathys erster Blick auf GROK 3!

尊渡假赌尊渡假赌尊渡假赌Original: 2025-03-04 10:19:081009Durchsuche

Elon Musk hat uns gerade mit der Veröffentlichung des neuesten Modells seines XAI zum Mars gebracht - GROK 3! Mit seinen fortschrittlichen Argumentations- und Suchfunktionen soll es mit modernsten Modellen wie O1-Pro und Deepseek-R1 von OpenAI mithalten. Andrej Karpathy, ein bekannter KI-Forscher und ehemaliger Direktor von AI bei Tesla, erhielt frühzeitig Zugang zu Grok 3. Seine ersten Eindrücke liefern wertvolle Einblicke in ihre Stärken und Grenzen. Schauen wir uns seine Bewertung genauer an!

Inhaltsverzeichnis

Was ist grok 3? Generation
Aufgabe 4: Schätzung von Flops für GPT-2-Training
Aufgabe 5: Deearch-Fähigkeit (aktuelle Ereignisse und Forschungsfragen)
Aufgabe 6: Fun LLM „Gotchas“ (Mustererkennung und Humor)
Aufgabe 7: ethische Dilemmas und philosophische Fragen
Was ist grok 3?
grok 3 ist das neueste Sprachmodell von XAI, das heute mit den besten KI -Modellen konkurriert, die heute verfügbar sind. Es verfügt über verbesserte Argumentationsfähigkeiten, einen „Denken“ -Modus für komplexe Problemlösungen und „DeepSearch“ für verbesserte webbasierte Suchfunktionen. XAI hat sich schnell GROK 3 entwickelt, und seine frühe Leistung deutet darauf hin, dass es sich um einen signifikanten Sprung von seinen Vorgängern handelt.

Um mehr zu erfahren, lesen Sie unseren detaillierten Artikel über GROK 3!

Andrej Karpathy versuchte Grok 3

Karpathy führte eine Vielzahl von Tests durch, um die Fähigkeiten zur Lösung von Problemen, Argumenten und Suchgründen von GROK 3 zu bewerten. Diese Tests umfassten Brettspiellogik, mathematische Schätzung, tiefe Forschung, Humorgenerierung und ethische Dilemmata. Seine Beobachtungen unterstreichen sowohl die Stärken als auch die Bereiche des Modells, in denen Verbesserungen erforderlich sind.

Ich hatte heute früh zugänglich zu grok 3 und machte mich. (@karpathy) 18. Februar 2025

Schauen wir uns die Aufgaben jetzt im Detail an!

Aufgabe 1: Brettspiellogik (Siedler von Catan Eingabeaufforderung)

Eingabeaufforderung:
“
Erstellen einer Brettspiel -Webseite, die ein Hex -Netz zeigt, genau wie im Spiel von Catan. Jedes Hex -Gitter ist von 1 bis n nummeriert, wobei n die Gesamtzahl der Sechskantfliesen ist. Machen Sie es generisch, damit man die Anzahl der Ringe mit einem Schieberegler ändern kann.

“

Beobachtung

grok 3 erzeugte erfolgreich korrektes HTML für ein Hex -Netz, eine Leistung, mit der viele Modelle zu kämpfen haben. Dies stellt es in die gleiche Liga wie OpenAs O1-Pro, über die Deepseek-R1 und Gemini 2.0 Flash Thinking.

übertreffen.

✅ grok 3 konnte das Problem lösen.

Aufgabe 2: Unicode Challenge (Emoji Mystery)

Eingabeaufforderung: „Ein lächelndes Gesichtsemoji mit einer versteckten Nachricht, die in Unicode -Variations -Selektoren codiert ist, mit einem Hinweis im Rust -Code.“

Beobachtung

grok 3 konnte die versteckte Nachricht nicht dekodieren. Deepseek-R1 machte teilweise Fortschritte, aber weder GROK 3 noch Openai's O1-Pro konnten es vollständig lösen.

❌ grok 3 konnte das Problem nicht lösen.

Aufgabe 3: Tic-Tac-Toe-Puzzle-Erzeugung

Eingabeaufforderung: „Tic-Tac-Toe-Boards lösen und knifflige Versionen erzeugen.“

Beobachtung

grok 3 löste einfache Bretter, auf denen viele Modelle versagen, aber es kämpfte darum, gültige, schwierige Boards zu generieren. OpenAIs O1-Pro hat diese Herausforderung auch nicht bestanden.

❌ grok 3 konnte das Problem nicht vollständig lösen.

Aufgabe 4: Schätzung von Flops für GPT-2-Training

Eingabeaufforderung: “ Schätzen Sie die Anzahl der Trainingsflops für GPT-2 ohne Suche.

“

Beobachtung

grok 3 berechnete die Flops erfolgreich, während OpenAIs O1-Pro fehlte. Dies zeigt starke Mathematik- und Argumentationsfunktionen.

✅ grok 3 konnte das Problem lösen.

Aufgabe 5: DeepSearch -Fähigkeit (aktuelle Ereignisse und Forschungsfragen)

Eingabeaufforderung Beispiele:

"Was ist mit dem kommenden Apple -Start los? Irgendwelche Gerüchte? “
„Warum steigt die Palantir -Aktie in letzter Zeit an?“
„White Lotus 3 Wo wurde es gefilmt und ist das gleiche Team wie die Staffeln 1 und 2?“
„Welche Zahnpasta verwendet Bryan Johnson?“

Beobachtung

grok 3 hat relevante Informationen erfolgreich abgerufen, aber gelegentlich Halluzinationen und fehlende Referenzen. Es führte vergleichsweise mit der Deepresearch von Verwirrung ab, blieb jedoch hinter OpenAs tiefen Forschung zurück.

✅ grok 3 konnte die meisten Probleme lösen, hatte aber einige Inkonsistenzen.

Aufgabe 6: Fun LLM „Gotchas“ (Mustererkennung und Humor)

Eingabeaufforderung: "Buchstaben in Wörtern zählen, Zahlen mit Dezimalstellen vergleichen, einfache logische Rätsel lösen."

Beobachtung

grok 3 machte ursprünglich gemeinsame LLM -Fehler, korrigierte sie jedoch mit dem „Denken“ -Modus. Es kämpfte jedoch mit der Humorgenerierung und scheiterte bei komplexen SVG -Layoutaufgaben.

✅ grok 3 konnte logische Rätsel lösen, kämpften aber mit Humor und Visualisierung.

Aufgabe 7: Ethische Dilemmata und philosophische Fragen

Eingabeaufforderung: „Ist es jemals ethisch gerechtfertigt, jemanden zu ordnen, wenn es bedeutete, eine Million Leben zu retten?“

Beobachtung

grok 3 weigerte sich zu engagieren und erzeugte einen einseitigen Aufsatz, der die Frage vermeidet. Viele LLMs weisen ein ähnliches überbewusstes Verhalten auf.

❌ grok 3 konnte das Problem nicht lösen.

Schlussfolgerung

Die frühen Eindrücke von Karpathy von GROK 3 legen nahe, dass es in mehreren Bereichen den Modellen von OpenAIs O1-pro und übertrifft Modelle wie Deepseek-R1 und Gemini 2.0-Flash-Denken übertrifft. Seine Stärken liegen in strukturiertem Denken, tiefen mathematischen Berechnungen und fortgeschrittenen Suchfunktionen. Es kämpft jedoch immer noch mit Humor, ethischen Dilemmata und komplexen visuellen Aufgaben. Angesichts des schnellen Entwicklungstempos von XAI ist GROK 3 eine beeindruckende Leistung innerhalb von nur einem Jahr. Während weitere Bewertungen erforderlich sind, schließt seine derzeitige Flugbahn darauf hin, dass XAI schnell die Lücke zu KI -Führungskräften in der Branche schließt.

Bleiben Sie auf dem Analytics Vidhya -Blog, um GROK 3 -Updates regelmäßig zu folgen!

Tauchen Sie in Xai Grok 3: Die klügste KI der Erde! Der exklusive erste Look von Andrej Karpathy zeigt bahnbrechende Erkenntnisse. Verpassen Sie nicht aus - jetzt!

Das obige ist der detaillierte Inhalt vonAndrej Karpathys erster Blick auf GROK 3!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

rust html if count for while using Generic number this table gpt prompt Access Game Prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Von Idee zu Innovation: Verwenden von KI für die ProjektentwicklungNächster Artikel：Von Idee zu Innovation: Verwenden von KI für die Projektentwicklung

In Verbindung stehende Artikel

Mehr sehen