ホームページ >テクノロジー周辺機器 >AI >Andrej Karpathy' s Grok 3を最初に見てください!
イーロン・マスクは、彼のXaiの最新モデルであるGrok 3のリリースで火星に私たちを連れて行ってくれました!高度な推論と検索機能により、OpenaiのO1-ProやDeepSeek-R1などの最新モデルに匹敵することを目的としています。有名なAI研究者であり、テスラのAIの元ディレクターであるAndrej Karpathyは、Grok 3への早期アクセスを与えられました。彼の最初の印象は、その強みと限界に対する貴重な洞察を提供します。彼のレビューを詳しく見てみましょう!
を試しました
Karpathyは、Grok 3の問題解決、推論、および検索機能を評価するために、さまざまなテストを実施しました。これらのテストには、ボードゲームロジック、数学的推定、深い研究、ユーモア生成、および倫理的ジレンマが含まれていました。彼の観察結果は、モデルの強みと改善が必要な領域の両方を強調しています。 今日、Grok 3への早期アクセスが与えられたので、簡単な雰囲気のチェックを実行できる最初の数少ない人の1人になりました。今すぐタスクを詳細に見てみましょう!
カタンのゲーム入植者と同じように、16進グリッドを示すボードゲームWebページを作成します。各ヘックスグリッドには1からNが番号が付けられています。ここで、nは16進数の総数です。ジェネリックにするので、スライダーを使用してリングの数を変更できます。 観察タスク1:ボードゲームロジック(CATANプロンプトの入植者)
「
プロンプト:
Grok 3は、16進グリッドの正しいHTMLを正常に生成しました。これは、多くのモデルが苦労している成果です。これは、OpenaiのO1-Pro、Autforming Deepseek-R1およびGemini 2.0 Flash Thinkingと同じリーグに配置します。
verdict
✅grok 3は問題を解決することができました。タスク2:Unicode Challenge(絵文字ミステリー)
プロンプト:「錆コードのヒントを含む、ユニコードバリエーションセレクターにエンコードされた隠されたメッセージを備えた笑顔の顔の絵文字。」 観察
Grok 3は隠されたメッセージのデコードに失敗しました。 deepseek-r1は部分的な進歩を遂げましたが、Grok 3もOpenaiのO1-Proも完全に解決できませんでした。
verdict❌grok 3は問題を解決することができませんでした。 タスク3:TIC-TAC-TOEパズル生成
プロンプト:「tic-tac-toeボードを解き、トリッキーなバージョンを生成します。」観察
Grok 3は、多くのモデルが失敗するが、有効なトリッキーなボードを生成するのに苦労した単純なボードを正しく解決しました。 OpenaiのO1-Proもこの課題に失敗しました verdict
❌grok 3は問題を完全に解決することができませんでした。
タスク4:GPT-2トレーニングのフロップの推定
プロンプト:
「観察 Grok 3はフロップを正常に計算しましたが、OpenaiのO1-Proは失敗しました。これは、強力な数学的および推論能力を示しています
verdict✅grok 3は問題を解決することができました。
タスク5:DeepSearch機能(現在のイベントと研究の質問)
プロンプトの例:
「なぜ最近パランティアストックが急上昇するのですか?」
プロンプト:
「言葉で文字を数え、数字を小数と比較し、単純なロジックパズルを解きます。」 観察Grok 3は最初は一般的なLLMの間違いを犯しましたが、「思考」モードで修正しました。しかし、それはユーモアの生成に苦労し、複雑なSVGレイアウトタスクで失敗しました。
verdict
タスク7:倫理的ジレンマと哲学的質問 「100万人の命を救うことを意味する場合、誰かを誤解することは倫理的に正当化できますか?」
観察 Grok 3は関与することを拒否し、質問を避けて1ページのエッセイを生成しました。多くのLLMは、同様の過剰な動作を示します
verdict
結論
Analytics Vidhyaブログにご注目ください。
以上がAndrej Karpathy' s Grok 3を最初に見てください!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。