Table of contents
Grok 3은 16 진 그리드에 대한 올바른 HTML을 성공적으로 생성했으며, 많은 모델이 어려움을 겪고 있습니다. 이것은 Openai의 O1-Pro와 같은 리그에 있으며 Deepseek-R1 및 Gemini 2.0 플래시 사고를 능가합니다. 평결
Grok 3은 문제를 해결할 수있었습니다
프롬프트 : “Rust Code의 힌트와 함께 유니 코드 변형 선택기에 숨겨진 메시지가있는 웃는 얼굴 이모티콘. 관찰
Grok 3은 숨겨진 메시지를 해독하지 못했습니다. DeepSeek-R1은 부분적인 진전을 보였지만 Grok 3이나 Openai의 O1-Pro는 완전히 해결할 수 없었습니다.
평결
Grok 3은 문제를 완전히 해결할 수 없었습니다. 작업 4 : GPT-2 훈련을위한 플롭 추정 프롬프트 : “ 검색없이 GPT-2에 대한 훈련 플롭의 수를 추정합니다.
관찰Grok 3은 Flops를 성공적으로 계산하는 반면 Openai의 O1-Pro가 실패했습니다. 이것은 강력한 수학적 및 추론 능력을 보여줍니다.
평결
Grok 3은 문제를 해결할 수있었습니다
“다가오는 Apple 출시는 무엇입니까? 소문이 있나요?”?>
“브라이언 존슨은 어떤 치약을 사용합니까?” 관찰 Grok 3은 관련 정보를 성공적으로 검색했지만 가끔 환각과 언급이 누락되었습니다. 그것은 Perplexity의 깊은 연구와 비교하여 수행되었지만 Openai의 깊은 연구 뒤에 뒤떨어졌습니다. 평결
Grok 3은 대부분의 문제를 해결할 수 있었지만 일부 불일치가있었습니다.
관찰
결론
Karpathy의 Grok 3에 대한 초기 인상은 OpenAi의 O1-Pro와 동등하고 DeepSeek-R1 및 Gemini 2.0 플래시 사고와 같은 모델보다 성능이 우수하다는 것을 시사합니다. 그것의 강점은 구조적 추론, 깊은 수학적 계산 및 고급 검색 기능에 있습니다. 그러나 여전히 유머, 윤리적 딜레마 및 복잡한 시각적 작업으로 어려움을 겪고 있습니다. Xai의 빠른 개발 속도를 감안할 때 Grok 3은 단 1 년 만에 인상적인 성과입니다. 추가 평가가 필요하지만, 현재의 궤적은 XAI가 업계의 AI 리더들과의 격차를 신속하게 폐쇄하고 있음을 시사합니다.
Grok 3은 문제를 해결할 수 없었습니다.
위 내용은 Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!