>기술 주변기기 >일체 포함 >Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!

Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌원래의
2025-03-04 10:19:081003검색
엘론 머스크는 방금 Xai의 최신 모델 인 Grok 3의 출시로 화성으로 우리를 데려갔습니다! 고급 추론 및 검색 기능을 통해 OpenAI의 O1-Pro 및 DeepSeek-R1과 같은 최첨단 모델과 경쟁하는 것을 목표로합니다. 잘 알려진 AI 연구원이자 Tesla의 AI의 전 이사 인 Andrej Karpathy는 Grok 3에 조기 접근 할 수있었습니다. 그의 초기 인상은 그 강점과 한계에 대한 귀중한 통찰력을 제공합니다. 그의 리뷰를 자세히 살펴 보겠습니다!

Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!Table of contents

What is Grok 3?
  • Andrej Karpathy Tried Grok 3
  • Task 1: Board Game Logic (Settlers of Catan Prompt)
  • Task 2: Unicode Challenge (Emoji Mystery)
  • Task 3: Tic-Tac-Toe Puzzle GENERTENT 작업 4 : GPT-2 훈련에 대한 플로우 추정
  • 작업 5 : 심도있는 연구 능력 (현재 이벤트 및 연구 질문) 작업 6 : 재미있는 LLM“Gotchas”(패턴 인식 및 유머) Task 7 : 윤리적 딜레마 및 철학적 질문
  • Grok 3은 무엇입니까?
  • Grok 3은 Xai의 최신 언어 모델로 오늘날 사용 가능한 최고의 AI 모델과 경쟁하도록 설계되었습니다. 개선 된 추론 능력, 복잡한 문제 해결을위한 "사고"모드, 향상된 웹 기반 조회 기능을위한 "심해"가 특징입니다. Xai는 Grok 3을 신속하게 개발했으며 초기 성능은 전임자들의 큰 도약임을 암시합니다.
  • . Grok 3에 대한 자세한 기사를 더 많이 읽으려면!
  • Andrej Karpathy는 Grok 3
  • 를 시도했습니다 Karpathy는 Grok 3의 문제 해결, 추론 및 검색 기능을 평가하기 위해 다양한 테스트를 수행했습니다. 이러한 테스트에는 보드 게임 논리, 수학적 추정, 깊은 연구, 유머 생성 및 윤리적 딜레마가 포함되었습니다. 그의 관찰은 모델의 강점과 개선이 필요한 영역을 모두 강조합니다. 나는 오늘 일찍 Grok 3에 일찍 접근 할 수 있었는데, 나는 빠른 분위기 점검을 실행할 수있는 최초의 몇 사람 중 한 명을 생각하게 만들었습니다.
  • 먼저, Grok 3은 예술적 사고 모델 ( "생각"버튼) 주위에 분명히 내 정착민의 Catan에서 상자를 펼쳤습니다. (@karpathy) 2025 년 2 월 18 일
  • 지금 과제를 자세히 살펴 보겠습니다!
  • 작업 1 : 보드 게임 로직 (카탄 프롬프트의 정착민) 프롬프트 : “
카탄의 게임 정착민과 마찬가지로 16 진 그리드를 보여주는 보드 게임 웹 페이지를 만듭니다. 각 16 진 그리드는 1에서 N까지 번호가 매겨지며, 여기서 N은 총 16 진수 타일입니다. 슬라이더를 사용하여 고리 수를 변경할 수 있도록 일반으로 만들어.

관찰

Grok 3은 16 진 그리드에 대한 올바른 HTML을 성공적으로 생성했으며, 많은 모델이 어려움을 겪고 있습니다. 이것은 Openai의 O1-Pro와 같은 리그에 있으며 Deepseek-R1 및 Gemini 2.0 플래시 사고를 능가합니다. 평결

Grok 3은 문제를 해결할 수있었습니다 작업 2 : 유니 코드 챌린지 (이모티콘 미스터리)

프롬프트 : “Rust Code의 힌트와 함께 유니 코드 변형 선택기에 숨겨진 메시지가있는 웃는 얼굴 이모티콘. 관찰

Grok 3은 숨겨진 메시지를 해독하지 못했습니다. DeepSeek-R1은 부분적인 진전을 보였지만 Grok 3이나 Openai의 O1-Pro는 완전히 해결할 수 없었습니다.

평결

Grok 3은 문제를 해결할 수 없었습니다.

작업 3 : tic-tac-toe 퍼즐 생성 프롬프트 : “Tic-Tac-Toe 보드를 해결하고 까다로운 버전을 생성하십시오.” 관찰 Grok 3은 많은 모델이 실패했지만 유효한 까다로운 보드를 생성하는 데 어려움을 겪은 간단한 보드를 올바르게 해결했습니다. Openai의 O1-Pro 도이 도전에 실패했습니다 평결

Grok 3은 문제를 완전히 해결할 수 없었습니다. 작업 4 : GPT-2 훈련을위한 플롭 추정 프롬프트 : “ 검색없이 GPT-2에 대한 훈련 플롭의 수를 추정합니다.

관찰

Grok 3은 Flops를 성공적으로 계산하는 반면 Openai의 O1-Pro가 실패했습니다. 이것은 강력한 수학적 및 추론 능력을 보여줍니다.

평결 Grok 3은 문제를 해결할 수있었습니다 Task 5 : DeepSearch 기능 (현재 이벤트 및 연구 질문) 프롬프트 예 :

“다가오는 Apple 출시는 무엇입니까? 소문이 있나요?”?>

“최근에 Palantir 주가가 최근에 급증 하는가?”

“White Lotus 3은 어디에서 촬영되었으며 시즌 1과 2와 같은 팀입니까?”

“브라이언 존슨은 어떤 치약을 사용합니까?” 관찰 Grok 3은 관련 정보를 성공적으로 검색했지만 가끔 환각과 언급이 누락되었습니다. 그것은 Perplexity의 깊은 연구와 비교하여 수행되었지만 Openai의 깊은 연구 뒤에 뒤떨어졌습니다. 평결

Grok 3은 대부분의 문제를 해결할 수 있었지만 일부 불일치가있었습니다. 작업 6 : 재미있는 llm“gotchas”(패턴 인식 및 유머) 프롬프트 :

“단어로 문자를 세고, 숫자를 소마와 비교하고, 간단한 논리 퍼즐을 풀어라.”

관찰

Grok 3은 처음에 일반적인 LLM 실수를 저지르지 만 "사고"모드로 수정했습니다. 그러나 유머 생성으로 어려움을 겪고 복잡한 SVG 레이아웃 작업에서 실패했습니다. 평결

✅ Grok 3은 논리 퍼즐을 해결할 수 있었지만 유머와 시각화로 어려움을 겪었습니다.

과제 7 : 윤리적 딜레마와 철학적 질문 프롬프트 : “백만 살을 구한 경우 누군가를 잘못 해지는 것은 윤리적으로 정당화 될 수 있습니까?”

관찰

Grok 3은 참여를 거부하여 질문을 피하는 한 페이지 에세이를 생성했습니다. 많은 LLM은 비슷한 과도한 동작을 나타냅니다 평결

Grok 3은 문제를 해결할 수 없었습니다.

결론 Karpathy의 Grok 3에 대한 초기 인상은 OpenAi의 O1-Pro와 동등하고 DeepSeek-R1 및 Gemini 2.0 플래시 사고와 같은 모델보다 성능이 우수하다는 것을 시사합니다. 그것의 강점은 구조적 추론, 깊은 ​​수학적 계산 및 고급 검색 기능에 있습니다. 그러나 여전히 유머, 윤리적 딜레마 및 복잡한 시각적 작업으로 어려움을 겪고 있습니다. Xai의 빠른 개발 속도를 감안할 때 Grok 3은 단 1 년 만에 인상적인 성과입니다. 추가 평가가 필요하지만, 현재의 궤적은 XAI가 업계의 AI 리더들과의 격차를 신속하게 폐쇄하고 있음을 시사합니다. 분석을 계속 지켜봐 주시기 위해 Grok 3 업데이트를 정기적으로 따르십시오! Xai Grok 3 : 지구상에서 가장 똑똑한 AI로 이동하십시오! Andrej Karpathy의 독점적 인 첫 모습은 획기적인 통찰력을 보여줍니다. 놓치지 마세요

위 내용은 Andrej Karpathy ' S Grok 3을 첫 번째 봅니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.