집 >기술 주변기기 >일체 포함 >Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-06-07 10:29:25622검색

Master Karpathy는 더 이상 C 언어를 사용하여 Llama를 만드는 데 만족하지 않습니다!

그가 스스로 던진 최근 도전은 GPT-2의 기본 버전부터 시작하여 OpenAI의 고전적인 결과를 재현하는 것이었습니다.

챌린지의 성공 자체는 의외의 것이 아니지만, 훈련을 완료하는 데만 20달러, 90분의 비용이 들었고, 손실과 평가는 원래 버전을 능가했습니다, 그냥! 가지다! 가리키다! 통과하다! 가리키다! 알았어요! .

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

그뿐만 아니라 그는 재현 과정에 대한 완전한 튜토리얼을 작성했고 예상대로 다시 인기를 얻었습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

Karpathy가 A100 클라우드 서비스를 임대했기 때문에 124M 버전 교육 비용은 US$20입니다.

그러나 누군가 튜토리얼을 따라 H100으로 실행했습니다. 훈련 시간이 단축되었을 뿐만 아니라 비용도 절약되었습니다. 43분 만에 완료되었으며 비용은 미화 14달러에 불과했습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

또한 Karpathy는 모든 사람을 위해 GPT-2의 3억 5천만 버전을 재현하기 위해 자신의 주머니에서 미화 200달러를 썼습니다.

그러나 계산에 따르면 1.5B 대형 컵 버전은 1주일과 2500달러의 비용이 듭니다. 이는 H100을 손에 쥐고 있지 않기 때문에 약간 감당할 수 없는 일입니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

다행히 모든 참호는 매우 관대하며 조치를 취할 때가 되면 조치를 취합니다.

필요할 때 언제든지 제공하겠습니다!

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

시간당 $2만 청구됩니다!

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

90분 만에 GPT-2를 재현했습니다.

이번 Karpathy는 llama.c 코드 베이스를 기반으로 하는 GPT-2를 재현하여 처음부터 끝까지 훈련을 완료했습니다.

요즘 그에 의해 코드 베이스가 지속적으로 개선되어 이제 훈련을 시작하는 것이 매우 간단해졌습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

구체적으로 네트워크 구조는 GPT-2이지만 많은 하이퍼파라미터 설정은 GPT-3 세트를 따릅니다. .

Karpathy는 Chinchilla 법칙의 표준에 따라 100B 토큰에 대한 GPT-2 훈련이 과도하게 훈련되어야 하며 계산에 따르면 124M 모델에는 2.5B 토큰이면 충분하다고 분석했습니다.

그러나 그는 100억 개의 토큰을 직접 훈련했으며 훈련 데이터도 곧 출시된 FineWeb을 사용했습니다. 토큰 품질은 원래 OpenAI WebText 데이터 세트보다 높습니다.

원본 WebText는 공개된 적이 없으며 동일한 조건에서 제어 변수를 실험하는 것은 불가능합니다. 또한 오늘날 인터넷 데이터의 분포는 5년 전과 매우 다를 수 있습니다.

원작보다 리뷰 점수가 높은 이유는 이러한 차이 때문일 것으로 추측됩니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

또한 일부 네티즌들은 훈련 중 GPU 활용 효율성도 OpenAI보다 높다는 점을 지적했지만 Karpathy는 이는 주로 단일 클라우드 서비스 노드를 사용하기 때문이며 그럴 필요가 없다고 말했습니다. 서버 간 통신 문제를 고려하십시오.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

드디어 훈련된 GPT-2의 350M 버전에 대해서도 원래 버전을 능가하는 결과를 얻었습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

박수~

주인님은 그렇게 멍청하지 않으세요

Karpathy는 올해 2월 OpenAI에서 탈퇴한 이후 C 언어를 사용하여 Llama부터 GPT까지 다양한 대형 모델 결과를 만들어 냈습니다.

그의 GitHub 히트맵을 관찰해보니 초반에만 쉬다가 4월에 접어들면서 점점 인기가 많아지더군요.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

이것이 997을 하기 위해 체념하고 집에 머무르는 리듬인가요?

사실 Karpathy도 이 기간 동안 여행을 다니기도 하고, 자신이 하고 있던 게임을 공유하기도 했는데, 그다지 벅차지는 않았습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

그가 게시한 주간 일정에 따르면 근무 중 975시간, 퇴직 후 기분에 따라 4~20시간입니다.

월요일 4시간 일했고,
화요일 밤 11시까지 14시간 일했다
수요일 불면증이 있어서 오후 4시에 일어나 코드 작성하고 정오에 쓰러졌다
목요일 20시간 일했다
휴식 금요일
토요일 12시간
일요일 4시간
그리고 2주간 여행을 떠나세요.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

이거 보시고 다들 궁금해하시죠. 정기적으로 편곡하는 게 좋을까, 아니면 마음대로 되는 걸까요?

Karpathy 자신은 확실하지 않지만, 혼란스러운 일정은 확실히 더 흥미롭습니다.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

마지막으로 그는 프리랜서 경험도 공유했습니다.

일어나자마자 메시지도 읽지 않고 바로 작업을 시작하고, 점심 식사 후에는 외부 정보에 방해받지 않도록 온라인에 접속하세요.

Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.

조건이 있는 친구들은 시도해 볼 수 있습니다.

튜토리얼: https://github.com/karpathy/llm.c/discussions/481.

참조 링크:
[1]https://x.com/karpathy/status/1795484547267834137.
[2]https://www.threads.net/@karpathy.

위 내용은 Karpathy의 새로운 튜토리얼이 입소문이 나고 네티즌들은 서둘러 그에게 H100: GPT-2 훈련을 처음부터 다시 만들기를 제공합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

c语言 Token github https gpt llama

성명：

이전 기사：7가지 멋진 GenAI 및 LLM 기술 인터뷰 질문다음 기사：7가지 멋진 GenAI 및 LLM 기술 인터뷰 질문