首頁  >  文章  >  科技週邊  >  Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

WBOY
WBOY原創
2024-06-07 10:29:25453瀏覽

大神Karpathy已經不滿足於用C語言造Llama了!

他給自己的最新挑戰:重現OpenAI經典成果,從基礎版GPT-2開始。

挑戰成功本身並不意外,但是只花費20美元、90分鐘完成訓練,Loss和評測還超越原版,就!有!點!過!分!了! 。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

不僅如此,他把復現過程寫成了完整教程,果不其然再次火爆。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

由於Karpathy自己租用的是A100雲端服務,訓練124M版本花費20了美元。

不過有人照教學用H100跑了一把,不只訓練時間更短,還更省錢了:43分鐘完成,只花14美元。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

另外Karpathy還自掏腰包200美元,為大家復現了350M版本的GPT-2。

但1.5B大杯版,照計算要花1週時間和2500美元,有點玩不起了,主要他手上也沒有H100。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

還好各路卡壕非常仗義,該出手時就出手:

有需要隨時給你用!

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

只收你2美元一小時!

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

90分鐘復現GPT-2

#這次Karpathy復現GPT-2,還是基於他的llama.c程式碼庫,端到端完成訓練。

程式碼庫這些日子被他不斷完善,現在啟動訓練非常簡單:

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

#具體來說,網路結構是GPT-2,但許多超參數設定遵循了GPT-3的那一套。

Karpathy分析,依照Chinchilla定律的標準,GPT-2在100B tokens上訓練應該屬於過度訓練了,後面收益遞減,124M模型按計算2.5Btokens就夠。

不過他自己訓練了10B tokens,訓練資料也用剛發布不久FineWeb,比起OpenAI原版WebText資料集token品質更高。

原版WebText從未公開,無法在控制變數在相同條件下實驗,另外今天的網路資料分佈,也可能與5年前大不相同了。

據推測,評測分數比原版更高的原因可能就在這些差別了。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

另外有網友注意到,訓練時的GPU利用效率也比OpenAI的工作高,不過Karpathy表示主要是由於用了單一雲端服務節點,不需要考慮伺服器間通訊問題。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

最後,對於已訓練完的350M版本GPT-2,同樣取得了超越原版的成績。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

掌聲響起來~

大神也不是那麼卷

自今年二月份再次從OpenAI辭職之後,Karpathy已經用C語言搞出不少大模型成果,從Llama到GPT玩了一遍。

觀察他的GitHub熱力圖,只有剛開始休息了一段時間,進入4月以後就越來越捲了。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

這是辭職在家還要997的節奏?

其實Karpathy這段時間也旅遊過,也分享過在打的遊戲,並沒那麼卷。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

根據他曬出的一週時間表:在職時975,離職後工作4-20小時不等,看心情。

  • 週一工作4小時,
  • 週二工作14小時到晚上11點
  • 週三失眠了,4點爬起來寫程式碼,到中午崩潰
  • 週四做了20小時
  • 週五休息
  • #週六12小時
  • 週日4小時
  • 然後出去旅遊兩週。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

大家看到這裡也比較好奇,是規律的安排感覺比較好,還是隨心所欲能有奇效呢?

Karpathy自己也不確定,不過混亂的日程安排肯定更有趣。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

最後他還分享了一條自由職業心得:

#起床後直接開始工作,不看任何消息,吃完午飯再上網,避免外界資訊分散注意力。

Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練

有條件的朋友可以試試看了。

教學:https://github.com/karpathy/llm.c/discussions/481。

參考連結:
[1]https://x.com/karpathy/status/1795484547267834137。
[2]https://www.threads.net/@karpathy。

以上是Karpathy新教學爆火,網友搶著送他H100:從頭重現GPT-2訓練的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn