ホームページ >テクノロジー周辺機器 >AI >学部生は 60 行のコードを使用して、大規模な GPT モデルを手動で作成する方法を学びます。技術的な紹介はチュートリアルに匹敵します。

学部生は 60 行のコードを使用して、大規模な GPT モデルを手動で作成する方法を学びます。技術的な紹介はチュートリアルに匹敵します。

PHPz転載: 2023-04-11 23:49:011439ブラウズ

現在、大規模言語モデル (LLM) が人工知能の画期的な方向性であると考えられています。人々は、質問と回答、作成、数学的推論、コードの記述など、あらゆる種類の複雑なことを行うためにそれらを使用しようとしています。最近の ChatGPT の爆発はその最良の例です。

しかし、機械学習の専門家にとって、大規模モデルの敷居は非常に高いです。モデルは大きすぎてトレーニングが難しいため、この方向性は長い間大企業によって独占されてきました。。ただし、最近では GPT モデルを簡素化する方法が増えています。 1 月中旬、元 Tesla AI シニアディレクターの Andrej Karpathy 氏 (現在は OpenAI に復帰) が、GPT モデルをゼロから構築するための完全なチュートリアルをリリースしました。ただし、学習済みの GPT と OpenAI の GPT-3 を比較すると、両者のサイズの差は 10,000 ～ 100 万倍です。最近、カナダのマクマスター大学のソフトウェアエンジニアリング学部生であるジェイモディは、NumPy ライブラリをインポートした後、わずか 60 行のコードで GPT モデルを最初から実装しました。それだけでなく、トレーニングされた GPT-2 モデルの重みを実装にロードし、テキストを生成しました。 60 行のコードを以下に示します。

ただし、これを行うには、Python と NumPy などに精通している必要があります。ニューラルネットワークのトレーニングに関する基本的な経験。著者は、このブログは GPT のシンプルでわかりやすく、完全な入門を提供することを目的としていると述べました。したがって、作成者は、すでにトレーニングされたモデルの重みのみを使用してフォワードパスコードを実装します。学部生は 60 行のコードを使用して、大規模な GPT モデルを手動で作成する方法を学びます。技術的な紹介はチュートリアルに匹敵します。

コードアドレス: 学部生は 60 行のコードを使用して、大規模な GPT モデルを手動で作成する方法を学びます。技術的な紹介はチュートリアルに匹敵します。

https://github.com/jaymody/picoGPT/blob/29e78cc52b58ed2c1c483ffea2eb46ff6bdec785/gpt2_pico.py#L3-L58

この項目について、アンドレイ・カルパシーは4つの言葉を与えました：遅れましたが、到着しました。当時、Karpathy によって構築された minGPT と nanoGPT には 300 行のコードが必要でした。

このチュートリアルは完全にゼロしきい値ではないことに注意してください。読者に理解してもらうために、著者はまず GPT とは何か、そのインプット、アウトプットなどの内容を詳しく紹介します。