ホームページ >テクノロジー周辺機器 >AI >ChatGptの進化を理解する:パート2– GPT-2およびGPT-3
この記事では、GPT-2とGPT-3に焦点を当てたOpenaiのGPTモデルの進化を調査します。 これらのモデルは、大規模な言語モデル(LLM)トレーニングへのアプローチの大幅な変化を表しており、従来の「トレーニング前と微調整」パラダイムから「トレーニング前のみ」アプローチに移行します。
このシフトは、GPT-1のゼロショット機能の観察によって促進されました。これは、具体的には訓練されていなかったタスクを実行する能力です。 これをよりよく理解するために、重要な概念を掘り下げましょう。
パート1:パラダイムシフトとそのイネーブラー
微調整の制限、特に目に見えないNLPタスクの膨大な配列のために、タスクに依存しない学習への動きを動機付けました。小さなデータセット上の大きなモデルの微調整は、過剰適合と劣悪な一般化を危険にさらします。 大規模な監視されたデータセットなしで言語タスクを学ぶ人間の能力は、このシフトをさらにサポートしています。 このパラダイムシフトを促進した3つの重要な要素:
タスクに依存しない学習(メタラーニング):
このアプローチは、トレーニング中にモデルに幅広いスキルセットを装備し、それ以上微調整することなく新しいタスクに迅速に適応できるようにします。 モデルに依存しないメタラーニング(MAML)は、この概念を例示していますスケール仮説:
コンテキスト内学習:この手法では、モデルに自然言語の指示といくつかの例(デモンストレーション)を推論時間に提供し、勾配更新なしでこれらの例からタスクを学習できるようにします。 ゼロショット、ワンショット、少数の学習は、さまざまなレベルのレベルのプロビジョニングを表しています。
パート2:gpt-2 - ステッピングストーン
GPT-3は、GPT-2と同様のアーキテクチャを保持しました。これは、主に密集したまばらな注意パターンの使用が異なります。 125mから175bのパラメーターの範囲の8つのモデルが訓練されました。 トレーニングデータは大幅に大きく、より多様であり、品質に基づいて慎重にキュレーションとデータセットを重み付けしました。 GPT-3の評価からの重要な調査結果は、スケール仮説とコンテキスト内学習の有効性を示しています。 コンピューティングの増加とともにパフォーマンスがスムーズにスケーリングされ、より大きなモデルは、ゼロショット、ワンショット、および少数のショット学習設定で優れたパフォーマンスを示しました。
パート4:結論
については、を参照してください
パート1:ChatGPTの進化を理解する:パート1 - GPT-1とそれにインスピレーションを与えたものを詳しく見ています。パート3:Codexとinstructgpt
からの洞察以上がChatGptの進化を理解する:パート2– GPT-2およびGPT-3の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。