ホームページ  >  記事  >  テクノロジー周辺機器  >  ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

PHPz
PHPz転載
2023-05-09 19:19:061839ブラウズ

タイムライン

2018年6月

OpenAIは、1億1,000万のパラメーターを備えたGPT-1モデルをリリースしました。

2018年11月

OpenAIは15億個のパラメーターを備えたGPT-2モデルをリリースしましたが、悪用の懸念から、モデルのすべてのコードとデータは公開されていません。

2019年2月

OpenAIはGPT-2モデルの一部のコードとデータを公開しましたが、アクセスは依然として制限されています。

2019 年 6 月 10 日

OpenAI は、1,750 億のパラメーターを備えた GPT-3 モデルをリリースし、一部のパートナーにアクセスを提供しました。

2019年9月

OpenAIはGPT-2のすべてのコードとデータを公開し、より大きなバージョンをリリースしました。

2020 年 5 月に

#OpenAI は、1,750 億のパラメーターを持ち、これまでで最大の自然言語処理モデルである GPT-3 モデルのベータ版のリリースを発表しました。

2022 年 3 月

OpenAI は、命令チューニングを使用して InstructGPT をリリースしました

2022 年 11 月 30 日

OpenAI は、大規模言語の GPT-3.5 シリーズに合格しました。新しい会話型 AI モデル ChatGPT がモデルの微調整を経て正式リリースされました。

2022 年 12 月 15 日

ChatGPT の最初のアップデート。全体的なパフォーマンスが向上し、履歴の会話記録を保存および表示する新機能が追加されます。

2023年1月9日

ChatGPTが2回目のアップデートを行い、回答の信頼性が向上し、新たに「生成停止」機能が追加されました。

2023年1月21日

OpenAIは、一部のユーザーに限定されたChatGPT Professionalの有料版をリリースしました。

2023 年 1 月 30 日

ChatGPT の 3 回目のアップデートでは、回答の信頼性が向上するだけでなく、数学的スキルも向上します。

2023年2月2日

OpenAIはChatGPT有料版のサブスクリプションサービスを正式に開始し、新バージョンは無料版よりも応答が速く、動作が安定しています。

2023 年 3 月 15 日

OpenAI は、テキストを読み取るだけでなく、画像を認識してテキスト結果を生成できる大規模マルチモーダル モデル GPT-4 を衝撃的に発表しました。接続された ChatGPT は Plus ユーザーに公開されています。

GPT-1: 一方向 Transformer に基づく事前トレーニング済みモデル

GPT が登場する前は、NLP モデルは主に大量の注釈付きデータに基づいてトレーニングされていました。特定のタスク用。これにより、いくつかの制限が発生します:

大規模で高品質のアノテーション データを取得するのは容易ではありません;

モデルは受けたトレーニングに限定されており、一般化能力が不十分です;

実行できません すぐに使用できるタスクは、モデルの実際の適用を制限します。

これらの問題を克服するために、OpenAI は大規模モデルを事前トレーニングする道を歩み始めました。 GPT-1 は、2018 年に OpenAI によってリリースされた最初の事前トレーニング済みモデルです。一方向の Transformer モデルを採用し、トレーニングに 40 GB 以上のテキスト データを使用します。 GPT-1 の主な機能は、生成的な事前トレーニング (教師なし) と識別タスクの微調整 (教師あり) です。まず、教師なし学習の事前トレーニングを使用し、8 つの GPU で 1 か月間かけて大量のラベルなしデータから AI システムの言語機能を強化し、大量の知識を取得しました。 NLP タスクのシステム パフォーマンスを向上させるために統合されました。 GPT-1 はテキストの生成とタスクの理解において優れたパフォーマンスを示し、当時最も先進的な自然言語処理モデルの 1 つとなりました。

GPT-2: マルチタスク事前トレーニング モデル

シングルタスク モデルには一般化が欠けており、マルチタスクの学習には多数の効果的なトレーニング ペアが必要であるため、 , GPT-2はGPT-1をベースに拡張・最適化されており、教師あり学習が削除され教師なし学習のみが残されています。 GPT-2 は、より大きなテキスト データとより強力なコンピューティング リソースをトレーニングに使用し、パラメータ サイズは 1 億 5,000 万に達し、GPT-1 の 1 億 1,000 万のパラメータをはるかに上回ります。 GPT-2 では、学習に大規模なデータ セットと大規模なモデルを使用することに加えて、新しくてより困難なタスクであるゼロショット学習 (ゼロショット) も提案しています。これは、事前トレーニングされたモデルを多くの下流タスクに直接適用することです。 GPT-2 は、テキスト生成、テキスト分類、言語理解などを含む複数の自然言語処理タスクで優れたパフォーマンスを実証しています。

ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

GPT-3: 新しい自然言語生成および理解機能の作成

GPT-3 は、GPT シリーズの最新版です。モデル より大きなパラメータスケールと豊富なトレーニングデータを使用するモデル。 GPT-3 のパラメータスケールは 1 兆 7,500 億に達し、GPT-2 の 100 倍以上です。 GPT-3 は、自然言語生成、対話生成、その他の言語処理タスクにおいて驚くべき機能を示しており、タスクによっては新しい形式の言語表現を作成することもできます。

GPT-3ではIn-context learningという非常に重要な概念を提案していますが、具体的な内容は次のツイートで説明します。

InstructGPT & ChatGPT

InstructGPT/ChatGPTのトレーニングは3つのステップに分かれており、各ステップで必要なデータが少し異なりますので、以下に分けて紹介します。 。

事前トレーニングされた言語モデルから始めて、次の 3 つの手順を適用します。

ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

ステップ 1: 教師あり SFT の微調整: デモ データを収集し、教師ありポリシーをトレーニングします。私たちのタガーは、入力プロンプト配布での望ましい動作のデモンストレーションを提供します。次に、教師あり学習を使用して、これらのデータに基づいて事前トレーニングされた GPT-3 モデルを微調整します。

ステップ 2: 報酬モデルのトレーニング。比較データを収集し、報酬モデルをトレーニングします。私たちは、ラベラーが特定の入力に対してどの出力を好むかを示す、モデル出力間の比較のデータセットを収集しました。次に、人間が好む出力を予測するために報酬モデルをトレーニングします。

ステップ 3: 報酬モデルでの近接ポリシー最適化 (PPO) による強化学習: RM の出力をスカラー報酬として使用します。 PPO アルゴリズムを使用して監視戦略を微調整し、この報酬を最適化します。

ステップ 2 と 3 は継続的に繰り返すことができ、現在の最適な戦略に関してさらに多くの比較データが収集され、それを使用して新しい RM をトレーニングし、次に新しい戦略をトレーニングします。

最初の 2 つのステップのプロンプトは、OpenAI のオンライン API 上のユーザー使用状況データから取得され、雇用されたアノテーターによって手書きされます。最後のステップはすべて API データからサンプリングされます。InstructGPT の特定のデータ:

1. SFT データ セット

SFT データ セットは、最初のトレーニングに使用されます。ステップ 教師ありモデルは、収集された新しいデータを使用して、GPT-3 のトレーニング方法に従って GPT-3 を微調整します。 GPT-3 はプロンプト学習に基づく生成モデルであるため、SFT データセットもプロンプトと応答のペアで構成されるサンプルです。 SFT データの一部は OpenAI の PlayGround ユーザーから提供され、もう 1 つの部分は OpenAI が雇用する 40 人のラベラーから提供されます。そして彼らはラベラーを訓練しました。このデータセットでは、アノテーターの仕事は、内容に基づいて指示自体を記述することです。

2. RM データ セット

RM データ セットは、ステップ 2 で報酬モデルをトレーニングするために使用されます。 GPT/ChatGPTを指導します。この報酬目標は微分可能である必要はありませんが、モデルが生成する必要があるものとできるだけ包括的かつ現実的に一致している必要があります。もちろん、この報酬は手動のアノテーションによって提供することもできますし、人為的なペアリングを通じて、バイアスを含む生成されたコンテンツに低いスコアを与え、人間が好まないコンテンツを生成しないようにモデルを促すことができます。 InstructGPT/ChatGPT のアプローチは、最初にモデルに候補テキストのバッチを生成させ、次にラベラーを使用して、生成されたデータの品質に従って生成されたコンテンツを並べ替えることです。

3. PPO データ セット

InstructGPT の PPO データには注釈が付けられておらず、GPT-3 API ユーザーから取得されます。さまざまなユーザーによって提供される生成タスクにはさまざまな種類があり、その割合が最も高いのは生成タスク (45.6%)、QA (12.4%)、ブレインストーミング (11.2%)、対話 (8.4%) などです。

#付録:

ChatGPT のさまざまな機能のソース:

ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

# GPT -3 ChatGPT とその中間の反復バージョンの機能とトレーニング方法:

ChatGPT トピック 1 つの GPT ファミリーの進化の歴史

参考資料

1. GPT の起源をたどる逆アセンブリ3.5 の機能: https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

2. ネットワーク全体の中で最も完全なタイムラインです。 ChatGPT の過去と現在から AI 分野の現在の競争環境まで https://www.bilibili.com/read/cv22541079

3. GPT-1 論文: Generative Pre による言語理解を改善する-トレーニング、OpenAI.

4. GPT-2 論文: 言語モデルは教師なしマルチタスク学習者、OpenAI.

5. GPT-3 論文: 言語モデルはフューショット学習者、OpenAI.

6. Jason W、Maarten B、Vincent Y 他、Finetuned Language Models Are Zero-Shot Learners[J]. arXiv プレプリント arXiv: 2109.01652, 2021.

7. OpenAI の仕組み「悪魔に訓練された」GPTとは何ですか? ——InstructGPT 論文の解釈 https://cloud.tencent.com/developer/news/979148

以上がChatGPT トピック 1 つの GPT ファミリーの進化の歴史の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。