ホームページ >テクノロジー周辺機器 >AI >GPT モデルの背後にあるデータ中心の AI について話す

GPT モデルの背後にあるデータ中心の AI について話す

王林転載: 2023-04-11 23:55:011510ブラウズ

人工知能 (AI) は、私たちの生活、働き方、テクノロジーとの関わり方を変える上で大きな進歩を遂げています。最近、大きな進歩が見られた分野は、GPT-3、ChatGPT、GPT-4 などの大規模言語モデル (LLM) の開発です。これらのモデルは、言語翻訳、テキストの要約、質問応答などのタスクを正確に実行できます。

LLM のモデルサイズが増大し続けることを無視することは困難ですが、LLM の成功は主に多数の高品質データによるものであることを認識することも同様に重要です。。

この記事では、データ中心の AI の観点から LLM の最近の進歩の概要を説明します。データサイエンスコミュニティで成長しつつある概念であるデータ中心の AI レンズを通して GPT モデルを検証します。トレーニングデータ開発、推論データ開発、データメンテナンスという 3 つのデータ中心 AI 目標について説明することで、GPT モデルの背後にあるデータ中心 AI の概念を明らかにします。

大規模言語モデル (LLM) と GPT モデル

LLM は、文脈内の単語を推測するようにトレーニングされた自然言語処理モデルです。たとえば、LLM の最も基本的な機能は、コンテキストに基づいて欠落しているマーカーを予測することです。これを行うために、LLM は、大量のデータから各候補単語の確率を予測するようにトレーニングされます。以下の図は、欠落マーカーの確率を予測するためにコンテキスト内で LLM を使用する例を示しています。

GPT モデルの背後にあるデータ中心の AI について話す

GPT モデルは、GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4 など、OpenAI によって作成された一連の LLM を指します。。他の LLM と同様に、GPT モデルのアーキテクチャは主に Transformers に基づいており、テキストと位置の埋め込みを入力として使用し、アテンションレイヤーを使用してトークンの関係をモデル化します。

GPT モデルの背後にあるデータ中心の AI について話す

GPT-1 モデルアーキテクチャ

新しい GPT モデルは、より多くのモデルパラメーターとより多くのレイヤーを使用することを除いて、GPT-1 と同様のアーキテクチャを使用します。コンテキストの長さ、隠れ層のサイズなど。

GPT モデルの背後にあるデータ中心の AI について話す

データ中心の人工知能とは

データ中心の AI は、AI システムの構築方法に関する新たな考え方です。データ中心 AI は、人工知能システムの構築に使用されるデータを体系的に設計する分野です。

これまで、私たちはデータが基本的に変更されていない場合に、より優れたモデル (モデル中心 AI) を作成することに主に焦点を当ててきました。ただし、このアプローチでは、ラベルの不正確さ、重複、偏りなど、データ内で発生する可能性のあるさまざまな問題が考慮されていないため、現実の世界で問題が発生する可能性があります。したがって、データセットを「過剰適合」しても、必ずしもモデルの動作が向上するとは限りません。

対照的に、データ中心の AI は、AI システムの構築に使用されるデータの質と量の向上に焦点を当てています。これは、データ自体に注目し、モデルが比較的固定されていることを意味します。データ中心のアプローチを使用して AI システムを開発すると、トレーニングに使用されるデータが最終的にモデルの最大能力を決定するため、現実世界のシナリオではより大きな可能性が得られます。

「データ中心」と「データ駆動」の間には根本的な違いがあることに注意してください。後者は、人工知能の開発を導くためにデータを使用することのみを強調しており、通常は引き続きモデルの開発に焦点を当てます。データではなく。

GPT モデルの背後にあるデータ中心の AI について話す

データ中心の人工知能とモデル中心の人工知能の比較

データ中心の AI フレームワークには 3 つのターゲットが含まれます:

トレーニングデータ開発 は、機械学習モデルのトレーニングをサポートするために、豊富で高品質のデータを収集および生成することです。
推論データ開発は、モデルに対するより詳細な洞察を提供したり、データ入力を通じてモデルの特定の機能をトリガーしたりできる新しい評価セットを作成するためのものです。
データメンテナンスは、動的環境におけるデータの品質と信頼性を確保することです。実世界のデータは一度作成されるのではなく、継続的なメンテナンスが必要であるため、データのメンテナンスは非常に重要です。

GPT モデルの背後にあるデータ中心の AI について話す

#データ中心の AI フレームワーク

データ中心の AI が GPT モデルを成功させる理由

数ヶ月数ヶ月以前、Yann LeCun 氏は、ChatGPT は新しいものではないとツイートしました。実際、ChatGPT と GPT-4 で使用されるすべてのテクニック (トランスフォーマー、人間のフィードバックからの強化学習など) はまったく新しいものではありません。しかし、以前のモデルでは不可能な結果を達成しました。では、彼らの成功の理由は何でしょうか？

トレーニングデータの開発。 GPT モデルのトレーニングに使用されるデータの量と質は、データ収集、データのラベル付け、およびデータ準備戦略の改善により大幅に向上しました。

GPT-1: BooksCorpus データセットはトレーニングに使用されます。データセットには、冒険、ファンタジー、ロマンスなどのさまざまなジャンルの書籍をカバーする 4629.00 MB の生テキストが含まれています。
-データ中心の AI 戦略: なし。
- 結果: このデータセットで GPT-1 を使用すると、微調整を通じて下流タスクのパフォーマンスを向上させることができます。
GPT-2: トレーニングで WebText を使用します。これは、Reddit から送信リンクをスクレイピングすることによって作成された OpenAI 内の内部データセットです。
- データ中心の AI 戦略: (1) 少なくとも 3 カルマを獲得する Reddit からのアウトバウンドリンクのみを使用してデータを照合/フィルタリングします。 (2) ツール Dragnet と Newspaper を使用して、クリーンなコンテンツを抽出します。 (3) 重複排除やその他のヒューリスティックベースのクリーニングを使用します。
- 結果: フィルタリング後のテキストは 40 GB。 GPT-2 は、微調整を行わなくても、堅牢なゼロショット結果を実現します。
GPT-3: GPT-3 のトレーニングは主に Common Crawl に基づいています。
-データ中心の AI 戦略: (1) 各ドキュメントの WebText (高品質ドキュメント) との類似性に基づいて、低品質ドキュメントをフィルタリングするように分類器をトレーニングします。 (2) Spark の MinHashLSH を使用してドキュメントをあいまい化し、重複を排除します。 (3) WebText、書籍コーパス、Wikipedia を使用したデータ拡張。
- 結果: 45TB のプレーンテキストがフィルタリングされ、570GB のテキストが取得されました (この品質フィルタリングではデータの 1.27% のみが選択されました)。 GPT-3 は、ゼロサンプル設定では GPT-2 を大幅に上回ります。
InstructGPT: 人間の評価により GPT-3 の回答を調整し、人間の期待に合わせます。彼らはアノテーター向けのテストを設計し、テストに合格した人だけがアノテーションを受ける資格を与えられました。彼らは、アノテーターがアノテーションのプロセスに完全に関与していることを確認するための調査も設計しました。
-データ中心の AI 戦略: (1) 人間が提供するプロンプトに対する回答を使用した教師ありトレーニングを通じてモデルを調整します。 (2) 比較データを収集して報酬モデルをトレーニングし、この報酬モデルを使用してヒューマンフィードバックによる強化学習 (RLHF) を通じて GPT-3 を調整します。
- 結果: InstructGPT は、より優れた現実性とより少ないバイアス、つまりより良い位置合わせを示します。
ChatGPT/GPT-4: OpenAI は詳細を明らかにしていません。しかし、皆さんがご存知のとおり、ChatGPT/GPT-4 は以前の GPT モデルの設計をほぼ踏襲しており、依然として RLHF を使用してモデルを調整しています (おそらく、より多くのより高品質なデータ/ラベルが使用されます)。 GPT-4 では、モデルの重みが増加するにつれて、より大きなデータセットが使用されることが一般に受け入れられています。

#推論データの開発。

最近の GPT モデルは十分強力になっているので、モデルを固定したままヒントを調整したり、推論データを調整したりすることで、さまざまな目的を達成できます。たとえば、要約するテキストと、推論プロセスをガイドする「要約してください」や「TL;DR」などの指示を提供することで、テキストの要約を実行できます。

GPT モデルの背後にあるデータ中心の AI について話す時間内に調整する

適切な推論プロンプトをデザインすることは、困難な作業です。ヒューリスティックに大きく依存しています。優れた調査には、さまざまなプロモーション方法がまとめられています。場合によっては、意味的に類似したキューであっても、出力が大きく異なる場合があります。この場合、分散を減らすためにソフトキューベースのキャリブレーションが必要になる場合があります。

GPT モデルの背後にあるデータ中心の AI について話す

#LLM 推論データ開発に関する研究はまだ初期段階にあります。近い将来、他のタスクに使用されてきた推論データ開発テクニックを LLM に適用できるようになります。

データのメンテナンス。 ChatGPT/GPT-4 は商用製品として、一度トレーニングされるだけでなく、継続的に更新および保守されます。当然のことながら、OpenAI の外部でデータのメンテナンスがどのように行われているかを知る方法はありません。したがって、GPT モデルに使用されてきた、または使用される可能性が高い、一般的なデータ中心の AI 戦略について説明します。
- 継続的なデータ収集: ChatGPT/GPT-4 を使用する場合、ヒント/フィードバックは次のとおりです。次に、OpenAI がモデルをさらに進化させるために使用します。品質指標と保証戦略は、プロセス中に高品質のデータを収集するために設計および実装されている場合があります。
- データ理解ツール: ユーザーデータを視覚化して理解するためのさまざまなツールを開発して、ユーザーニーズの理解を促進し、将来の改善の方向性を導きます。
- 効率的なデータ処理: ChatGPT/GPT-4 ユーザー数の急速な増加に伴い、迅速なデータ収集を実現するには効率的なデータ管理システムが必要です。

GPT モデルの背後にあるデータ中心の AI について話す

上の図は、ChatGPT/GPT-4 が「好き」と「嫌い」を通じてユーザーのフィードバックを収集する例です。

データサイエンスコミュニティがこの LLM の波から学べること

LLM の成功は、人工知能に革命をもたらしました。今後、LLM はデータサイエンスのライフサイクルをさらに変革する可能性があります。私たちは 2 つの予測を立てています:

データ中心の人工知能がより重要になる。 長年の研究を経て、特にTransformer以降、モデル設計は非常に成熟しました。データは将来、AI システムを改善するための重要な手段になります。また、モデルが十分に強力になると、日常の作業でモデルをトレーニングする必要がなくなります。代わりに、モデルから知識を探索するための適切な推論データを設計するだけで済みます。したがって、データ中心の AI の研究開発が将来の進歩を促進します。
LLM により、より優れたデータ中心の人工知能ソリューションが可能になります

実行される LLM の助けを借りて、多くの面倒なデータサイエンスタスクをより効率的に行うことができます。たとえば、ChaGPT/GPT-4 では、データを処理してクリーンアップするための実用的なコードを作成することがすでに可能になっています。さらに、LLM を使用してトレーニングデータを作成することもできます。たとえば、LLM を使用して合成データを生成すると、テキストマイニングにおけるモデルのパフォーマンスを向上させることができます。

GPT モデルの背後にあるデータ中心の AI について話す

以上がGPT モデルの背後にあるデータ中心の AI について話すの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

架构 spark 人工智能 transformer gpt-3 gpt-4 chatgpt gpt

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：グラフを完成させるための 10 行のコード Transformer、グラフニューラルネットワークフレームワーク DGL のバージョン 1.0 が発表次の記事：グラフを完成させるための 10 行のコード Transformer、グラフニューラルネットワークフレームワーク DGL のバージョン 1.0 が発表

続きを見る

GPT モデルの背後にあるデータ中心の AI について話す

大規模言語モデル (LLM) と GPT モデル

データ中心の人工知能とは

データ サイエンス コミュニティがこの LLM の波から学べること

関連記事

データサイエンスコミュニティがこの LLM の波から学べること