ホームページ >テクノロジー周辺機器 >AI >GPTモデルにおけるデータ中心型AIの秘密

GPTモデルにおけるデータ中心型AIの秘密

王林
王林転載
2023-04-30 17:58:071551ブラウズ

翻訳者 | Zhu Xianzhong

査読者| Chonglou

GPTモデルにおけるデータ中心型AIの秘密

画像は記事 https://www.php.cn/link/f74412c3c1c8899f3c130bb30ed0e363 から引用したもので、著者自身が作成したものです。

人工知能は、私たちの生活、仕事、テクノロジーとの関わり方を変えるという驚くべき進歩を遂げています。最近、大きな進歩を遂げた分野は、 GPT-3 、## などの大規模言語モデル (LLM) の開発です。 #ChatGPT および GPT-4 。これらのモデルは、言語翻訳、テキストの要約、質問応答などのタスクを優れた精度で実行できます。 大規模な言語モデルのモデル サイズが増大し続けることを無視することはできませんが、その成功の主な要因は、言語モデルに使用される多数の高性能マシンによるものであることを認識することも同様に重要です。質の高いデータを提供します。

この記事では、最近の調査論文を参照しながら、データ中心の人工知能の観点から大規模言語モデルの最近の進歩の概要を説明します。 (終了 ドキュメント 1 および 2 のビュー) および GitHub 上の対応する

技術リソース

。特に、データ中心の 人工知能 のレンズを通して GPT モデルを詳しく見ていきます。データサイエンスコミュニティの視点。トレーニング データ開発、推論データ開発、データ メンテナンスという 3 つのデータ中心の人工知能の目標について説明することで、GPT モデルの背後にあるデータ中心の人工知能を明らかにします。 大規模言語モデルと GPT モデル LLM (大規模言語モデル) は、文脈内の単語を推測するようにトレーニングされた自然言語処理モデルです。たとえば、LLM の最も基本的な機能は、コンテキストに基づいて欠落しているトークンを予測することです。これを行うために、LLM は、大量のデータから各候補トークンの確率を予測するようにトレーニングされます。

#コンテキストを含む大規模な言語モデルを使用して、トークンが欠落する確率を予測する例 (著者提供)本人写真)

#

GPT モデルは、 GPT-1 など、OpenAI によって作成された一連の大規模言語モデルを指します。 GPT-2 GPT-3 InstructGPT および ChatGPT/GPT-4 。他の大規模言語モデルと同様に、GPT モデルのアーキテクチャは、テキストと位置の埋め込みを入力として使用し、アテンション レイヤーを使用してトークン間の関係をモデル化するトランスフォーマーに大きく基づいています。

GPTモデルにおけるデータ中心型AIの秘密

GPT-1 モデル アーキテクチャ図、この画像は論文から引用 https://www.php.cn/link/c3bfbc2fc89bd1dd71ad5fc5ac96ae69

後の GPT モデルは GPT-1 と同様のアーキテクチャを使用しましたが、より多くのレイヤー、より大きなコンテキスト長、隠れ層サイズなどを備えた、より多くのモデル パラメーターを使用しました。

GPTモデルにおけるデータ中心型AIの秘密

GPTモデルの各モデルサイズの比較(写真提供:著者提供)

データ中心の人工知能とは何ですか?

データ中心の人工知能は、人工知能システムの構築方法に関する新たな考え方です。人工知能の先駆者であるアンドリュー・ン氏は、このアイデアを擁護してきました。

データ中心の人工知能は、人工知能システムの構築に使用されるデータの体系的エンジニアリングの分野です。

——Andrew Ng

これまでは、データが基本的に変更されていない場合に、より優れたモデル (モデル中心の人工知能) を作成することに主に焦点を当てていました。ただし、このアプローチでは、不正確なラベル、重複、バイアスなど、データ内で発生する可能性のあるさまざまな問題が考慮されていないため、現実の世界で問題が発生する可能性があります。したがって、データセットを「過剰適合」しても、必ずしもモデルの動作が改善されるとは限りません。

対照的に、データ中心の AI は、AI システムの構築に使用されるデータの質と量の向上に焦点を当てています。これは、モデルが比較的固定されている一方で、データ自体に注目が集まることを意味します。 AI システムを開発するためのデータ中心のアプローチは、トレーニングに使用されるデータが最終的にモデルの最大能力を決定するため、現実世界ではより大きな可能性を秘めています。

「データ中心」は「データ駆動」とは根本的に異なることに注意する価値があります。後者は、人為的データを導くためのデータの使用のみを強調するためです。一方、AI 開発は多くの場合、エンジニアリング データではなくモデルの開発を中心としています。

GPTモデルにおけるデータ中心型AIの秘密

データ中心の人工知能とモデル中心の AI の比較 (画像は https://www.php より) .cn/link/f9afa97535cf7c8789a1c50a2cd83787論文著者)

全体的に、データ中心の人工知能フレームワークは 3 つの目標で構成されています:

  • トレーニング データの開発とは、機械学習モデルのトレーニングをサポートするための、豊富で高品質なデータの収集と生成です。
  • 推論データ開発は、モデルにより詳細な洞察を提供したり、エンジニアリング データ入力を通じてモデルをトリガーしたりできる新しい評価セットを作成するために使用されます。
  • #データ保守とは、動的環境におけるデータの品質と信頼性を確保することです。実世界のデータは一度作成されるだけではなく、継続的なメンテナンスが必要となるため、データのメンテナンスは非常に重要です。

データ中心の人工知能フレームワーク (論文からの画像 https://www.php.cn/link/ f74412c3c1c8899f3c130bb30ed0e363 )

データ中心の人工知能が GPT モデルをこれほど成功させたのはなぜですか?

数か月前、人工知能業界のリーダーであるヤン・ルカン氏は、ChatGPT は新しいものではないと Twitter で述べました。実際、ChatGPT と GPT-4 で使用されているすべてのテクニック (Tトランスフォーマーや人間のフィードバックからの強化学習など) は新しいテクノロジーではありません。しかし、以前のモデルでは達成できなかった驚くべき結果を達成しました。では、何が彼らの成功を後押ししているのでしょうか?

GPTモデルにおけるデータ中心型AIの秘密

まず、トレーニングデータ開発を強化します。データ収集、データラベル付け、およびデータ準備戦略の改善により、GPT モデルのトレーニングに使用されるデータの量と質が大幅に増加しました。

  • GPT-1: BooksCorpus データセット はトレーニングに使用されます。データセットには 4629 MB の生のテキストが含まれており、冒険、ファンタジー、ロマンスなどのさまざまなジャンルの書籍がカバーされています。
  • #データ中心の AI 戦略を使用していない。
  • トレーニング結果: このデータセットに GPT-1 を適用すると、微調整を通じて下流タスクのパフォーマンスを向上させることができます。
  • データ中心の人工知能戦略を採用します: (1) 少なくとも 3 つの結果を受け取る Reddit からのアウトバウンド リンクのみを使用してデータを制御/フィルタリングします。( 2) Dragnet および Newspaper ツールを使用して「クリーンな」コンテンツを抽出する、(3) 重複排除およびその他のヒューリスティックベースの精製方法を採用する (詳細は論文では言及されていません)。
  • #トレーニング結果: 精製後に 40 GB のテキストが取得されました。 GPT-2 は、微調整を行わなくても、堅牢なゼロサンプル結果を実現します。
  • データ中心の人工知能戦略が使用されます: (1) WebText ドキュメントとの類似性に基づいて低品質のドキュメントをフィルタリングするように分類子をトレーニングします。 WebText は高品質のドキュメントのプロキシです。 (2) Spark の MinHashLSH を使用して、ドキュメントのファジー重複排除を実行します。 (3) WebText、書籍コーパス、Wikipedia を使用してデータを強化します。
  • トレーニング結果: 45TB のプレーンテキストから 570GB のテキストがフィルタリングされました (この品質フィルタリングではデータの 1.27% のみが選択されました)。ゼロサンプル設定では、GPT-3 は GPT-2 を大幅に上回ります。
  • は、データ中心の人工知能戦略を使用します。 (1) 手動で提供されたプロンプト回答を使用して、教師ありトレーニングを通じてモデルを調整します。 (2) 比較データを収集して報酬モデルをトレーニングし、その報酬モデルを使用してヒューマン フィードバックからの強化学習 (RLHF) を通じて GPT-3 を調整します。
  • トレーニング結果: InstructGPT は、信頼性が高く、バイアスが少ない、つまり一貫性が高いことを示しています。
  • GPT-2: WebText を使用しますトレーニングに来てください。これは、Reddit から送信リンクをスクレイピングすることによって作成された OpenAI 内の内部データセットです。
  • GPT-3: GPT-3 のトレーニングは主に Common Crawl ツール # に基づいています##。
  • InstructGPT: 人間の評価により GPT-3 の回答を調整して、人間の期待とより一致するようにします。彼らはアノテーター向けのテストを設計し、テストに合格した人だけがアノテーションを受ける資格を与えられました。さらに、アノテーターがアノテーションのプロセスを楽しんでいることを確認するための調査も設計しました。
  • ChatGPT/GPT-4: OpenAI は詳細を明らかにしていません。しかし、皆さんがご存知のとおり、ChatGPT/GPT-4 は以前の GPT モデルの設計をほぼ踏襲しており、依然として RLHF を使用してモデルを調整します (おそらくより多くのより高品質なデータ/ラベルを使用します)。一般に、GPT-4 はモデルの重みが増加するにつれてより大きなデータ セットを使用すると考えられています。
#2 番目に、推論データを作成します。最近の GPT モデルは十分強力になっているので、モデルを修正しながらヒントを調整する(または推論データを調整する)ことで、さまざまな目的を達成できます。たとえば、推論プロセスをガイドする「要約してください」や「TL

;DR」などの指示とともに要約のテキストを提供することで、テキスト要約を実行できます。

GPTモデルにおけるデータ中心型AIの秘密

##迅速な微調整

、写真:著者提供

適切な推論プロンプトを設計することは、困難な作業です。それはヒューリスティック技術に大きく依存しています。優れた調査は、人々がこれまでに使用したさまざまなプロンプト方法を要約しています。場合によっては、意味的に類似したキューであっても、出力が大きく異なる場合があります。この場合、不一致を減らすためにソフトキューベースのキャリブレーションが必要になる場合があります。

GPTモデルにおけるデータ中心型AIの秘密

#ソフト プロンプト ベースのキャリブレーション。この画像は、元の著者の許可を得て、論文 https://arxiv.org/abs/2303.13035v1 から引用したものです。

大規模な開発に関する研究-スケール言語モデル推論データはまだ初期段階にあります。近い将来、他のタスクですでに使用されている推論データ開発手法が、大規模言語モデルの分野にさらに適用される可能性があります。

データ保守の観点から見ると、商用製品である ChatGPT/GPT-4 は、一度トレーニングを成功させるだけではなく、継続的なトレーニングを必要とします。メンテナンス。当然のことながら、OpenAI の外部でデータ保守がどのように実行されるかはわかりません。したがって、GPT モデルで使用されている可能性が高い、または今後使用される可能性が高い、一般的なデータ中心の AI 戦略について説明します。

  • ##Continuous Dataコレクション: ChatGPT/GPT-4 を使用する場合、私たちのヒント/フィードバックは OpenAI によってモデルをさらに進化させるために使用されます。品質指標と保証戦略は、プロセス中に高品質のデータを収集するために設計および実装されている場合があります。
  • データ理解ツール: ユーザー データを視覚化して理解し、ユーザー ニーズの理解を促進し、ユーザーのニーズを理解するためのさまざまなツールが開発されている可能性があります。今後の改善の方向性。
  • 効率的なデータ処理: ChatGPT/GPT-4 ユーザー数の急速な増加に伴い、迅速なデータ収集を実現するには効率的なデータ管理システムが必要です。 . .

ChatGPT/GPT-4 システムは、図に示すように「賛成」と「反対」の 2 つのアイコン ボタンを通じてユーザーのフィードバックを収集し、さらなるプロモーションを行うことができます。彼らはシステム開発を行っています。ここのスクリーンショットは https://chat.openai.com/chat からのものです。

データ サイエンス コミュニティは、この大規模な言語モデルの波から何を学ぶことができるでしょうか?

大規模言語モデルの成功は、人工知能に革命をもたらしました。今後、大規模な言語モデルはデータ サイエンスのライフサイクルにさらに革命を起こす可能性があります。この目的のために、私たちは 2 つの予測を立てます。

  • データ中心の人工知能がより重要になる。長年の研究を経て、特にトランスフォーマー以降、モデルの設計は非常に成熟しました。エンジニアリング データは、将来 AI システムを改善するための重要な (またはおそらく唯一の) 方法になります。さらに、モデルが十分強力になると、日常業務でモデルをトレーニングする必要がなくなります。代わりに、モデルから知識を探索するための適切な推論データ (ジャストインタイム エンジニアリング) を設計するだけで済みます。したがって、データ中心の AI の研究開発が将来の進歩を促進します。
  • 大規模な言語モデルにより、より優れたデータ中心の人工知能ソリューションが可能になります。大規模な言語モデルを利用すると、退屈なデータ サイエンス タスクの多くをより効率的に実行できます。たとえば、ChaGPT/GPT-4 では、データを処理およびクリーンアップするためのオペレーショナル コードを記述することがすでに可能になっています。さらに、大規模な言語モデルを使用してトレーニング用のデータを作成することもできます。たとえば、最近の研究では、大規模な言語モデルを使用して合成データを生成すると、臨床テキスト マイニングにおけるモデルのパフォーマンスが向上することが示されています。

GPTモデルにおけるデータ中心型AIの秘密

大規模な言語モデルを使用して合成データを生成し、モデルをトレーニングします。ここにある画像は、論文 https://arxiv.org/abs/2303.04360、原著者の許可を得て

参考文献

この記事ができることを願っていますあなた自身の仕事にインスピレーションを与えるために使用してください。データ中心の AI フレームワークと、それが大規模な言語モデルにどのようなメリットをもたらすかについて詳しくは、次の論文をご覧ください:

[1] データ中心型人工知能のレビュー

[2] データ中心型人工知能の展望と課題

当社では GitHub コード リポジトリ も管理していることに注意してください。これは定期的に更新されます。データ中心の人工知能リソース。

#今後の記事では、データ中心人工知能の 3 つの目標 (学習データ開発、推論データ開発、データ保守) を掘り下げ、代表的な性的手法を紹介します。

翻訳者紹介

Zhu Xianzhong、51CTOコミュニティ編集者、51CTOエキスパートブロガー、講師、濰坊の大学のコンピューター教師、フリーランスプログラミングコミュニティ ベテラン。

元のタイトル: データ中心の AI 概念とはGPT モデルの背後にありますか? 、著者: Henry Lai

以上がGPTモデルにおけるデータ中心型AIの秘密の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。