ホームページ > 記事 > テクノロジー周辺機器 > ChatGPT の原理とアルゴリズムに関する興味深い話
昨年 12 月 1 日、OpenAI は人工知能チャットのプロトタイプである ChatGPT をリリースしました。これは再び注目を集め、AIGC がアーティストを失業させたのと同様に、AI コミュニティで大きな議論を引き起こしました。
ChatGPT は、会話の生成に焦点を当てた言語モデルです。ユーザーのテキスト入力に基づいて、対応するインテリジェントな回答を生成できます。
この回答は短い言葉でも長いエッセイでも構いません。このうち、GPTはGenerative Pre-trained Transformer(生成事前学習変換モデル)の略称です。
ChatGPT は、多数の既成のテキストと対話コレクション (Wiki など) を学習することで、人間と同じように瞬時に会話し、さまざまな質問に流暢に答えることができます。 (もちろん人間に比べれば解答速度は遅いですが) 英語でも他言語(中国語、韓国語など)でも、歴史の質問の解答から物語の執筆、さらにはビジネスの文章まで、計画や業界分析など、「ほぼ」何でもできます。一部のプログラマーは、プログラムの変更に関する chatGPT の会話を投稿しました。
ChatGPT と AIGC の併用
ChatGPT を他の AIGC モデルと組み合わせて使用すると、よりクールで実用的な機能を得ることができます。
たとえば、リビングルームの設計図は上記の対話を通じて生成されます。これにより、AI アプリケーションが顧客と通信する能力が大幅に強化され、AI の大規模実装の夜明けが見えてきます。
ChatGPT は大規模な言語モデルであり、現在ネットワーク検索機能を備えていないため、2021 年時点でのデータ セットに基づいてのみ応答できます。
たとえば、2022 年のワールド カップの状況はわかりません。また、今日の天気に答えたり、Apple の Siri のような情報の検索をサポートしたりすることはありません。 ChatGPT がオンラインで学習教材を見つけたり、知識を検索したりすることができれば、さらに大きな進歩が期待できます。
たとえ学習した知識が限られていたとしても、ChatGPT は人間の多くの奇妙な質問に広い心で答えることができます。 ChatGPT が悪習慣に陥るのを防ぐために、ChatGPT は有害で欺瞞的なトレーニング入力を減らすアルゴリズムによって保護されています。
クエリはモデレーション API によってフィルタリングされ、人種差別的または性差別的な可能性のあるヒントは無視されます。
NLP/NLU 分野の既知の制限には、テキストの繰り返し、高度に専門化されたトピックの誤解、文脈の誤解などがあります。フレーズ。
人間や AI の場合、通常の会話を行うには通常、何年ものトレーニングが必要です。
NLP タイプのモデルは、単語の意味を理解するだけでなく、文章を構成し、文脈上意味のある回答を与える方法を理解する必要があり、さらには適切な俗語や専門用語を使用する必要もあります。
NLP テクノロジーの応用分野
ChatGPT の基礎となる GPT-3 または GPT-3.5 は、本質的に非常に大規模な統計言語モデルです。または連続テキストの予測モデル。
BERT モデルと同様に、ChatGPT または GPT-3.5 は、入力文と言語/コーパスの確率に基づいて、回答の各単語 (単語) を自動的に生成します。
数学または機械学習の観点から見ると、言語モデルは単語シーケンスの確率相関分布のモデル化です。つまり、発言されたステートメント (ステートメントは数学ではベクトルとみなすことができます) を入力として使用します。条件を特定し、次の瞬間に異なる文や言語セットが出現する確率分布を予測します。
ChatGPT は、人間のフィードバックからの強化学習を使用してトレーニングされます。これは、より良い結果を得るために人間の介入によって機械学習を強化する方法です。
トレーニング プロセス中、人間のトレーナーはユーザーと人工知能アシスタントの役割を果たし、近接ポリシー最適化アルゴリズムを通じて微調整されます。
ChatGPT の強力なパフォーマンスと大量のパラメーターにより、より多くのトピック データが含まれ、よりニッチなトピックを処理できます。
ChatGPT は、質問への回答、記事の執筆、テキストの要約、言語翻訳、コンピューター コードの生成などのタスクをさらに処理できるようになりました。
BERT と GPT の技術アーキテクチャ (図中の En は入力の各単語、Tn は出力される応答の各単語です)
ChatGPT に関して言えば、GPT ファミリについて言及する必要があります。
ChatGPT には、それ以前に GPT-1、GPT-2、GPT-3 などの有名な兄弟がいくつかありました。これらの兄弟はそれぞれ他の兄弟よりも大きく、ChatGPT は GPT-3 により似ています。
ChatGPT と GPT 1-3 の技術的な比較
GPT ファミリと BERT モデルはどちらもよく知られた NLP モデルであり、どちらも Transformer テクノロジーに基づいています。 。 GPT-1 では Transformer レイヤーが 12 レイヤーしかありませんでしたが、GPT-3 では 96 レイヤーに増加しました。
InstructGPT/GPT3.5 (ChatGPT の前身) と GPT-3 の主な違いは、RLHF (人間からの強化学習) と呼ばれる新機能が追加されていることです。フィードバック)、ヒューマンフィードバック強化学習)が追加されました。
このトレーニング パラダイムにより、モデルの出力結果に対する人による調整が強化され、よりわかりやすいランキングが得られます。
InstructGPTにおける「文章の良さ」の評価基準は以下の通りです。
TAMER (評価強化によるエージェントの手動トレーニング) フレームワークについて触れなければなりません。
このフレームワークは、エージェントの学習サイクルに人間のマーカーを導入し、人間を通じてエージェントに報酬フィードバックを提供する (つまり、エージェントのトレーニングをガイドする) ことで、トレーニング タスクの目標を迅速に達成できます。
人間のラベラーを導入する主な目的は、トレーニングを迅速化することです。強化学習技術は多くの分野で優れた性能を発揮しますが、学習の収束速度が遅い、学習コストが高いなど、依然として多くの欠点があります。
特に現実の世界では、多くのタスクには多額の探索コストやデータ取得コストがかかります。トレーニングの効率をいかに高めるかは、今日の強化学習タスクにおいて解決すべき重要な問題の 1 つです。
TAMER は、人間のマーカーの知識を使用して、報酬レターのフィードバックの形でエージェントをトレーニングし、迅速な収束を加速できます。
TAMER では、タガーに専門的な知識やプログラミング スキルが必要なく、コーパスのコストが低くなります。 TAMER RL (強化学習) を使用すると、マルコフ意思決定プロセス (MDP) の報酬からの強化学習 (RL) のプロセスを、人間のマーカーからのフィードバックで強化できます。
強化学習における TAMER アーキテクチャの適用
具体的な実装に関しては、ヒューマンタガーは会話ユーザーおよび人工知能アシスタントとして機能し、会話サンプルを提供して、モデルはいくつかの応答を生成し、タガーは応答オプションをランク付けして、より良い結果をモデルにフィードバックします。
エージェントは、人間による強化と統合システムとしてのマルコフ意思決定プロセス報酬という 2 つのフィードバック モードから同時に学習し、報酬戦略を通じてモデルを微調整し、継続的に反復します。
これに基づいて、ChatGPT は GPT-3 よりも人間の言語や指示を理解して完了し、人間を模倣し、一貫性のある論理的なテキスト情報を提供できます。
ChatGPT のトレーニング プロセスは次の 3 つの段階に分かれています:
フェーズ 1: トレーニング監督戦略モデル
GPT 3.5 人間によるさまざまな指示に含まれるさまざまな意図を理解することは難しく、生成されたコンテンツが高品質な結果であるかどうかを判断することも困難です。
GPT 3.5 が最初に指示を理解するようにするために、まず質問がデータセットからランダムに選択され、人間のアノテーターが質の高い回答を返し、その後これらの手動でアノテーションが付けられたデータが使用されます。 GPT-3.5 モデルを微調整します (SFT モデルを取得、監視付き微調整)。
現時点での SFT モデルは、指示や会話に従うという点では既に GPT-3 よりも優れていますが、必ずしも人間の好みと一致するとは限りません。
ChatGPT モデルのトレーニング プロセス
第 2 ステージ: 報酬モデルのトレーニング (報酬モード、RM)
このステージの主な焦点は次のとおりです。報酬モデルは、トレーニング データ (約 33,000 データ) に手動で注釈を付けることによってトレーニングされます。
データセットから質問をランダムに選択し、最初の段階で生成されたモデルを使用して、質問ごとに複数の異なる回答を生成します。ヒューマン・アノテーターはこれらの結果を考慮して、順位を付けます。このプロセスはコーチングやメンタリングに似ています。
次に、このランキング結果データを使用して報酬モデルをトレーニングします。複数の並べ替え結果がペアで結合されて、複数のトレーニング データ ペアが形成されます。
RM モデルは入力を受け入れ、回答の品質を評価するスコアを与えます。このようにして、トレーニング データのペアについて、高品質の回答のスコアが低品質の回答よりも高くなるようにパラメータが調整されます。
第 3 段階: PPO (Proximal Policy Optimization、近接ポリシー最適化) 強化学習を使用して戦略を最適化します。
PPO の中心的なアイデアは、ポリシー グラディエントのオンポリシー トレーニング プロセスをオフポリシーに変換すること、つまり、オンライン学習をオフライン学習に変換することです。この変換プロセスは重要度サンプリングと呼ばれます。
このステージでは、第 2 ステージでトレーニングされた報酬モデルを使用し、報酬スコアに依存して事前トレーニングされたモデルのパラメーターを更新します。データセットから質問をランダムに選択し、PPO モデルを使用して回答を生成し、前の段階でトレーニングされた RM モデルを使用して品質スコアを与えます。
報酬スコアを順番に渡すことでポリシー勾配を生成し、強化学習を通じて PPO モデルのパラメーターを更新します。
第 2 段階と第 3 段階を繰り返して反復を続けると、より高品質の ChatGPT モデルがトレーニングされます。
ユーザーが質問を入力する限り、ChatGPT は回答を返すことができます。これは、キーワードを Google や Baidu にフィードする必要がなくなったことを意味しますか?欲しいものはすぐに手に入る? その答えは?
ChatGPT は、優れた状況に応じた対話機能、さらにはプログラミング機能を実証し、人間と機械の会話ロボット (ChatBot) に対する一般の印象を「人工的に知恵が遅れている」から「興味深い」に変えることを完了しましたが、次のことも行う必要があります。 ChatGPT を参照してください。このテクノロジーにはまだいくつかの制限があり、改良が続けられています。
1) ChatGPT には、大量のコーパスでトレーニングされていない領域では「人間の常識」と拡張機能が欠けており、深刻な「ナンセンス」を話す可能性さえあります。 ChatGPT は多くの分野で「回答を作成」できますが、ユーザーが正しい回答を求めると、ChatGPT は誤解を招く回答を与える可能性もあります。たとえば、ChatGPT に小学校の応用問題をやらせると、長い一連の計算処理を書くことはできますが、最終的な答えは間違っています。
それでは、ChatGPT の結果を信じるべきでしょうか?
2) ChatGPT は、複雑で長い、または特に専門的な言語構造を処理できません。金融、自然科学、医学などの非常に専門的な分野からの質問については、コーパスの「フィード」が不十分な場合、ChatGPT は適切な回答を生成できない可能性があります。
3) ChatGPT は、トレーニングと展開をサポートするために非常に大量のコンピューティング能力 (チップ) を必要とします。モデルをトレーニングするために大量のコーパス データが必要であるにもかかわらず、現時点では、ChatGPT のアプリケーションには依然として大きな計算能力を持つサーバーのサポートが必要であり、これらのサーバーのコストは一般ユーザーの手の届かないものです。数十億のパラメータを持つモデルの実行とトレーニングには、膨大な量のコンピューティング リソースが必要です。実際の検索エンジンからの何億ものユーザーリクエストに直面した場合、現在普及している無料戦略を採用すると、どの企業もこのコストを負担するのは困難になります。したがって、一般の人々にとっては、軽量モデルか、よりコスト効率の高いコンピューティング プラットフォームを待つ必要があります。
4) ChatGPT はまだオンラインで新しい知識を取り込むことができず、新しい知識が出現したときに GPT モデルを再事前学習するのは非現実的であり、学習時間や学習コストに関係なく、一般のトレーナーには受け入れがたいものです。新しい知識に対してオンライン トレーニング モデルを採用する場合、それは実現可能であり、コーパス コストも比較的低いように見えますが、新しいデータの導入により元の知識が壊滅的に忘れられるという問題が簡単に発生する可能性があります。
5) ChatGPT はまだブラック ボックス モデルです。現時点では、ChatGPT の内部アルゴリズム ロジックは分解できないため、ChatGPT がユーザーを攻撃したり、ユーザーに危害を加えたりするステートメントを生成しないという保証はありません。
もちろん欠陥が隠蔽されているわけではなく、ChatGPT に Verilog コード (チップ設計コード) を書くよう求める会話を投稿したエンジニアもいます。 ChatGPT のレベルが一部の Verilog 初心者のレベルを超えていることがわかります。
##5. 人間によるフィードバックを削減するための ChatGPT▌5.1 RLAIF の今後の改善の方向性2020 年末、元副副社長の Dario 氏OpenAI の研究担当社長である Amodei は、従業員 10 人を抱える人工知能企業 Anthropic を設立しました。 Anthropic の創設チーム メンバーのほとんどは OpenAI の初期および中核従業員であり、OpenAI の GPT-3、マルチモーダル ニューロン、人間の嗜好強化学習などに参加してきました。 2022 年 12 月、Anthropic は人工知能モデル Claude を紹介する論文「Constitutional AI: AI Feedback による無害性」を再び発表しました。 (arxiv.org/pdf/2212.0807) CAI モデル トレーニング プロセスClaude と ChatGPT はどちらも強化学習 (RL) に依存して設定をトレーニングします。 。 CAI (Constitutional AI) も RLHF 上に構築されていますが、異なる点は、CAI のランキング プロセスが (人間ではなく) モデルを使用して、生成されたすべての出力結果に対して初期ランキング結果を提供することです。 CAI は、無害な表現に対する人間の好みを人工知能フィードバック (RLAIF) に置き換えます。RLAIF では、人工知能が一連の憲法原則に基づいて返信内容を評価します。ChatGPT は優れた会話スキルを備えていますが、数学的な計算の会話では深刻なナンセンスを簡単に話してしまいます。
コンピュータ科学者の Stephen Wolfram は、この問題の解決策を提案しました。 Stephen Wolfram は Wolfram 言語とコンピューティング知識検索エンジン Wolfram|Alpha を作成しました。そのバックエンドは Mathematica を通じて実装されています。
ChatGPTはWolfram|Alphaと組み合わされてコーミング問題を処理します
この組み合わされたシステムでは、ChatGPTはWolframと連携できます| Alphaの「会話」、Wolfram |Alpha は、シンボリック変換機能を使用して、ChatGPT から取得した自然言語表現を、対応するシンボリック コンピューティング言語に「変換」します。
これまで、学術コミュニティはChatGPTで使用される「統計的手法」とWolfram|Alphaの「記号的手法」に関して意見が分かれていました。
しかし今では、ChatGPTとWolfram|Alphaの相補性により、NLP分野が次のレベルに進む可能性がもたらされました。
ChatGPTはそのようなコードを生成する必要はなく、通常の自然言語を生成し、それをWolfram|Alphaを使って正確なWolfram言語に翻訳するだけでよく、その後、基礎となるMathematica が計算を実行します。
ChatGPT は非常に強力ですが、モデル サイズと使用コストが多くの人にとっては困難です。
モデルのサイズとコストを削減できるモデル圧縮 (モデル圧縮) には 3 つのタイプがあります。
最初の方法は量子化です。これにより、単一の重みの数値表現の精度が低下します。たとえば、Tansformer を FP32 から INT8 にダウングレードしても、精度にはほとんど影響がありません。
モデル圧縮の 2 番目の方法は枝刈りです。これは、個々の重み (非構造化枝刈り) から重み行列などのより粒度の高いコンポーネントへのチャネルを含むネットワーク要素を削除します。このアプローチは、ビジョンおよび小規模な言語モデルに効果的です。
3 番目のモデル圧縮方法はスパース化です。たとえば、オーストリア科学技術研究所 (ISTA) によって提案された SparseGPT (arxiv.org/pdf/2301.0077) は、再トレーニングを行わずに、GPT シリーズ モデルを 1 ステップで 50% のスパース度にプルーニングできます。 GPT-175B モデルの場合、このプルーニングは 1 つの GPU のみを使用して数時間で実行できます。
SparseGPT 圧縮プロセス
ChatGPT について話すと、 AIGCについて言及します。
AIGC は、人工知能テクノロジーを使用してコンテンツを生成します。以前の Web1.0 および Web2.0 時代の UGC (ユーザー生成コンテンツ) や PGC (専門家が制作したコンテンツ) と比較して、人工知能が考案したコンテンツを代表する AIGC は、コンテンツ制作手法の新たな変化であり、AIGCコンテンツは Web3 にあり、0 時代にも急激な成長が見込まれます。
ChatGPT モデルの出現は、テキスト/音声モードでの AIGC のアプリケーションにとって非常に重要であり、AI 業界の上流と下流に大きな影響を与えるでしょう。
コードフリープログラミング、小説生成、会話型検索エンジン、音声コンパニオン、音声作業アシスタント、会話型を含むがこれらに限定されない、下流関連の特典アプリケーションの観点からバーチャルヒューマン、人工知能カスタマーサービス、機械翻訳、チップ設計など
コンピューティング パワー チップ、データ アノテーション、自然言語処理 (NLP) などを含む、上流の需要増加の観点から。
大規模なモデルは爆発的に増加しています (より多くのパラメータ/より大きな計算能力チップ要件)
アルゴリズム技術と計算能力技術の継続的な開発により、ChatGPT は進歩しています。また、より強力な機能を備えたより高度なバージョンに移行し、より多くの分野に適用され、人間にとってより多くのより良い会話やコンテンツを生成するでしょう。
最後に、ChatGPT 分野における統合ストレージおよびコンピューティング技術の状況について著者が質問しました (著者は現在、統合ストレージおよびコンピューティング チップの実装促進に注力しています)。ChatGPT はそれについて考え、大胆に予測しました。統合されたストレージとコンピューティング技術が ChatGPT の分野でチップを支配することになります。 (私の心を勝ち取りました)
参照:
以上がChatGPT の原理とアルゴリズムに関する興味深い話の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。