InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください-AI-php.cn

ホームページ

テクノロジー周辺機器

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

王林

Apr 24, 2023 pm 04:04 PM

chatgpt紙

ChatGPT が普及してから、テクノロジーに注目する多くの学生が「ChatGPT の背後にある原理を体系的に理解できる学習教材はありますか?」という質問をしています。 OpenAI が ChatGPT に関連する論文をリリースしていないため、この問題は厄介になります。

ただし、ChatGPT に関する OpenAI のブログから、ChatGPT で使用されるメソッドは、 InstructGPT が GPT-3 で微調整されていることを除いて、その兄弟モデルである InstructGPT と同じであることがわかります。 ChatGPT は GPT-3.5 に基づいています。データ収集の点でも、両者にはいくつかの違いがあります。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

# ブログリンク: https://openai.com/blog/chatgpt/

InstructGPT の論文は 2022 年 3 月にリリースされましたが、OpenAI は早くも 1 月に関連ブログを公開しました (「GPT-3 ナンセンスをどうするか? OpenAI: 再トレーニングした」を参照)新しいバージョンはより「従順」です)。その際、OpenAI は、InstructGPT が GPT-3 を微調整するためにヒューマンフィードバックの強化学習法 (RLHF) を使用し、モデルの出力を人間の好みとより一致させることを明確に述べましたが、これは ChatGPT のトレーニングでも継続されています。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

# 論文リンク: https://arxiv.org/pdf/2203.02155.pdf

さらに、InstructGPT と ChatGPT の間には多くの類似点があります。したがって、InstructGPT の論文を徹底的に理解することは、ChatGPT の方向で何らかの作業を行いたい学生にとって非常に役立ちます。だからこそ、私たちは李牧の講義を強くお勧めします。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

コースアドレス: https://jmq.xet.tech/s/2lec6b (「読む」をクリック元のテキスト」に直接アクセスできます)

リー・ムー博士はアマゾンの上級主任科学者です。彼は以前にアストン・チャンと「ハンズオンディープラーニング」を共著しました。その他。過去 2 年間、彼はビデオを通じてさまざまな AI の知識を皆さんに紹介し、数十の論文に関する精読コースを制作してきました。多くの学生は李牧と一緒に論文を集中的に読む習慣を身につけました。

ステーション B の Li Mu 博士のアカウントは「Li Mu から AI を学ぶ」です。

InstructGPT の解釈コースは合計 67 分で、基本的に論文の執筆順に紹介されます。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

ChatGPT ブログを読んだ学生は、その技術原則が基本的に 1 つの図に要約できることを知っています。また、InstructGPT の論文にすでに掲載されている画像もあります (この 2 つには微妙な違いがあります)。論文の要約と序文を解釈する際、Li Mu 氏は図の 3 つのステップを詳細に紹介しました。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

ChatGPT ブログの技術図。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

InstructGPT 論文の技術図。

論文の第 3 章では、InstructGPT の著者が最初にデータ取得方法とプロセスを紹介し、Li Mu も全員にそれを詳しく読んでもらいました。この部分はエンジニアリングにおいて非常に価値があります。 Li Mu 氏が言ったように、これまでにこのようなこと (データのラベル付けなど) を行ったことがなく、データのラベル付けを手伝ってくれる人を探す必要がある場合は、直接使用できる多くのテンプレートが含まれている付録を参照してください。この論文の著者は、注釈付き Web サイトの UI がどのようなものであるかについても説明しており、学ぶ価値があります。

次に、Li Mu は、第 3 章で書かれた 3 つのモデル (「3.5 モデル」を参照)、SFT (教師あり微調整) モデル、RM (報酬モデリング) モデル、および RL (強化学習) モデルに焦点を当てました。これらのモデルに関係するパラメーターや目的関数などの詳細。

最後に、Li Mu 氏は、技術的に言えば、InstructGPT は依然として非常に実用的なテクノロジであると結論付けました。これは、大規模な言語モデルが与えられた場合、注釈付きデータを使用して実用的なものにすることで、関心のある分野でそのパフォーマンスを迅速に向上させるにはどうすればよいかという方法を全員に伝えます。したがって、生成モデルを使用して製品を作成したい人に運用上のアイデアを提供します。

もちろん、Li Mu 博士が言ったように、科学研究の作業は段階的に行われ、InstructGPT も以前の研究に基づいているため、ChatGPT を徹底的に理解したい学生は、必然的に戻って読む必要があり、さらに多くの論文が必要になります。以前のコースで、Li Mu は GPT、GPT-2、および GPT-3 の論文も詳細に解釈しました。

InstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてください

## コースアドレス: https://jmq.xet.tech/s/2lec6b

以上がInstructGPT 論文の重要な技術ポイントを素早く学びましょう: Li Mu に従って ChatGPT の背後にあるテクノロジーをマスターしてくださいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。