初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。-AI-php.cn

ホームページ

テクノロジー周辺機器

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 10, 2023 pm 02:21 PM

aiモデル

Google T5 モデルから OpenAI GPT シリーズの大規模モデルに至るまで、大規模言語モデル (LLM) がコンテキスト学習や思考連鎖推論などの優れた一般化機能を実証していることはわかっています。同時に、LLM が自然言語の命令に従い、現実世界のタスクを完了できるようにするために、研究者は LLM の命令を微調整する方法を模索してきました。これは 2 つの方法で行われます。人間による注釈が付けられたプロンプトとフィードバックを使用して、幅広いタスクでモデルを微調整する方法と、手動または自動で生成された指示で強化された公開ベンチマークとデータセットを使用して微調整を監視する方法です。

これらの方法のうち、Self-Instruct 微調整は、SOTA 命令微調整の教師 LLM によって生成されたデータに続く命令から学習し、LLM を同等にするシンプルで効果的な方法です。人間にとって意図的な調整。命令の微調整が、LLM のゼロサンプルおよび小サンプル汎化機能を向上させる効果的な手段となっていることが事実によって証明されています。

ChatGPT と GPT-4 の最近の成功は、命令の微調整を使用してオープンソース LLM を改善する大きな機会を提供します。 Meta LLaMA は、GPT-3 などの独自の LLM に匹敵するパフォーマンスを備えたオープンソース LLM ファミリです。 LLaMA に指示に従うように教えるために、Self-Instruct は優れたパフォーマンスと低コストによりすぐに採用されました。たとえば、スタンフォードの Alpaca モデルは GPT-3.5 によって生成された 52k のコマンドコンプライアンスサンプルを使用し、Vicuna モデルは ShareGPT からの約 70k のコマンドコンプライアンスサンプルを使用します。

SOTA レベルの LLM 命令微調整を進めるために、Microsoft Research は、自己命令微調整のための教師モデルとして GPT-4 を初めて使用しました。論文「GPT-4による命令チューニング」。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

論文アドレス: https://arxiv.org/pdf/2304.03277.pdf
#プロジェクトアドレス: https://instruction-tuning-with-gpt-4.github.io/
GitHubアドレス: https://github.com/structs-tuning-with-GPT-4/GPT-4-LLM 一方、研究者らは、中国語と英語で作成された52,000の命令遵守データセットと、3つの命令の出力を評価するためにGPT-4によって生成されたフィードバックデータを含む、GPT-4によって生成されたデータを公開しました。モデルの微調整。

一方、GPT-4 によって生成されたデータに基づいて、命令微調整 LLaMA モデルと報酬モデルが開発されました。命令微調整 LLM の品質を評価するために、研究者らは 3 つの指標を使用してテストサンプルを評価しました。3 つの調整基準の手動評価、GPT-4 フィードバックに基づく自動評価、不自然な命令の ROUGE-L (自動要約評価法) です。 1つ）。

実験結果は、GPT-4 によって生成されたデータを使用した LLM 命令の微調整の有効性を検証します。 GPT-4 によって生成された 52k の中国語と英語の命令準拠データは、新しいタスクで以前の SOTA モデルよりも優れたゼロサンプルパフォーマンスを実現します。現在、研究者らは GPT-4 と関連コードを使用して生成されたデータを公開しています。

データセット

この調査では、GPT-4 を使用して次の 4 つのデータセットを生成します。

英語の指示に従ってデータ: Alpaca から収集された 52,000 の指示について、各指示には英語の GPT-4 回答が提供されます。このデータセットは主に、GPT-4 回答と GPT-3 回答の統計を調査および比較するために使用されます。
中国語の命令に従うデータ: この研究では、ChatGPT を使用して 52,000 の命令を中国語に翻訳し、GPT-4 に中国語で回答するように依頼しました。
比較データ: GPT-4 に回答を 1 から 10 のスケールで評価させます。さらに、この研究では GPT-4 に、GPT-4、GPT-3.5、OPT-IML の 3 つのモデルの応答を比較してスコアリングするよう依頼しました。このデータセットは主に報酬モデルをトレーニングするために使用されます。
不自然な命令に関する回答: GPT-4 の回答は、68K の命令入出力の 3 つのコアデータセットでデコードされます。このサブセットは、GPT-4 と命令微調整モデルの間のギャップを定量化するために使用されます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 1 は、GPT-4 と GPT-3.5 の英語の出力応答セットを比較しています。図 1 (a) と (b) は、頻度が 10 を超える動詞と名詞のペアの 2 つの出力セットを示しています。図 1 (c) は、2 つのセット内で最も頻繁に使用される 25 個の単語のペアを比較しています。図 1 (d) は、配列長の頻度分布を調べたところ、GPT-4 は GPT-3.5 よりも長い配列を生成する傾向があることがわかりました。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

命令微調整言語モデル

この研究は LLaMA 7B チェックポイントに基づいており、教師あり微調整を使用してトレーニングします2 つのモデル: ( i) LLaMA-GPT4、GPT-4 によって生成された 52K の英語指示準拠データでトレーニングされました。 (ii) LLaMA-GPT4-CN は、GPT-4 から生成された 52K の中国語命令に従ってトレーニングされています。

報酬モデル

ヒューマンフィードバックによる強化学習 (RLHF) は、LLM の行動を人間の好みに合わせて調整することを目的としています。モデリングはその重要な部分の 1 つであり、問題は多くの場合、特定のキューと応答の間の報酬を予測する回帰タスクとして定式化されます。ただし、この方法には通常、大規模な比較データが必要であり、Alpaca、Vicuna、Dolly などの既存のオープンソースモデルには、比較データの注釈付けにコストがかかるため、RLHF は含まれていません。同時に、最近の研究では、GPT-4 が自身のエラーを特定して修復し、応答の品質を正確に判断できることが示されています。そこで、本研究ではRLHFの研究を促進するために、前述のようにGPT-4を用いた比較データを作成した。

データ品質を評価するために、この調査では、このデータセットの評価用に OPT 1.3B に基づく報酬モデルもトレーニングしました。比較データの分布を図 2 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

実験

この研究では、次の 3 種類の評価を使用しました。人間評価、GPT-4、不自然な指導評価。この結果は、他の機械生成データと比較して、GPT-4 によって生成されたデータを使用することが、LLM 命令を微調整するための効率的かつ効果的な方法であることを裏付けています。次に、具体的な実験プロセスを見ていきます。

人間による評価

図 3 (a) は、LLaMA-GPT4 と Alpaca の比較結果です。実験によると、「有用性」指標では、GPT-4 が 54.12% のスコアで勝利します。図 3(b) は、LLaMA-GPT4 と GPT-4 の比較結果を示しています。これは、GPT-4 命令によって微調整された LLaMA のパフォーマンスが元の GPT-4 と同様であることを示しています。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

自動評価を使用した SOTA との比較

この研究では GPT-4 を使用して、80 の目に見えない質問に対するさまざまなモデルの応答を自動的に評価します。まず、LLaMA-GPT-4 (7B) と GPT-4 の 2 つのチャットボットから回答を収集し、LLaMA (13B)、Alpaca (13B)、Vicuna (13B)、Bard (Google、2023) などの他のチャットボットを使用して回答を公開します。そしてChatGPT。研究では、各評価について GPT-4 に 2 つのモデル間の応答の質を 1 から 10 のスケールで評価するよう依頼しました。結果を図 4 に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

図 4 (c、d) は、すべてのチャットボットを比較しています。 LLaMA_GPT4 のパフォーマンスが優れています: 7B LLaMA GPT4 のパフォーマンスは 13B Alpaca および LLaMA よりも優れています。ただし、LLaMA_GPT4 は、GPT-4 などの大手商用チャットボットと比較すると、まだギャップがあります。

研究者らは、以下の図 5 にあるすべてのチャットボットのパフォーマンスをさらに調査しました。まず GPT-4 を使用してチャットボットの英語の応答を中国語に翻訳し、次に GPT-4 を使用して英語の質問を中国語に翻訳して回答を取得します。 GPT-4 翻訳と生成された中国語応答との比較を 5 (a) および 5 (b) に示し、中国語で回答するよう求められたすべてのモデル結果を 5 (c) に示します。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

以下の図 6 では、研究者らは LLaMA-GPT4 を GPT-4 および Alpaca の不自然な命令と比較しています。結果は、グラウンドトゥルース応答の長さが増加するにつれて、LLaMA-GPT4 と GPT-4 のパフォーマンスが向上することを示しています。これは、シーンがより創造的であれば、指示にうまく従うことができることを意味します。 LLaMA-GPT4 と GPT-4 はどちらも、シーケンスの長さが短い場合に単純なグラウンドトゥルースの回答を含む応答を生成でき、余分な単語を追加すると応答をよりチャットらしくすることができます。

初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。

技術的および実験的な詳細については、元の論文を参照してください。

以上が初めて: Microsoft は GPT-4 を使用して大規模なモデル命令を微調整し、新しいタスクのゼロサンプルのパフォーマンスがさらに向上しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。