ホームページ >テクノロジー周辺機器 >AI >PHI-4:合成データを使用した言語モデルの再定義

PHI-4:合成データを使用した言語モデルの再定義

尊渡假赌尊渡假赌尊渡假赌
尊渡假赌尊渡假赌尊渡假赌オリジナル
2025-03-14 09:27:10475ブラウズ

AIの景観は急速に進化しており、言語モデル、特に推論や問題解決タスクのために設計された景観は、この革命の中心にあります。 AIのそのようなブレークスルーの1つは、Microsoft Researchによって開発された140億パラメーターモデルであるPHI-4です。 PHI-4を前任者や他のモデルとは一線を画しているのは、トレーニングへの革新的なアプローチ、特に合成データの使用です。膨大な量よりもデータの品質を優先することにより、PHI-4は、推論能力、STEM重視の質問応答、およびコーディングタスクの顕著な改善を示します。

このブログでは、PHI-4を詳細に検討し、そのアーキテクチャ、トレーニングプロセス、およびトレーニング後の革新のすべてのコンポーネントを分析します。その重要な強みを分解し、改善の領域について話し合い、他の多くの言語モデルをどのように上回るかを説明します。このディープダイビングの終わりまでに、PHI-4が単なる別のモデルではなく、自然言語処理の分野(NLP)での真の跳躍が理由を理解するでしょう。

学習目標

  • 合成データがPHI-4の開発に重要である理由と、長いコンテストタスクのパフォーマンスをどのように向上させるかを学びます。
  • 3つのトレーニング段階で、合成および非合成データを含む多様なデータソースを使用して、チームがPHI-4をどのようにトレーニングするかを学びます。
  • ミッドトレーニングでPHI-4のコンテキスト長が4Kから16Kトークンにどのように増加するか、およびパフォーマンスへの影響を発見してください。
  • PHI-4が、質問への回答、要約、検索の生成などの現実世界のタスクの評価をどのように受けるかを参照し、そのパフォーマンスを比較してください。
  • PHI-4をローカルで実行するガイドを入手し、技術的なセットアップ、システム要件、および過剰適合やデータの汚染などの課題をカバーします。

この記事は、データサイエンスブログソンの一部として公開されました

目次

  • なぜ合成データが重要なのですか?
  • なぜ合成データがPHI-4の重要なのですか?
  • PHI-4はどのように訓練されましたか?
  • トレーニング中の段階からの洞察
  • トレーニング後の結果と反省
  • キーベンチマークのパフォーマンス
  • PHI-4をローカルに実行する方法
  • 課題:過剰適合とデータの汚染に対処する
  • 結論
  • よくある質問

なぜ合成データが重要なのですか?

その中心にあるPHI-4は、Microsoft Researchによって開発された140億パラメーター言語モデルです。このモデルは、PHI-3などのPHIファミリーでの以前の反復の成功に基づいていますが、推論が重いタスクのパフォーマンスを大幅に向上させるいくつかの重要な革新を導入します。主に大量のオーガニックデータ(Webコンテンツ、書籍、コードリポジトリなど)に依存する他の多くの大規模な言語モデル(LLM)とは異なり、PHI-4は、トレーニングパイプラインに大量の合成データを戦略的に組み込んでいます。この合成データに焦点を当てた他のトレーニングイノベーションと組み合わせることで、PHI-4は主要な分野でより良いパフォーマンスを実現できます。特に、STEM関連の質問応答と複雑な問題解決が可能になります。

なぜ合成データがPHI-4の重要なのですか?

AIコミュニティでは、データはトレーニングモデルの生命線です。通常、LLMは、Webから削り取られたか、本や書類からキュレーションされた大規模なデータセットを使用してトレーニングされます。この有機データは有用ですが、多くの場合、矛盾、無関係な情報、またはモデルの推論能力を推進する構造化された課題の欠如が含まれています。これは、合成データが登場する場所です。

PHI-4における合成データの役割

チームは、特定のトレーニング目標を満たすために合成データを人為的に生成し、モデルの学習プロセスを導くための非常に効果的なツールになります。 PHI-4の場合、合成データは、強力な推論と問題解決能力を促進する高品質のデータセットを構築するのに役立ちます。

  • 構造化学習:多くの場合、トークン間の複雑で間接的な関係を解読するためのモデルが必要なオーガニックデータとは異なり、合成データにより、PHI-4はより体系的に学習できます。たとえば、数学やコーディングタスクでは、合成データが明確な段階的な推論を提供し、モデルが論理的な進行に従うことを容​​易にします。
  • 課題の多様性:合成データを生成して、幅広いトピックとスキルをカバーし、モデルがさまざまな課題に遭遇するようにします。たとえば、PHI-4の合成データセットには、複雑な数学の問題、コーディングの課題、科学的推論タスクが含まれます。
  • 推論のコンテキストとのアライメント:合成データの重要な利点の1つは、モデルが実世界の相互作用中に生成すると予想される出力の種類と密接に整合する形式で生成できることです。これにより、PHI-4はコンテキスト的に適切で、ユーザークエリとより整合する応答を生成するのに役立ちます。

PHI-4の合成データ技術

PHI-4の合成データは、ランダムに生成されるだけでなく、高度な技術の組み合わせを使用して慎重に作成されています。

  • マルチエージェントプロンプト:複数のエージェント(モデル)は、同じ問題に対して異なるソリューションを生成し、その後、品質と一貫性のためにフィルタリングされます。これにより、モデルの問題解決能力に挑戦する多様で微妙な例が生成されます。
  • セルフレビジョンワークフロー:モデルは最初に回答を生成し、その後、反復フィードバックループを介して批評し、洗練します。これにより、生成された応答の精度と推論が改善されます。
  • 命令の逆転:タスクをコーディングするために、PHI-4は命令反転手法を使用します。既存のコードスニペットを問題の説明に変換し、モデルがソリューションを効果的に生成できるようにします。

そのような手法に優先順位を付けることにより、PHI-4は問題をよりインテリジェントに解決することを学び、同時に純粋に有機的なデータセットから生じる可能性のあるバイアスを減らすことも学びます。

PHI-4はどのように訓練されましたか?

PHI-4の印象的なパフォーマンスは、合成データの使用だけではありません。モデルのトレーニングカリキュラムも成功に重要です。 PHI-4のクリエイターは、有機ソースや合成データを含むデータ型のバランスの取れた混合物を組み込んだ洗練されたトレーニングプロセスを設計しました。

データソースの混合物を備えた事前販売

PHI-4モデルは、140億パラメーターを持つデコーダーのみのトランスアーキテクチャを使用し、最初はコンテキスト長の4096トークンで動作します。このコンテキストの長さは、その後のミッドトレーニングフェーズ中に後で16Kトークンに増加します。アーキテクチャは、PHI-3メディアムモデルと多くの類似点を共有していますが、いくつかの機能強化を導入しています。特に、PHI-4は多言語のサポートを改善するTiktokenトークン剤を採用し、未使用のトークンを含む100,352トークンの語彙サイズを持っています。さらに、PHI-4は4Kコンテキストの長さにわたって完全に注意を払っています。これは、PHI-3メディウムで使用される2Kスライドウィンドウアプローチからの出発です。

チームは、線形ウォームアップと減衰スケジュールに続いて、約10兆トークンを使用してモデルを前提としました。ピーク学習率を0.0003に設定し、0.1の一定の重量減衰を適用し、5760のグローバルバッチサイズを使用しました。彼らは、モデルの安定性を確保するために学習率のウォームアップフェーズをストレステストすることで補間することにより、ハイパーパラメーターを微調整しました。事前トレーニング後、モデルは元の4Kコンテキストの長さを16Kトークンに拡張するための短いミッドトレーニングステージを受けました。

通常、事前に訓練されたモデルは指導に従うタスクでうまく機能しないため、研究者は特定の形式で回答を必要とする単純なevalsなどの0ショット評価に依存しないことを選択しました。代わりに、彼らは、ログリケリの評価とさまざまなタスクの少数のショットプロンプトを組み合わせた事前トレーニングのカスタム評価アプローチを開発しました。たとえば、チームは、MMLU(5ショット)、MMLU-Pro、ARCC(1-Shot)などのタスクの対数尤度評価を使用しました。さらに、Triviaqa(TQA)、MBPP、Math、GSM8Kなどのタスクの1、3、4、および8の少数の例を使用してモデルをトレーニングし、必要な回答形式に従い、正しいソリューションを抽出するのに役立ちました。

トレーニング中の段階からの洞察

PHI-4のミッドトレーニングフェーズでは、コンテキストの長さは元の4Kトークンから16Kトークンに延長されます。この段階で、研究者は一連のアブレーション研究を実施して、異なる種類のデータがモデルのパフォーマンスに長いコンテキストにどのように影響するかを調査します。彼らは、より短いシーケンスをパッドでパッドにしてより長いものを作成する合成データを使用して、自然に長いコンテキストを持っているデータソースを比較します。結果は、本質的に長いコンテキストを持っているデータでトレーニングされると、モデルがより良いパフォーマンスを発揮することを示しています。

チームは、アカデミックペーパー、本、コードなどの高品質の非合成データを除外することにより、データセットを改良します。彼らは8kトークンよりも長いサンプルを分離し、それらの16Kトークン以上により多くの重量を与えます。新しい合成データセットは、4Kトークンより長いシーケンスで作成されます。最終的なデータセット混合には、30%の長いコンテキストデータと70%のリコールトークンが含まれています。コンテキストの長さの増加に対応するために、チームは回転位置エンコード(ロープ)ベース周波数を250kに設定します。最大学習率を10倍低下させ、2500億トークンでモデルを訓練します。

長いコンテキストを処理するPHI-4の能力を評価するために、研究者は、ヘイスタックのニードルやルーラーなどの合成ベンチマークだけに依存するのではなく、実際のシナリオをより単純ではありませんが、実用的なシナリオを反映していない多様な一連の現実世界のタスクを強調します。チームは、ヘルメット[YGH 24]評価スイートからこれらのタスクを選択し、各カテゴリの5回の実行で平均して結果を示します。

評価フレームワーク

評価フレームワークには、次のタスクが含まれています。

  • リコール:モデルは、subemメトリックを使用して測定された特定のキーに基づいて、ランダムに生成された長いJSONファイルから特定の値を取得します。
  • RAG(検索された生成):モデルは、NaturalQuestions、Hotpotqa、Popqaなどのデータセットを使用して、複数の取得およびシャッフルウィキペディアドキュメントに基づいて質問に答えます。最終結果は、subemメトリックで評価されるすべてのデータセットで平均化されます。
  • 再ランク:このタスクでは、モデルはMSMARCOデータセットを使用して、特定のクエリに対して取得されたトップ10ドキュメントを再ランクします。パフォーマンスはNDCG@10で測定されます。
  • ICL(コンテキスト学習):このタスクは、TREC Coarse、Trec Fine、Banking77、NLU、CLINC150などのデータセットで多くのショット内学習を実行するモデルの能力をテストします。結果はすべてのデータセットで平均化され、パフォーマンスはF1スコアで測定されます。
  • QA(質問回答):モデルは、horevative qav2データセットからの長いドキュメントに基づいて質問に答え、パフォーマンスはGPT-4oスコアリングを使用して評価されます。
  • Summ(要約):タスクには、Multi-LexSumデータセットからの長い法的文書を要約し、GPT-4Oスコアリングを使用して結果が評価されます。

この包括的な評価戦略は、さまざまな実用的なタスクにわたってPHI-4のロングコンテキスト機能を徹底的にテストします。モデルの実際の適用性を反映しています。

トレーニング後の結果と反省

訓練後は、事前に守られた言語モデルをユーザーができるAIアシスタントに変換することを目的としています
安全に対話します。 PHI-4は、前処理されたモデルを、1ラウンドのSFT、1ラウンドのDPOONデータの1ラウンドで、重要なトークン検索方法からのDPONデータ、および完全な長さの優先ペアでDPOの1ラウンドに合わせます。モデルは、標準のChATML形式を使用してチャット微調整を受けます。 2ラウンドの会話の使用テンプレートの例は次のとおりです。

PHI-4:合成データを使用した言語モデルの再定義

革新的なトレーニング後のテクニック

事前トレーニングが完了すると、PHI-4はトレーニング後の段階に入り、さらに微調整が行われます。この段階では、モデルの推論能力を改善し、出力の品質を向上させることに焦点を当てています。トレーニング後のいくつかの革新は、PHI-4の印象的なパフォーマンスに貢献しています。

  • 監視された微調整: insphaseで、数学、コーディング、推論、会話、モデルのアイデンティティ、安全など、多様なドメイン全体で高品質のデータから高品質のデータから10-6 navarietyofdatageneratedの学習率で、事前に処理されたモデルを研究者に獲得します。
  • 直接選好の最適化:研究者はDPOを使用してモデルを人間の好みに合わせて、また、望ましい出力と望ましくない出力のペアを通じて、モデルを望まない行動から遠ざけます。 DPOデータは、チャット形式のデータ、推論、責任あるAI(RAI)データをカバーし、数学、コーディング、推論、堅牢性、安全性のモデルを改善します。彼らはSFTモデルで2ラウンドのDPOを行いました。
  • PIVOTALトークン検索(PTS): PHI-4のために開発された新しい手法であるPTSは、モデルの出力の全体的な成功に大きな影響を与える応答で重要なトークンを特定します。これにより、モデルは応答の特定の重要なトークンの改善に集中し、より正確さと堅牢性を高めることができます。

PHI-4:合成データを使用した言語モデルの再定義

キーベンチマークのパフォーマンス

PHI-4の機能を評価するには、標準ベンチマークでのパフォーマンスを調べることが不可欠です。 PHI-4は、いくつかの重要なタスクにわたる前任者と多くのより大きなモデルよりも一貫して優れています。

PHI-4:合成データを使用した言語モデルの再定義

ステムと推論タスク

PHI-4は、特にSTEMに焦点を当てた質問応答(大学院レベルの質問のGPQAなど)および数学競技(数学)で輝いています。 Llama-3のようなモデルよりも小さいにもかかわらず、PHI-4は、これらの推論が多いタスクで同等または優れた結果を達成します。これは、モデルの合成データの効果的な使用と、構造化された論理的な問題解決に焦点を当てることの証です。

たとえば、PHI-4は、小規模なモデルであるにもかかわらず、GPQAや数学などの多くの推論ベンチマークで、教師モデルのGPT-4よりも優れています。高品質の合成データと革新的なトレーニング技術を組み込むことで、PHI-4はこれらの分野ではるかに大きなモデルの能力を上回ることができました。

コーディングおよび技術的なタスク

タスクのコーディングでは、PHI-4も優れており、GPT-4 MiniやQwen 2.5などのモデルを上回ります。ヒューマンルートのアルゴリズムの問​​題を解決したり、より複雑なプログラミングの課題に取り組むかどうかにかかわらず、PHI-4のロジックを効果的に推論して適用する能力は、コーディングスペースのトップパフォーマーの1つになります。

安全性

PHI-4は、有害または偏ったコンテンツを生成し、ベンチマーク中に倫理的かつ責任あるAI相互作用を確保することに対して堅牢な保護ガードを示します。

PHI-4:合成データを使用した言語モデルの再定義

PHI-4をローカルに実行する方法

PHI-4を局所的に実行すると、この高度なAIモデルとシステムから直接対話でき、テストまたはアプリケーション開発の利便性と柔軟性を提供できます。以下の手順に従ってセットアップしてください。

オラマをインストールします

Ollamaは、PHI-4のようなAIモデルとのランニングと相互作用を促進するツールです。システムにOllamaをインストールすることから始めます。 Ollamaの公式Webサイトで詳細なインストール手順を見つけることができます。

コマンドラインでPHI-4を実行します

Ollamaがインストールされると、ターミナルまたはPowerShellに単一のコマンドを使用してPHI-4モデルを実行できます。

 Ollama Run Vanilj/Phi-4

このコマンドは、PHI-4モデルを初期化し、CLIで直接対話することができます。すぐにチャットや質問を始めることができます。

PHI-4をLangchainと統合します

PHI-4をワークフローやアプリケーションに統合するなど、より高度なユースケースについては、LangchainをOllamaで使用できます。 Langchainは、プログラムで言語モデルを操作するためのツールを提供します。

  • Langchain-Ollamaライブラリをインストールします。
 %PIPインストール-U Langchain -Ollama
  • 次のPythonスクリプトを使用して、Langchain経由でPHI-4を実行します。
 langchain_core.promptsからchatprompttemplateをインポートします
langchain_ollama.llmsからOllamallmをインポートします
template = "" "質問:{質問}
回答:段階的に考えましょう。 "" "
prompt = chatprompttemplate.from_template(テンプレート)
Model = Ollamallm(Model = "Vanilj/Phi-4")
チェーン=プロンプト|モデル
print(chain.invoke({"question": "ai?"})))))

PHI-4:合成データを使用した言語モデルの再定義

課題:過剰適合とデータの汚染に対処する

完璧なモデルはありません。PHI-4には独自の課題があります。 AI開発における過剰適合は一般的な懸念事項です。モデルがデータをトレーニングするには専門的になりすぎて、一般化を傷つけると発生します。 PHI-4は、データ除染プロセスを使用してこれに取り組みます。これにより、テストデータがトレーニングに含まれていないことを保証し、過剰適合リスクを減らします。

過剰適合緩和

2024年11月AMC-10やAMC-12数学競技などの新鮮なデータセットを使用することにより、PHI-4は、トレーニングセットをはるかに超えて一般化し、新しいタスクで優れたパフォーマンスを発揮できることを示しました。これは、PHI-4が実際のアプリケーションの堅牢で信頼性の高いツールであることを保証するために重要です。

弱点

  • 次の指示: PHI-4は推論のタスクでうまく機能しますが、厳格な指導に苦労しています。特定のフォーマットまたは複雑な文体的な指示を必要とするタスクは、モデルをコースから外すことがあります。
  • 事実の幻覚: PHI-4は、特に存在しないまたは仮想的な個人に関する情報を生成する際に、場合によっては事実上の正確さに依然として闘っています。

結論

PHI-4は、言語モデルの世界のゲームチェンジャーです。革新的な合成データ生成、最先端のトレーニング技術、およびトレーニング後の改良の組み合わせにより、他の多くのモデルとは一線を画しています。 PHI-4は、トレーニングへの適切なアプローチにより、品質が量に勝つことができることを示しています。これは、多くの現代モデルよりも少ないにもかかわらず、推論が多いタスク、STEM Q&A、コーディングの課題で優れたパフォーマンスを達成することです。

PHI-4には、特に指導に従っていることや事実上の正確さをめぐる課題がないわけではありません。しかし、論理的推論と問題解決におけるその顕著な能力は、AI空間で重要な一歩を踏み出します。 AIが進化するにつれて、PHI-4の合成データの使用は、フィールドでの将来の開発のモデルを設定します。言語モデルで可能なことの境界を押し広げるのに役立ちます。

キーテイクアウト

  • PHI-4は合成データを活用して、量よりも品質を優先し、その推論、STEMの質問応答、コーディング機能を強化します。
  • PHI-4の合成データは、構造化された学習、多様な課題、および実際の推論のコンテキストとのより良い整合を導入します。
  • PHI-4のトレーニングには、事前トレーニング、拡張されたコンテキストの長さの中間トレーニング、微調整のための革新的なトレーニング後の技術が含まれます。
  • Midtrainingは、PHI-4のコンテキストの長さを4Kから16Kトークンに拡張し、長いコンテキストタスク用に最適化します。
  • PHI-4の評価は、実用的な洞察のためのRAG、要約、コンテキスト学習などの現実世界のタスクを強調しています。
  • 監視された微調整と直接選好の最適化を含むトレーニング後の革新は、PHI-4の推論と安全性を改良します。
  • 高度なデータセットやトレーニング技術と相まって、PHI-4のアーキテクチャは、複雑な問題解決タスクを処理するためのNLPの新しいベンチマークを設定します。

よくある質問

Q1。 PHI-4とは何ですか?以前のモデルとはどう違うのですか?

A. PHI-4は、デコーダーのみの変圧器アーキテクチャに基づいた大規模で最先端のAIモデルです。 PHI-4は、コンテキストの長さを16Kトークンに増やすことにより、PHI-3メディウムのようなモデルに基づいて構築されます。また、多言語サポートを改善するために、Tiktokenを含む改善されたデータ前処理技術を導入します。

Q2。合成データがPHI-4をトレーニングするために重要なのはなぜですか?

A.合成データは、モデルが長いコンテキストタスクをより効果的に処理するのに役立つため、PHI-4のトレーニングに重要な役割を果たします。実際のデータと合成的に生成されたシーケンスを組み合わせることにより、PHI-4は多様なシナリオ全体でより良く一般化します。これにより、タスクでのパフォーマンスが向上し、大きなデータセット全体で推論が必要になります。

Q3。 PHI-4のトレーニングプロセスの重要な段階は何ですか?

A. PHI-4のトレーニングには3つの段階が含まれます。 Pretrainingは多様なデータソースを使用します。ミッドトレーニングは、コンテキストの長さを4K〜16Kトークンに拡張します。トレーニング後には、SFTなどの微調整技術、DPOによる補強学習、および事前抑制段階からのトークンサンプリング(PTS)が含まれます。

Q4。 PHI-4は実際のタスクでどのように機能しますか?

A. PHI-4は、質問の回答、要約、および検索された生成を含む、幅広い現実世界のベンチマークに優れています。 PHI-4は、ヘルム評価スイートからの多様なデータセットを使用して評価された長いドキュメントの推論タスクに優れています。

この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。

以上がPHI-4:合成データを使用した言語モデルの再定義の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。