ホームページ >テクノロジー周辺機器 >AI >PHI-4:合成データを使用した言語モデルの再定義
AIの景観は急速に進化しており、言語モデル、特に推論や問題解決タスクのために設計された景観は、この革命の中心にあります。 AIのそのようなブレークスルーの1つは、Microsoft Researchによって開発された140億パラメーターモデルであるPHI-4です。 PHI-4を前任者や他のモデルとは一線を画しているのは、トレーニングへの革新的なアプローチ、特に合成データの使用です。膨大な量よりもデータの品質を優先することにより、PHI-4は、推論能力、STEM重視の質問応答、およびコーディングタスクの顕著な改善を示します。
このブログでは、PHI-4を詳細に検討し、そのアーキテクチャ、トレーニングプロセス、およびトレーニング後の革新のすべてのコンポーネントを分析します。その重要な強みを分解し、改善の領域について話し合い、他の多くの言語モデルをどのように上回るかを説明します。このディープダイビングの終わりまでに、PHI-4が単なる別のモデルではなく、自然言語処理の分野(NLP)での真の跳躍が理由を理解するでしょう。
この記事は、データサイエンスブログソンの一部として公開されました。
その中心にあるPHI-4は、Microsoft Researchによって開発された140億パラメーター言語モデルです。このモデルは、PHI-3などのPHIファミリーでの以前の反復の成功に基づいていますが、推論が重いタスクのパフォーマンスを大幅に向上させるいくつかの重要な革新を導入します。主に大量のオーガニックデータ(Webコンテンツ、書籍、コードリポジトリなど)に依存する他の多くの大規模な言語モデル(LLM)とは異なり、PHI-4は、トレーニングパイプラインに大量の合成データを戦略的に組み込んでいます。この合成データに焦点を当てた他のトレーニングイノベーションと組み合わせることで、PHI-4は主要な分野でより良いパフォーマンスを実現できます。特に、STEM関連の質問応答と複雑な問題解決が可能になります。
AIコミュニティでは、データはトレーニングモデルの生命線です。通常、LLMは、Webから削り取られたか、本や書類からキュレーションされた大規模なデータセットを使用してトレーニングされます。この有機データは有用ですが、多くの場合、矛盾、無関係な情報、またはモデルの推論能力を推進する構造化された課題の欠如が含まれています。これは、合成データが登場する場所です。
チームは、特定のトレーニング目標を満たすために合成データを人為的に生成し、モデルの学習プロセスを導くための非常に効果的なツールになります。 PHI-4の場合、合成データは、強力な推論と問題解決能力を促進する高品質のデータセットを構築するのに役立ちます。
PHI-4の合成データは、ランダムに生成されるだけでなく、高度な技術の組み合わせを使用して慎重に作成されています。
そのような手法に優先順位を付けることにより、PHI-4は問題をよりインテリジェントに解決することを学び、同時に純粋に有機的なデータセットから生じる可能性のあるバイアスを減らすことも学びます。
PHI-4の印象的なパフォーマンスは、合成データの使用だけではありません。モデルのトレーニングカリキュラムも成功に重要です。 PHI-4のクリエイターは、有機ソースや合成データを含むデータ型のバランスの取れた混合物を組み込んだ洗練されたトレーニングプロセスを設計しました。
PHI-4モデルは、140億パラメーターを持つデコーダーのみのトランスアーキテクチャを使用し、最初はコンテキスト長の4096トークンで動作します。このコンテキストの長さは、その後のミッドトレーニングフェーズ中に後で16Kトークンに増加します。アーキテクチャは、PHI-3メディアムモデルと多くの類似点を共有していますが、いくつかの機能強化を導入しています。特に、PHI-4は多言語のサポートを改善するTiktokenトークン剤を採用し、未使用のトークンを含む100,352トークンの語彙サイズを持っています。さらに、PHI-4は4Kコンテキストの長さにわたって完全に注意を払っています。これは、PHI-3メディウムで使用される2Kスライドウィンドウアプローチからの出発です。
チームは、線形ウォームアップと減衰スケジュールに続いて、約10兆トークンを使用してモデルを前提としました。ピーク学習率を0.0003に設定し、0.1の一定の重量減衰を適用し、5760のグローバルバッチサイズを使用しました。彼らは、モデルの安定性を確保するために学習率のウォームアップフェーズをストレステストすることで補間することにより、ハイパーパラメーターを微調整しました。事前トレーニング後、モデルは元の4Kコンテキストの長さを16Kトークンに拡張するための短いミッドトレーニングステージを受けました。
通常、事前に訓練されたモデルは指導に従うタスクでうまく機能しないため、研究者は特定の形式で回答を必要とする単純なevalsなどの0ショット評価に依存しないことを選択しました。代わりに、彼らは、ログリケリの評価とさまざまなタスクの少数のショットプロンプトを組み合わせた事前トレーニングのカスタム評価アプローチを開発しました。たとえば、チームは、MMLU(5ショット)、MMLU-Pro、ARCC(1-Shot)などのタスクの対数尤度評価を使用しました。さらに、Triviaqa(TQA)、MBPP、Math、GSM8Kなどのタスクの1、3、4、および8の少数の例を使用してモデルをトレーニングし、必要な回答形式に従い、正しいソリューションを抽出するのに役立ちました。
PHI-4のミッドトレーニングフェーズでは、コンテキストの長さは元の4Kトークンから16Kトークンに延長されます。この段階で、研究者は一連のアブレーション研究を実施して、異なる種類のデータがモデルのパフォーマンスに長いコンテキストにどのように影響するかを調査します。彼らは、より短いシーケンスをパッドでパッドにしてより長いものを作成する合成データを使用して、自然に長いコンテキストを持っているデータソースを比較します。結果は、本質的に長いコンテキストを持っているデータでトレーニングされると、モデルがより良いパフォーマンスを発揮することを示しています。
チームは、アカデミックペーパー、本、コードなどの高品質の非合成データを除外することにより、データセットを改良します。彼らは8kトークンよりも長いサンプルを分離し、それらの16Kトークン以上により多くの重量を与えます。新しい合成データセットは、4Kトークンより長いシーケンスで作成されます。最終的なデータセット混合には、30%の長いコンテキストデータと70%のリコールトークンが含まれています。コンテキストの長さの増加に対応するために、チームは回転位置エンコード(ロープ)ベース周波数を250kに設定します。最大学習率を10倍低下させ、2500億トークンでモデルを訓練します。
長いコンテキストを処理するPHI-4の能力を評価するために、研究者は、ヘイスタックのニードルやルーラーなどの合成ベンチマークだけに依存するのではなく、実際のシナリオをより単純ではありませんが、実用的なシナリオを反映していない多様な一連の現実世界のタスクを強調します。チームは、ヘルメット[YGH 24]評価スイートからこれらのタスクを選択し、各カテゴリの5回の実行で平均して結果を示します。
評価フレームワークには、次のタスクが含まれています。
この包括的な評価戦略は、さまざまな実用的なタスクにわたってPHI-4のロングコンテキスト機能を徹底的にテストします。モデルの実際の適用性を反映しています。
訓練後は、事前に守られた言語モデルをユーザーができるAIアシスタントに変換することを目的としています
安全に対話します。 PHI-4は、前処理されたモデルを、1ラウンドのSFT、1ラウンドのDPOONデータの1ラウンドで、重要なトークン検索方法からのDPONデータ、および完全な長さの優先ペアでDPOの1ラウンドに合わせます。モデルは、標準のChATML形式を使用してチャット微調整を受けます。 2ラウンドの会話の使用テンプレートの例は次のとおりです。
事前トレーニングが完了すると、PHI-4はトレーニング後の段階に入り、さらに微調整が行われます。この段階では、モデルの推論能力を改善し、出力の品質を向上させることに焦点を当てています。トレーニング後のいくつかの革新は、PHI-4の印象的なパフォーマンスに貢献しています。
PHI-4の機能を評価するには、標準ベンチマークでのパフォーマンスを調べることが不可欠です。 PHI-4は、いくつかの重要なタスクにわたる前任者と多くのより大きなモデルよりも一貫して優れています。
PHI-4は、特にSTEMに焦点を当てた質問応答(大学院レベルの質問のGPQAなど)および数学競技(数学)で輝いています。 Llama-3のようなモデルよりも小さいにもかかわらず、PHI-4は、これらの推論が多いタスクで同等または優れた結果を達成します。これは、モデルの合成データの効果的な使用と、構造化された論理的な問題解決に焦点を当てることの証です。
たとえば、PHI-4は、小規模なモデルであるにもかかわらず、GPQAや数学などの多くの推論ベンチマークで、教師モデルのGPT-4よりも優れています。高品質の合成データと革新的なトレーニング技術を組み込むことで、PHI-4はこれらの分野ではるかに大きなモデルの能力を上回ることができました。
タスクのコーディングでは、PHI-4も優れており、GPT-4 MiniやQwen 2.5などのモデルを上回ります。ヒューマンルートのアルゴリズムの問題を解決したり、より複雑なプログラミングの課題に取り組むかどうかにかかわらず、PHI-4のロジックを効果的に推論して適用する能力は、コーディングスペースのトップパフォーマーの1つになります。
PHI-4は、有害または偏ったコンテンツを生成し、ベンチマーク中に倫理的かつ責任あるAI相互作用を確保することに対して堅牢な保護ガードを示します。
PHI-4を局所的に実行すると、この高度なAIモデルとシステムから直接対話でき、テストまたはアプリケーション開発の利便性と柔軟性を提供できます。以下の手順に従ってセットアップしてください。
Ollamaは、PHI-4のようなAIモデルとのランニングと相互作用を促進するツールです。システムにOllamaをインストールすることから始めます。 Ollamaの公式Webサイトで詳細なインストール手順を見つけることができます。
Ollamaがインストールされると、ターミナルまたはPowerShellに単一のコマンドを使用してPHI-4モデルを実行できます。
Ollama Run Vanilj/Phi-4
このコマンドは、PHI-4モデルを初期化し、CLIで直接対話することができます。すぐにチャットや質問を始めることができます。
PHI-4をワークフローやアプリケーションに統合するなど、より高度なユースケースについては、LangchainをOllamaで使用できます。 Langchainは、プログラムで言語モデルを操作するためのツールを提供します。
%PIPインストール-U Langchain -Ollama
langchain_core.promptsからchatprompttemplateをインポートします langchain_ollama.llmsからOllamallmをインポートします template = "" "質問:{質問} 回答:段階的に考えましょう。 "" " prompt = chatprompttemplate.from_template(テンプレート) Model = Ollamallm(Model = "Vanilj/Phi-4") チェーン=プロンプト|モデル print(chain.invoke({"question": "ai?"})))))
完璧なモデルはありません。PHI-4には独自の課題があります。 AI開発における過剰適合は一般的な懸念事項です。モデルがデータをトレーニングするには専門的になりすぎて、一般化を傷つけると発生します。 PHI-4は、データ除染プロセスを使用してこれに取り組みます。これにより、テストデータがトレーニングに含まれていないことを保証し、過剰適合リスクを減らします。
2024年11月AMC-10やAMC-12数学競技などの新鮮なデータセットを使用することにより、PHI-4は、トレーニングセットをはるかに超えて一般化し、新しいタスクで優れたパフォーマンスを発揮できることを示しました。これは、PHI-4が実際のアプリケーションの堅牢で信頼性の高いツールであることを保証するために重要です。
PHI-4は、言語モデルの世界のゲームチェンジャーです。革新的な合成データ生成、最先端のトレーニング技術、およびトレーニング後の改良の組み合わせにより、他の多くのモデルとは一線を画しています。 PHI-4は、トレーニングへの適切なアプローチにより、品質が量に勝つことができることを示しています。これは、多くの現代モデルよりも少ないにもかかわらず、推論が多いタスク、STEM Q&A、コーディングの課題で優れたパフォーマンスを達成することです。
PHI-4には、特に指導に従っていることや事実上の正確さをめぐる課題がないわけではありません。しかし、論理的推論と問題解決におけるその顕著な能力は、AI空間で重要な一歩を踏み出します。 AIが進化するにつれて、PHI-4の合成データの使用は、フィールドでの将来の開発のモデルを設定します。言語モデルで可能なことの境界を押し広げるのに役立ちます。
A. PHI-4は、デコーダーのみの変圧器アーキテクチャに基づいた大規模で最先端のAIモデルです。 PHI-4は、コンテキストの長さを16Kトークンに増やすことにより、PHI-3メディウムのようなモデルに基づいて構築されます。また、多言語サポートを改善するために、Tiktokenを含む改善されたデータ前処理技術を導入します。
Q2。合成データがPHI-4をトレーニングするために重要なのはなぜですか?A.合成データは、モデルが長いコンテキストタスクをより効果的に処理するのに役立つため、PHI-4のトレーニングに重要な役割を果たします。実際のデータと合成的に生成されたシーケンスを組み合わせることにより、PHI-4は多様なシナリオ全体でより良く一般化します。これにより、タスクでのパフォーマンスが向上し、大きなデータセット全体で推論が必要になります。
Q3。 PHI-4のトレーニングプロセスの重要な段階は何ですか?A. PHI-4のトレーニングには3つの段階が含まれます。 Pretrainingは多様なデータソースを使用します。ミッドトレーニングは、コンテキストの長さを4K〜16Kトークンに拡張します。トレーニング後には、SFTなどの微調整技術、DPOによる補強学習、および事前抑制段階からのトークンサンプリング(PTS)が含まれます。
Q4。 PHI-4は実際のタスクでどのように機能しますか?A. PHI-4は、質問の回答、要約、および検索された生成を含む、幅広い現実世界のベンチマークに優れています。 PHI-4は、ヘルム評価スイートからの多様なデータセットを使用して評価された長いドキュメントの推論タスクに優れています。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がPHI-4:合成データを使用した言語モデルの再定義の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。