ホームページ  >  記事  >  テクノロジー周辺機器  >  GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

王林
王林転載
2024-02-20 15:45:02651ブラウズ

ご存知のとおり、大規模言語モデル (LLM) の推論には通常、自己回帰サンプリングの使用が必要ですが、この推論プロセスは非常に時間がかかります。この問題を解決するために、投機的デコードが LLM 推論の新しいサンプリング方法になりました。このメソッドは、各サンプリング ステップで、まず考えられるいくつかのトークンを予測し、次にそれらが正確であるかどうかを並行して検証します。自己回帰デコードとは異なり、投機的デコードでは複数のトークンを 1 ステップでデコードできるため、推論が高速化されます。

投機的解読は多くの面で大きな可能性を示していますが、綿密な研究が必要ないくつかの重要な問題も引き起こします。まず、推測の精度と生成効率のバランスをとるために、適切な近似モデルをどのように選択または設計するかを考える必要があります。第 2 に、評価基準によって生成される結果の多様性と品質の両方が維持されるようにすることが重要です。最後に、推論の精度を向上させるために、近似モデルとターゲットの大規模モデルの間の推論プロセスの調整を慎重に検討する必要があります。

香港理工大学、北京大学、MSRA、アリババの研究者らは、投機的復号化に関する包括的な調査を実施し、Machine Heart はこれについて包括的な要約を作成しました。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事


  • 論文タイトル: 大規模言語モデル推論の効率性の解放: A投機的解読に関する包括的調査
  • 論文アドレス: https://arxiv.org/pdf/2401.07851.pdf
##投機的復号化の進化

本稿ではまず、投機的復号化技術の初期の研究状況を詳細に紹介し、その開発プロセスを年表で示します (図 2 を参照)。

ブロックワイズ デコーディングは、Transformer デコーダーに追加のフィードフォワード ニューラル (FFN) ヘッドを統合する方法であり、単一のステップで複数のトークンを生成できます。

ブロック サンプリング アルゴリズムの可能性をさらに最大限に活用するために、投機的復号ソリューションが提案されています。このアルゴリズムは、通常、生成タスクを効率的かつ正確に実行できる特殊な非自己回帰トランスフォーマーを使用する独立した近似モデルをカバーします。

投機的デコーディングの出現後、一部の学者は、投機的デコーディングに可逆加速カーネル サンプリングを追加した「投機的サンプリング アルゴリズム」を提案しました。

全体として、投機的デコードにおけるこれらの革新的な試みは、Draftthen-Verify パラダイムを強化し始め、LLM アクセラレーションにおける大きな可能性を示しています。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事式と定義

このセクションでは、概要から始めます。標準 デコードの内容に戻り、アルゴリズムの正式な定義、方法論、および詳細な説明の包括的な説明を含む、投機的デコード アルゴリズムについて詳しく説明します。

この記事では、以下の図 3 に示すように、関連する研究を分類するための組織的枠組みを提案します。

# 前回の研究に基づいて、この記事では「投機的復号アルゴリズム」をもう一度正式に定義します。 GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

投機的デコード アルゴリズムは、最初に生成してから検証するデコード モードです。各デコード ステップでは、まず複数の可能なトークンを生成できる必要があり、次にターゲットの大規模言語モデルを使用してこれらすべてのトークンを並行して評価できます。推論速度を高速化します。アルゴリズム表 2 は、投機的復号プロセスの詳細です。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事次に、この記事では、このパラダイムに不可欠な 2 つの基本的なサブステップ、生成と評価について詳しく説明します。

生成

各デコード ステップで、投機的デコード アルゴリズムは最初に複数の可能性のあるデータを生成します。トークンは、ターゲットの大規模言語モデルの出力コンテンツに対する推測として機能します。

この記事では、生成されたコンテンツを独立製図と自己製図の 2 つのカテゴリに分類し、その計算式を以下の表 1 にまとめます。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

デコードごとに

を確認します。ステップでは、近似モデルによって生成されたトークンが並行して検証され、出力品質がターゲットの大規模言語モデルとの一貫性が高いことが確認されます。このプロセスでは、各ステップで許可されるトークンの数も決定されます。これは、スピードアップに影響を与える可能性がある重要な要素です。

さまざまな検証基準の概要を以下の表 2 に示します。これには、大規模言語モデル推論における貪欲なデコードとカーネル サンプリングをサポートするものも含まれます。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

#生成と検証のサブステップは、終了条件が満たされるまで繰り返されます。 [EOS] トークンがデコードされるか、センテンスが最大長に達します。

さらに、この記事では、トークンの受け入れを段階的に向上させる効果的な戦略であるトークン ツリー検証アルゴリズムについても紹介します。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

モデルのアライメント

推測精度の向上は、推測的デコードを高速化するための鍵です: 近似モデルからの予測動作がターゲットの大規模言語モデルに近づくほど、生成されたトークンの受け入れ率が高くなります。この目的を達成するために、既存の研究では、近似モデルの出力内容をターゲットの大規模言語モデルの出力内容と一致させるためのさまざまな知識抽出 (KD) 戦略が検討されています。

ブロックされたデコードでは、まずシーケンスレベルの知識抽出 (Seq-KD) を使用してモデルのアライメントを行い、ターゲットの大規模言語モデルによって生成された文を使用して近似モデルをトレーニングします。

さらに、Seq-KD は並列デコード生成の品質を向上させ、並列デコードの生成パフォーマンスを向上させる効果的な戦略でもあります。

既存の投機的復号方法の主な特徴は、近似モデルまたは生成戦略の種類、モデルの調整方法、サポートされる評価戦略、加速度などを含めて、以下の表 3 にまとめられています。

GPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事

アプリケーション

一般的なパラダイムであることに加えて、最近の研究では、投機的復号化の一部の変種が特定のタスクにおいて並外れた効果を発揮することも示されています。さらに、他の研究では、このパラダイムを適用して、特定のアプリケーション シナリオに固有の遅延の問題に対処し、推論の高速化を実現しています。

たとえば、一部の学者は、投機的デコードは、文法的エラーの修正や検索拡張の生成など、モデルの入力と出力が非常に類似しているタスクに特に適していると考えています。

これらの研究に加えて、RaLMSpec (Zhang et al., 2023b) は、投機的デコードを使用して検索拡張言語モデル (RaLM) を高速化します。

機会と課題

質問 1: 予測されたコンテンツの精度とそれを生成する効率をどのように比較検討しますか?この問題に関してはある程度の進歩が見られましたが、近似モデルをターゲットの大規模言語モデルが生成するものと整合させるには、まだ改善の余地がかなりあります。モデルの調整に加えて、生成の品質や予測長の決定などの他の要因も予測の精度に影響を与えるため、さらに調査する価値があります。

質問 2: 投機的デコードを他の主要なテクノロジーと組み合わせるにはどうすればよいですか?一般的なデコード モードとして、投機的デコードは他の高度なテクノロジと組み合わされて、その可能性が実証されています。プレーンテキストの大規模な言語モデルを高速化することに加えて、画像合成、テキスト音声合成、ビデオ生成などのマルチモーダル推論における投機的デコードの適用も、将来の研究にとって興味深く価値のある方向性です。

詳細については、元の論文を参照してください。

以上がGPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。