ご存知のとおり、大規模言語モデル (LLM) の推論には通常、自己回帰サンプリングの使用が必要ですが、この推論プロセスは非常に時間がかかります。この問題を解決するために、投機的デコードが LLM 推論の新しいサンプリング方法になりました。このメソッドは、各サンプリング ステップで、まず考えられるいくつかのトークンを予測し、次にそれらが正確であるかどうかを並行して検証します。自己回帰デコードとは異なり、投機的デコードでは複数のトークンを 1 ステップでデコードできるため、推論が高速化されます。
投機的解読は多くの面で大きな可能性を示していますが、綿密な研究が必要ないくつかの重要な問題も引き起こします。まず、推測の精度と生成効率のバランスをとるために、適切な近似モデルをどのように選択または設計するかを考える必要があります。第 2 に、評価基準によって生成される結果の多様性と品質の両方が維持されるようにすることが重要です。最後に、推論の精度を向上させるために、近似モデルとターゲットの大規模モデルの間の推論プロセスの調整を慎重に検討する必要があります。
香港理工大学、北京大学、MSRA、アリババの研究者らは、投機的復号化に関する包括的な調査を実施し、Machine Heart はこれについて包括的な要約を作成しました。
- 論文タイトル: 大規模言語モデル推論の効率性の解放: A投機的解読に関する包括的調査
- 論文アドレス: https://arxiv.org/pdf/2401.07851.pdf
本稿ではまず、投機的復号化技術の初期の研究状況を詳細に紹介し、その開発プロセスを年表で示します (図 2 を参照)。
ブロックワイズ デコーディングは、Transformer デコーダーに追加のフィードフォワード ニューラル (FFN) ヘッドを統合する方法であり、単一のステップで複数のトークンを生成できます。
ブロック サンプリング アルゴリズムの可能性をさらに最大限に活用するために、投機的復号ソリューションが提案されています。このアルゴリズムは、通常、生成タスクを効率的かつ正確に実行できる特殊な非自己回帰トランスフォーマーを使用する独立した近似モデルをカバーします。
投機的デコーディングの出現後、一部の学者は、投機的デコーディングに可逆加速カーネル サンプリングを追加した「投機的サンプリング アルゴリズム」を提案しました。
全体として、投機的デコードにおけるこれらの革新的な試みは、Draftthen-Verify パラダイムを強化し始め、LLM アクセラレーションにおける大きな可能性を示しています。
式と定義
このセクションでは、概要から始めます。標準 デコードの内容に戻り、アルゴリズムの正式な定義、方法論、および詳細な説明の包括的な説明を含む、投機的デコード アルゴリズムについて詳しく説明します。
この記事では、以下の図 3 に示すように、関連する研究を分類するための組織的枠組みを提案します。
# 前回の研究に基づいて、この記事では「投機的復号アルゴリズム」をもう一度正式に定義します。
投機的デコード アルゴリズムは、最初に生成してから検証するデコード モードです。各デコード ステップでは、まず複数の可能なトークンを生成できる必要があり、次にターゲットの大規模言語モデルを使用してこれらすべてのトークンを並行して評価できます。推論速度を高速化します。アルゴリズム表 2 は、投機的復号プロセスの詳細です。
次に、この記事では、このパラダイムに不可欠な 2 つの基本的なサブステップ、生成と評価について詳しく説明します。
生成
各デコード ステップで、投機的デコード アルゴリズムは最初に複数の可能性のあるデータを生成します。トークンは、ターゲットの大規模言語モデルの出力コンテンツに対する推測として機能します。
この記事では、生成されたコンテンツを独立製図と自己製図の 2 つのカテゴリに分類し、その計算式を以下の表 1 にまとめます。
デコードごとに
を確認します。ステップでは、近似モデルによって生成されたトークンが並行して検証され、出力品質がターゲットの大規模言語モデルとの一貫性が高いことが確認されます。このプロセスでは、各ステップで許可されるトークンの数も決定されます。これは、スピードアップに影響を与える可能性がある重要な要素です。
さまざまな検証基準の概要を以下の表 2 に示します。これには、大規模言語モデル推論における貪欲なデコードとカーネル サンプリングをサポートするものも含まれます。
さらに、この記事では、トークンの受け入れを段階的に向上させる効果的な戦略であるトークン ツリー検証アルゴリズムについても紹介します。
推測精度の向上は、推測的デコードを高速化するための鍵です: 近似モデルからの予測動作がターゲットの大規模言語モデルに近づくほど、生成されたトークンの受け入れ率が高くなります。この目的を達成するために、既存の研究では、近似モデルの出力内容をターゲットの大規模言語モデルの出力内容と一致させるためのさまざまな知識抽出 (KD) 戦略が検討されています。
ブロックされたデコードでは、まずシーケンスレベルの知識抽出 (Seq-KD) を使用してモデルのアライメントを行い、ターゲットの大規模言語モデルによって生成された文を使用して近似モデルをトレーニングします。
さらに、Seq-KD は並列デコード生成の品質を向上させ、並列デコードの生成パフォーマンスを向上させる効果的な戦略でもあります。
既存の投機的復号方法の主な特徴は、近似モデルまたは生成戦略の種類、モデルの調整方法、サポートされる評価戦略、加速度などを含めて、以下の表 3 にまとめられています。
一般的なパラダイムであることに加えて、最近の研究では、投機的復号化の一部の変種が特定のタスクにおいて並外れた効果を発揮することも示されています。さらに、他の研究では、このパラダイムを適用して、特定のアプリケーション シナリオに固有の遅延の問題に対処し、推論の高速化を実現しています。
たとえば、一部の学者は、投機的デコードは、文法的エラーの修正や検索拡張の生成など、モデルの入力と出力が非常に類似しているタスクに特に適していると考えています。
これらの研究に加えて、RaLMSpec (Zhang et al., 2023b) は、投機的デコードを使用して検索拡張言語モデル (RaLM) を高速化します。
機会と課題
質問 1: 予測されたコンテンツの精度とそれを生成する効率をどのように比較検討しますか?この問題に関してはある程度の進歩が見られましたが、近似モデルをターゲットの大規模言語モデルが生成するものと整合させるには、まだ改善の余地がかなりあります。モデルの調整に加えて、生成の品質や予測長の決定などの他の要因も予測の精度に影響を与えるため、さらに調査する価値があります。
質問 2: 投機的デコードを他の主要なテクノロジーと組み合わせるにはどうすればよいですか?一般的なデコード モードとして、投機的デコードは他の高度なテクノロジと組み合わされて、その可能性が実証されています。プレーンテキストの大規模な言語モデルを高速化することに加えて、画像合成、テキスト音声合成、ビデオ生成などのマルチモーダル推論における投機的デコードの適用も、将来の研究にとって興味深く価値のある方向性です。
詳細については、元の論文を参照してください。
以上がGPT-4 も使用している可能性のある投機的デコードとは何ですか?過去・現在・活用状況をまとめた記事の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました:無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。 あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

ロボットプロセスオートメーション(RPA)を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。 一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。 このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント:研究a

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか? Topher McDougalの今後の本、Gaia Wakes:

多くの場合、Harmonized System(HS)などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。 これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターと気候技術投資におけるエネルギー消費の将来 この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。 エネルギー需要の課題:大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました(JP Morgan、2024)(表1)。 エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。 生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptユーザーエクスペリエンスは低下します:それはモデルの劣化ですか、それともユーザーの期待ですか? 最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。 ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。 これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。 パフォーマンスの劣化の証拠 多くのユーザーは、特にGPT-4などの古いモデル(今月末にサービスから廃止される)で、ChatGPTパフォーマンスの大幅な分解を報告しています。 これ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









