IVG: 推論時に人間の価値観を大規模言語モデルに統合する-ウェブ3.0-php.cn

ホームページ

ウェブ3.0

IVG: 推論時に人間の価値観を大規模言語モデルに統合する

Linda Hamilton

Oct 03, 2024 pm 03:16 PM

AIIntegrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。

IVG: 推論時に人間の価値観を大規模言語モデルに統合する

学習ベースのアルゴリズムでモデルをトレーニングした後に人間の価値観を統合するには、LLM の微調整が必要ですが、これには計算コストと時間がかかります。さらに、ユーザーによる偏った望ましくない応答が生成されます。推論時に干渉する可能性のあるアルゴリズムを統合することで、ユーザーの好みにリアルタイムで効率的に適応できるモデルが必要です。この方法では、ベースモデルをフリーズし、LLM の微調整にかかる計算コストを削減することで、望ましい結果を得るためにモデルを繰り返し再トレーニングする必要がなくなります。

研究者らは、基本モデルを変更せずに陰的関数と陽的関数を使用して LLM を微調整した後、人間の価値観を統合する推論時間アライメント手法を開発しました。トークンの生成には暗黙的な関数が使用され、単語ごとに評価が行われ、最も確率の高い出力が優先されます。対照的に、明示的な関数では、全体的なコンテキストを維持しながら、より大きなテキストの塊を評価し、最も高い確率で次の単語のシーケンスを生成するための厳格な構造が必要です。明示的関数は柔軟性に欠け、計算コストが高く、トークンレベルの最適化に対処できません。一方、暗黙的関数は解釈可能性の問題に直面し、頻繁に前方パスを必要とするため、リアルタイム効率が低くなります。

両方の関数の欠点に対処するために、提案された手法である Integrated Value Guide (IVG) は、暗黙的関数のトークンレベルの最適化と明示的関数のより広い視点を組み合わせています。適応の課題や調整効果のトレードオフを回避することができ、パフォーマンスの不一致が減少し、実装が容易になりました。これらの利点により、制御された感情の生成や要約などのタスクのパフォーマンスが向上しました。 IVG を GPT-2 のような小型モデルと組み合わせると、上位モデルと競合できる可能性があります。

IVG には、モデルを人間の価値観に合わせるために、暗黙的関数と明示的関数という 2 つの値関数が組み込まれています。まず、トークンごとのサンプリングにより、個々のトークンが特定のシーケンス長に微調整され、複数のシーケンスが生成されます。次に、チャンクレベルのビーム検索でこれらのシーケンスの確率を比較し、最も高い確率を持つシーケンスを選択します。この方法では出力がより堅牢になりますが、頻繁な前方パスにより推論時間中の計算能力が増加し、応答が遅くなります。

研究者らは、IVG を評価するために 2 つの実験設定を使用しました: 1. 制御された感情の生成と要約、および 2. 指示に従う。 1 つ目では、金賞モデルの合成データセットを活用して GPT-2 モデルファミリーを使用し、肯定的な映画レビューを生成し、Reddit の投稿を要約します。比較すると、2 番目のモデルには命令調整モデルである AlpacaEval 2.0 が必要です。これは、暗黙的関数には特定のモデルを使用し、明示的関数には報酬ベースのモデルをトレーニングする Tulu ガイダンスと、両方の関数に対して Direct Preference Optimization (DPO) を使用してモデルを微調整する Ultraguidance を採用しています。 GPT-4-turbo は 2 回目の実験で反応を評価するための参照として使用され、IVG は一貫して良好なパフォーマンスを示しました。

これら 2 つの実験に加え、アブレーション研究により、チャンクレベルビームサーチ (CBS) の方が、微調整に陰関数を使用するエミュレータ微調整 (EFT) よりも高速効率が高いことが証明されました。これらの結果は、CBS が実際に使用するのにはるかに優れていることを証明しました。

結論として、Integrated Value Guide (IVG) は、従来の微調整の複雑さを回避し、純粋に推論時に大規模な言語モデルを人間の好みに合わせて調整するための斬新で効率的なアプローチを提供します。暗黙的および明示的な値関数を活用することで、IVG はトークン単位のサンプリングとチャンクレベルのデコードの両方のパフォーマンスを向上させます。これは、センチメントの生成、要約、および指示に従うタスクの大幅な改善を通じて実証されています。結果は、IVG が汎用性の高い手法であることを示し、既存のアプローチを上回る能力の強力な経験的証拠を提供し、現実世界のアプリケーションで大規模モデルを微調整するための有望なソリューションとなることを示しました。

50,000 ML SubReddit への参加を忘れないでください

100 万人の AI 読者の前に出てみませんか?ここで私たちと一緒に働きましょう

以上がIVG: 推論時に人間の価値観を大規模言語モデルに統合するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ビットコイン（BTC）価格アクション：ブルズは10万ドルを目標としていますが、キーレベルを守る必要がありますApr 27, 2025 am 11:26 AM

Bitcoinは現在、94,000ドルのレベルを超えて取引されており、最近の安値からの急激な回復の後、強い勢いを示しています。

ビットコイン（BTC）価格アクション：ブルズアイ$ 100Kですが、キーレベルを守る必要がありますApr 27, 2025 am 11:24 AM

Bitcoinは現在、94,000ドルのレベルを超えて取引されており、最近の安値からの急激な回復の後、強い勢いを示しています。

floppypepe（FPPE）は、賢い投資機会を求める投資家にとって最高の選択肢として浮上していますApr 27, 2025 am 11:22 AM

暗号通貨市場は多くの投資機会を提供し、Dogecoin（Doge）とShiba Inu（Shib）がMeme Coinsの人気のあるオプションです。

Ark Investの最新の調査によると、Bitcoin（BTC）は2030年までに240万ドルに達する可能性があります

Bitcoinの軌跡は投資家の想像力を捉えており、Ark Investの最新の研究アップデートは、暗号通貨の将来の変革的な絵を描いています。

ジェド・マッカレブの2014年のリップルからの出発は、おそらく戦略の一部でしたApr 27, 2025 am 11:18 AM

ジェド・マカレブの2014年のリップルからの出発は噂を引き起こしましたが、戦略の一部であった可能性があります。

5ミームコインキャッチヒート：Floki inu、Cheems、および1つの覆面捜査gemApr 27, 2025 am 11:16 AM

深刻な波を作るための次のミームコインがまだトレンドではなく、電報チャットと暗号のツイッタースレッドの影に隠れている場合はどうなりますか？

ダラスのスターは、コロラド雪崩でスクリプトを完全に反転させました。Apr 27, 2025 am 11:14 AM

ミロ・ヘスカネンとジェイソン・ロバートソンに怪我をしたおかげで、シリーズに登場する明確な負け犬が来る

仮想通貨市場での印象的な回復は、Altcoinsが地面を獲得するにつれて続きますApr 27, 2025 am 11:12 AM

仮想通貨市場は、ビットコインの最近の復活によって推進されて、代替の暗号通貨が基盤を獲得しているため、印象的な回復を引き続き示し続けています。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。