ホームページ >テクノロジー周辺機器 >AI >初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化される
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者は全員、ケンブリッジ大学の言語技術研究室の出身で、博士課程 3 年生の Liu yinghong とその指導教員です。ナイジェル・コリアー教授とイーサン・シャレギ教授です。彼の研究対象は、大規模モデルとテキストの評価、データ生成などです。同義市の博士課程 2 年生である Zhou Han 氏は、アンナ コルホネン教授とイヴァン ヴリッチ教授の指導を受けており、効率的な大型モデルに研究の関心を持っています。
この大規模なモデルは、優れたコマンド追従機能とタスク一般化機能を示します。このユニークな能力は、LLM トレーニングにおけるコマンド追従データとヒューマン フィードバック強化学習 (RLHF) の使用から生まれます。 RLHF トレーニング パラダイムでは、報酬モデルはランキング比較データに基づいて人間の好みに合わせられます。これにより、LLM と人間の価値観の整合性が強化され、人間をより適切に支援し、人間の価値観を遵守する応答が生成されます。
最近、最初の大規模なモデルカンファレンス COLM が受け入れ結果を発表したところ、高スコアの作品の 1 つが、LLM をテキスト評価器として使用する場合に回避および修正が難しいスコアバイアスの問題を分析し、その結果を変換することを提案しました。評価問題を好みのランキング問題に変換し、ペアごとの好みから検索および並べ替えることができるアルゴリズムである、PairS アルゴリズムを設計しました。不確実性と LLM 推移性の仮定を活用することで、PairS は効率的かつ正確な選好ランキングを提供し、複数のテスト セットに対する人間の判断とのより高い一貫性を実証できます。
論文リンク: https://arxiv.org/abs/2403.16950
論文タイトル: 人間の判断との整合: 大規模言語モデル評価におけるペアワイズ優先順位の役割
Github アドレス: https://github.com/cambridgeltl/PairS
大規模モデル評価の問題点は何ですか?
最近の多くの研究は、テキストの品質を評価する際の LLM の優れたパフォーマンスを実証し、生成タスクの参照不要の評価のための新しいパラダイムを形成し、高価な人による注釈コストを回避しています。ただし、LLM 評価者はプロンプト設計に非常に敏感であり、位置バイアス、冗長バイアス、コンテキスト バイアスなどの複数のバイアスの影響を受ける可能性もあります。これらのバイアスにより、LLM 評価者が公平で信頼できることが妨げられ、人間の判断との不一致や不一致が生じます。
LLM の偏った予測を減らすために、以前の研究では LLM 予測の偏りを減らすためのキャリブレーション技術を開発しました。まず、点単位の LLM 推定量を調整する際のキャリブレーション手法の有効性を体系的に分析します。上の図 2 に示すように、既存のキャリブレーション方法では、監視データが提供された場合でも、依然として LLM 推定量が適切に調整されていません。
式1に示すように、評価のずれの主な原因は、LLMの評価スコア分布に対する事前分布の偏りではなく、評価基準、つまりLLM評価者の尤度(尤度)のずれであると考えられます。 。私たちは、LLM 評価者がペアごとの評価を行う際に、人間とのより一貫した評価基準を持つようになると信じているため、より整合性のとれた判断を促進するための新しい LLM 評価パラダイムを模索します。
RLHF によってもたらされたインスピレーション
以下の図 1 に示すように、RLHF の選好データによる報酬モデルの調整からインスピレーションを得て、LLM 評価器はより人間的な選好ランキングを生成することで取得できると考えています。 - 調整された予測。最近の研究の中には、LLM にペアごとの比較を実行するよう依頼することで優先順位を取得し始めたものもあります。しかし、選好ランキングの複雑さと拡張性の評価はほとんど見落とされてきました。これらは推移性の仮定を無視するため、比較の数が O (N^2) になり、評価プロセスが高価になり実行不可能になります。
PairS: 効率的なプリファレンス検索アルゴリズム
この研究では、2 つのペアごとのプリファレンス検索アルゴリズム (PairS-greedy および ParS-beam) を提案します。 PairS-greedy は、完全な推移性の仮定とマージ ソートに基づいたアルゴリズムであり、わずか O (NlogN) の複雑さでグローバル プリファレンス ソートを取得できます。推移性の仮定は、たとえば 3 つの候補について、LLM が A≻B および B≻C の場合、A≻C を常に有することを意味します。この仮定の下では、従来のランキング アルゴリズムを直接使用して、ペアごとの好みから好みのランキングを取得できます。
しかし、LLM は完全な推移性を持たないため、PairS ビーム アルゴリズムを設計しました。より緩やかな推移性の仮定の下で、選好ランキングの尤度関数を導出し、単純化します。ペアS-ビームは、マージソートアルゴリズムの各マージ操作における尤度値に基づいてビームサーチを実行し、優先度の不確実性を通じてペアごとの比較空間を削減する検索方法です。ペアSビームは、コントラストの複雑さとランキングの品質を調整し、好みのランキングの最尤推定値(MLE)を効率的に提供できます。以下の図 3 は、PairS-beam がマージ操作を実行する方法の例を示しています。
実験結果
クローズドエンドの略語タスクである NewsRoom と SummEval、およびオープンエンドのストーリー生成タスク HANNA を含む複数の代表的なデータセットでテストし、LLM シングルポイントの複数のベースライン手法を比較しました。評価には、教師なし直接スコアリング、G-Eval、GPTScore、教師ありトレーニング UniEval および BARTScore が含まれます。以下の表 1 に示すように、PairS はすべてのタスクにおいて人間による評価よりも高い一貫性を持っています。 GPT-4-turbo は SOTA 効果も実現できます。
この記事では、選好ランキング、勝率、ELO レーティングの 2 つの基準方法も比較しました。ペアエスは、わずか約 30% の比較回数で同等の品質嗜好ランキングを達成できます。この論文では、ペアワイズ設定を使用して LLM 推定量の推移性を定量的に計算する方法と、ペアワイズ推定量がキャリブレーションからどのように恩恵を受けるかについてのさらなる洞察も提供します。
研究の詳細については、元の論文を参照してください。
以上が初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。