初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化される-AI-php.cn

ホームページ

テクノロジー周辺機器

初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化される

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 05, 2024 pm 02:31 PM

rlhfプロジェクトCOLM

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の著者は全員、ケンブリッジ大学の言語技術研究室の出身で、博士課程 3 年生の Liu yinghong とその指導教員です。ナイジェル・コリアー教授とイーサン・シャレギ教授です。彼の研究対象は、大規模モデルとテキストの評価、データ生成などです。同義市の博士課程 2 年生である Zhou Han 氏は、アンナコルホネン教授とイヴァンヴリッチ教授の指導を受けており、効率的な大型モデルに研究の関心を持っています。

この大規模なモデルは、優れたコマンド追従機能とタスク一般化機能を示します。このユニークな能力は、LLM トレーニングにおけるコマンド追従データとヒューマンフィードバック強化学習 (RLHF) の使用から生まれます。 RLHF トレーニングパラダイムでは、報酬モデルはランキング比較データに基づいて人間の好みに合わせられます。これにより、LLM と人間の価値観の整合性が強化され、人間をより適切に支援し、人間の価値観を遵守する応答が生成されます。

最近、最初の大規模なモデルカンファレンス COLM が受け入れ結果を発表したところ、高スコアの作品の 1 つが、LLM をテキスト評価器として使用する場合に回避および修正が難しいスコアバイアスの問題を分析し、その結果を変換することを提案しました。評価問題を好みのランキング問題に変換し、ペアごとの好みから検索および並べ替えることができるアルゴリズムである、PairS アルゴリズムを設計しました。不確実性と LLM 推移性の仮定を活用することで、PairS は効率的かつ正確な選好ランキングを提供し、複数のテストセットに対する人間の判断とのより高い一貫性を実証できます。