初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化される

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。投稿メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者は全員、ケンブリッジ大学の言語技術研究室の出身で、博士課程 3 年生の Liu yinghong とその指導教員です。ナイジェル・コリアー教授とイーサン・シャレギ教授です。彼の研究対象は、大規模モデルとテキストの評価、データ生成などです。同義市の博士課程 2 年生である Zhou Han 氏は、アンナ コルホネン教授とイヴァン ヴリッチ教授の指導を受けており、効率的な大型モデルに研究の関心を持っています。
この大規模なモデルは、優れたコマンド追従機能とタスク一般化機能を示します。このユニークな能力は、LLM トレーニングにおけるコマンド追従データとヒューマン フィードバック強化学習 (RLHF) の使用から生まれます。 RLHF トレーニング パラダイムでは、報酬モデルはランキング比較データに基づいて人間の好みに合わせられます。これにより、LLM と人間の価値観の整合性が強化され、人間をより適切に支援し、人間の価値観を遵守する応答が生成されます。
最近、最初の大規模なモデルカンファレンス COLM が受け入れ結果を発表したところ、高スコアの作品の 1 つが、LLM をテキスト評価器として使用する場合に回避および修正が難しいスコアバイアスの問題を分析し、その結果を変換することを提案しました。評価問題を好みのランキング問題に変換し、ペアごとの好みから検索および並べ替えることができるアルゴリズムである、PairS アルゴリズムを設計しました。不確実性と LLM 推移性の仮定を活用することで、PairS は効率的かつ正確な選好ランキングを提供し、複数のテスト セットに対する人間の判断とのより高い一貫性を実証できます。
論文リンク: https://arxiv.org/abs/2403.16950
論文タイトル: 人間の判断との整合: 大規模言語モデル評価におけるペアワイズ優先順位の役割
Github アドレス: https://github.com/cambridgeltl/PairS
大規模モデル評価の問題点は何ですか?
最近の多くの研究は、テキストの品質を評価する際の LLM の優れたパフォーマンスを実証し、生成タスクの参照不要の評価のための新しいパラダイムを形成し、高価な人による注釈コストを回避しています。ただし、LLM 評価者はプロンプト設計に非常に敏感であり、位置バイアス、冗長バイアス、コンテキスト バイアスなどの複数のバイアスの影響を受ける可能性もあります。これらのバイアスにより、LLM 評価者が公平で信頼できることが妨げられ、人間の判断との不一致や不一致が生じます。
LLM の偏った予測を減らすために、以前の研究では LLM 予測の偏りを減らすためのキャリブレーション技術を開発しました。まず、点単位の LLM 推定量を調整する際のキャリブレーション手法の有効性を体系的に分析します。上の図 2 に示すように、既存のキャリブレーション方法では、監視データが提供された場合でも、依然として LLM 推定量が適切に調整されていません。
式1に示すように、評価のずれの主な原因は、LLMの評価スコア分布に対する事前分布の偏りではなく、評価基準、つまりLLM評価者の尤度(尤度)のずれであると考えられます。 。私たちは、LLM 評価者がペアごとの評価を行う際に、人間とのより一貫した評価基準を持つようになると信じているため、より整合性のとれた判断を促進するための新しい LLM 評価パラダイムを模索します。
RLHF によってもたらされたインスピレーション
以下の図 1 に示すように、RLHF の選好データによる報酬モデルの調整からインスピレーションを得て、LLM 評価器はより人間的な選好ランキングを生成することで取得できると考えています。 - 調整された予測。最近の研究の中には、LLM にペアごとの比較を実行するよう依頼することで優先順位を取得し始めたものもあります。しかし、選好ランキングの複雑さと拡張性の評価はほとんど見落とされてきました。これらは推移性の仮定を無視するため、比較の数が O (N^2) になり、評価プロセスが高価になり実行不可能になります。
PairS: 効率的なプリファレンス検索アルゴリズム
この研究では、2 つのペアごとのプリファレンス検索アルゴリズム (PairS-greedy および ParS-beam) を提案します。 PairS-greedy は、完全な推移性の仮定とマージ ソートに基づいたアルゴリズムであり、わずか O (NlogN) の複雑さでグローバル プリファレンス ソートを取得できます。推移性の仮定は、たとえば 3 つの候補について、LLM が A≻B および B≻C の場合、A≻C を常に有することを意味します。この仮定の下では、従来のランキング アルゴリズムを直接使用して、ペアごとの好みから好みのランキングを取得できます。
しかし、LLM は完全な推移性を持たないため、PairS ビーム アルゴリズムを設計しました。より緩やかな推移性の仮定の下で、選好ランキングの尤度関数を導出し、単純化します。ペアS-ビームは、マージソートアルゴリズムの各マージ操作における尤度値に基づいてビームサーチを実行し、優先度の不確実性を通じてペアごとの比較空間を削減する検索方法です。ペアSビームは、コントラストの複雑さとランキングの品質を調整し、好みのランキングの最尤推定値(MLE)を効率的に提供できます。以下の図 3 は、PairS-beam がマージ操作を実行する方法の例を示しています。
実験結果
クローズドエンドの略語タスクである NewsRoom と SummEval、およびオープンエンドのストーリー生成タスク HANNA を含む複数の代表的なデータセットでテストし、LLM シングルポイントの複数のベースライン手法を比較しました。評価には、教師なし直接スコアリング、G-Eval、GPTScore、教師ありトレーニング UniEval および BARTScore が含まれます。以下の表 1 に示すように、PairS はすべてのタスクにおいて人間による評価よりも高い一貫性を持っています。 GPT-4-turbo は SOTA 効果も実現できます。
この記事では、選好ランキング、勝率、ELO レーティングの 2 つの基準方法も比較しました。ペアエスは、わずか約 30% の比較回数で同等の品質嗜好ランキングを達成できます。この論文では、ペアワイズ設定を使用して LLM 推定量の推移性を定量的に計算する方法と、ペアワイズ推定量がキャリブレーションからどのように恩恵を受けるかについてのさらなる洞察も提供します。
研究の詳細については、元の論文を参照してください。
以上が初の大規模モデルカンファレンスである COLM の高得点論文: 好み検索アルゴリズムのペア S により大規模モデルのテキスト評価がより効率化されるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ドリームウィーバー CS6
ビジュアル Web 開発ツール

WebStorm Mac版
便利なJavaScript開発ツール
