AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の筆頭著者と責任著者は両方とも上海アルゴリズム革新研究所の出身です。その中で、責任著者のLi Zhiyu博士は中国人民大学コンピュータサイエンス学部を卒業し、アリババや小紅書などのインターネット企業でアルゴリズムの実装と研究に従事し、数千億の製品を含むプロジェクトに参加してきました。ナレッジマップ、ユーザーマップ、世論マップの研究開発を行っており、合計40以上の論文が出版されています。 Li Zhiyu 氏は現在、上海アルゴリズム革新研究所 (Xiong Feiyu 博士率いる) の大型モデル部門で技術研究開発業務全体を担当しています。研究所のホームページ: https://www.iaar.ac.cn/ 大規模言語モデル (LLM) の急速な発展により、その公平性と信頼性を評価する方法について白熱した議論が巻き起こりました。 OpenCompass、LM Eval Harness、UltraEval などの既存の評価フレームワークやさまざまなベンチマークが業界の進歩を推進していますが、これらの評価フレームワークのコア コンポーネントの信頼性や信頼性の測定に焦点を当てているチームはわずかです。 最近、上海アルゴリズムイノベーション研究所と中国人民大学の研究チームは、「xFinder: 大規模言語モデルのための堅牢でピンポイントな回答抽出」というタイトルの論文を発表しました。このペーパーでは、大規模モデル評価における回答抽出コンポーネントの信頼性と一貫性の評価に焦点を当て、LLM 評価フレームワークのプロセス全体の詳細な分析を提供します。
-
https://arxiv.org/abs/2405.11874
-
https://github.com/IAAR-Shanghai/xFinder
- https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412
現在の評価フレームワークは主に正規表現 (RegEx) に依存して答えを抽出していますが、明らかに問題があります。この方法の欠陥。手動レビューの結果、最高の抽出精度率は 74.38% にすぎず、評価結果は非常に信頼性が低いことがわかります。 さらに、RegEx メソッドは意図的または非意図的に簡単に適合されるため、「不正行為」の可能性が高まり、評価結果の信頼性と一貫性に影響を与えます。以下の図は、LLM 評価フレームワークにおける RegEx コンポーネント抽出エラーを示しています。 この問題を効果的に解決するために、上海アルゴリズムイノベーション研究所と中国人民大学の研究チームは、重要な答えをより正確に抽出するための xFinder と呼ばれる新しいモデルを開発しました。 (1) 特定の形式での回答出力を必要とせず、回答抽出の堅牢性が高く、抽出精度が 95.18% と非常に高い。評価フレームワークにおける現在の最良の LLM RegEx メソッドよりも優れています。 (2) 多様な質問タイプをサポートし、文字多肢選択問題をクイズ質問に自動的に変換でき、異なる質問タイプの混合評価をサポートするため、テスターが質問タイプに適合する可能性が低くなります。 xFinderの実装プロセスには、主にLLM応答コンテンツの生成、KAFデータセットのアノテーション、およびxFinderのトレーニングが含まれます。 xFinder モデルの効果的なトレーニングを実現するために、チームは特殊なデータ セットである Key Answer Finder (KAF) データ セットを構築しました。データセットには 26,900 のトレーニング サンプル、4,961 のテスト サンプル、および 4,482 の一般化サンプルが含まれており、さまざまな評価タスクをカバーしています。まず、研究チームは、既存の主要な評価ベンチマークとレポートから複数の典型的な評価タスク データセットを選択し、文字選択タスク、短いタスクの 4 つのタイプに分類しました。テキスト選択タスク、カテゴリラベルタスク、および数学タスク。 その後、チームはさまざまな一連の LLM (Qwen、InternLM、ChatGLM など) を使用して、これらのタスク用のデータ ペアを生成しました。さまざまな LLM を通じて、チームは豊富で多様なデータ ペアを生成し、xFinder モデルのトレーニングに十分なデータ サポートを提供しました。
チームは、LLM 応答から重要な回答を抽出し、それらをラベルとして使用して高品質の KAF データセットを構築する戦略を使用しました。トレーニング セットのアノテーション効率を向上させるために、GPT-4 を使用して異なるプロンプトを通じて 2 セットのアノテーションを生成する半自動プロセスを採用し、自己一貫性戦略を使用して一貫性のないアノテーションを持つ項目を除外し、すべての項目を除外しました。数学的な質問を作成し、手動レビューに提出しました。テスト セットと一般化セットの有効性と信頼性を確保するために、すべてのラベルに 2 回の手動アノテーションが行われます。トレーニング中 XFINDER
KAF データセットの多様性とモデルの一般化機能を強化するために、研究チームは 2 つのデータ強化戦略を採用しました: (1) シミュレーション LLM 応答: 50 KAF トレーニング セット内の文字選択質問の % は、LLM の多様な応答をシミュレートするために 1 つまたは 2 つの選択肢を追加または削除することによって変更されました。
(2) プロンプトフォームを強化: 主要な回答文を含む LLM 回答の 10% を抽出し、プロンプト部分を置き換えます。たとえば、「最終的な答えは A」を「質問のコンテキストに基づいて、 A が最も可能性の高い答えです。」
さらに、チームはXTunerツールとQLoRAメソッドを使用して、Llamaシリーズ、Qwenシリーズ、Gemmaシリーズなどのベースモデルを微調整し、最終的にxFinderを入手しました。
チームは、さまざまなタスクでの xFinder のパフォーマンスを評価するために広範な実験を実施し、それを既存の RegEx メソッドと比較しました。 KAF テスト セットの結果
KAF テスト セットでは、XFinder-Qwen1505 の平均抽出精度率は 96.88% に達し、最良の評価フレームワークの正規表現メソッドの 74.38% を大幅に上回りました。 具体的には、xFinder-qwen1505 の抽出精度は、文字オプション タスクで 97.35%、短いテキスト オプション タスクで 96.83%、数学オプション タスクで 98.05% です。 %。これらの結果は、xFinder が幅広いタスクにわたって良好にパフォーマンスし、評価の精度と信頼性が大幅に向上していることを示しています。 KAF汎化セットの結果
新しい KAF 一般化セット (この一般化セットは、KAF データセット内のトレーニング セットとテスト セットからの異なる LLM とテスト タスク生成を使用します。サンプルから構築されます)、xFinder -qwen1505 は、平均抽出精度 93.42% という優れたパフォーマンスを示しました。
実験結果は、xFinder が他の RegEx ベースの評価フレームワークよりも優れたパフォーマンスを発揮するだけでなく、GPT-4 よりも大幅に優れていることを示しており、その高い堅牢性と一般化機能を十分に実証しています。
現実世界のシナリオでの評価
研究チームは、xFinder と従来の評価フレームワークを使用して 10 個の LLM の包括的な評価を実施しました。評価タスクには CommonsenseQA、BoolQ、GSM8K などが含まれます。 5 つの回答抽出スキームを 10 の異なる LLM に適用することにより、一連の比較実験が行われました。 要約すると、実験結果は主に 3 つの重要な発見を明らかにします: (1) 異なるフレームワークの下での同じモデルのランキングには大きな違いがあることが多く、モデルの真の能力を正確に反映するのは困難です。モデル、一貫性が低いことを示しています。 (2) これらの実験では、さまざまな xFinder が高い一貫性を示し、回答の抽出精度においても他の評価フレームワークを上回っており、xFinder がより信頼性の高い評価方法であることが示されました。 (3) 従来の文字オプション設定と比較して、オプションテキストを直接使用することで、文字オプション設定の不安定さを反映して、ランキングの一貫性を大幅に向上させることができます。さらなる詳細と実験結果は付録に記載されており、上記の発見の妥当性がさらに確認されています。 一般に、xFinder は主要な回答抽出モジュールを最適化することにより、LLM 評価の精度と信頼性を向上させます。実験結果は、xFinder がさまざまなタスクで優れたパフォーマンスを発揮し、高い堅牢性と汎用化機能を備えていることを示しています。今後、研究チームは xFinder の最適化を継続し、LLM パフォーマンスの信頼できる評価のための強固な基盤を提供するために、他の重要な評価問題の研究を続けます。 以上が回答抽出精度は 96.88% に達し、xFinder は大規模モデルの「不正行為」の考え方を排除しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。