中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。-AI-php.cn

ホームページ

テクノロジー周辺機器

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 08:22 PM

インターネットデータ

段落の並べ替えは、情報検索の分野において非常に重要かつ困難なトピックであり、学術界や産業界から広く注目されています。段落ランキングモデルの有効性により、検索エンジンのユーザー満足度が向上し、質疑応答システムや読解などの情報検索関連アプリケーションに役立ちます。これに関連して、MS-MARCO、DuReader_retrieval などのいくつかのベンチマークデータセットは、段落並べ替えに関する関連研究作業をサポートするために構築されました。ただし、一般的に使用されるデータセットのほとんどは英語のシーンに焦点を当てており、中国語のシーンについては、既存のデータセットではデータ規模、きめ細かいユーザーアノテーション、および偽陰性例の問題の解決策に制限があります。これに関連して、実際の検索ログに基づいて、新しい中国語段落ランキングベンチマークデータセット T^{2Ranking を構築しました。}

##T2^{ランキングは、300,000 を超える実際のクエリと 200 万のインターネットの段落で構成されており、プロのアノテーターによって提供された情報が含まれています。粒度の高い相関アノテーション。現在のデータといくつかのベースラインモデルは Github で公開されており、関連する研究成果は SIGIR 2023 のリソースペーパーとして承認されました。}

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

論文情報: Xiaohui Xie、Qian Dong、Bingning Wang、Feiyang Lv 、Ting Yao、Weinan Gan、Zhijing Wu、Xiangsheng Li、Haitao Li、Yiqun Liu、Jin Ma. T2Ranking: 大規模な中国ベンチマーク . SIGIR 2023.
#紙のアドレス: https://arxiv.org/abs/2304.03679
Github アドレス: https://github.com/THUIR/T2Ranking

段落ランキングタスクの目標は、指定されたクエリ用語に基づいて大規模な段落コレクションを呼び出して並べ替えることです。候補段落を選択し、関連性の高い段落から低い段落の順に段落のリストを取得します。段落の並べ替えは通常、段落の呼び出しと段落の並べ替えという 2 つの段階で構成されます。

段落並べ替えタスクをサポートするために、段落並べ替えアルゴリズムのトレーニングとテスト用に複数のデータセットが構築されます。広く使用されているデータセットのほとんどは英語のシーンに焦点を当てています。たとえば、最も一般的に使用されているデータセットは MS-MARCO データセットで、これには 500,000 以上のクエリ用語と 800 万以上の段落が含まれています。各クエリ用語には質問属性があります。 MS-MARCO データ公開チームは、クエリ用語ごとに標準回答を提供するアノテーターを募集し、その段落に手動で提供された標準回答が含まれているかどうかに基づいて、その段落がクエリ用語に関連しているかどうかを判断します。

中国語のシナリオでは、段落並べ替えタスクをサポートするために構築されたデータセットもいくつかあります。たとえば、mMarco- Chinese は MS-MARCO データセットの中国語翻訳バージョンであり、DuReader_retrieval データセットは MS-MARCO と同じパラダイムを使用して段落ラベルを生成します。つまり、クエリ単語と段落のペアの相関関係は次のとおりです。人間が提供した標準的な回答から得られるスコア。マルチ CPR モデルには、3 つの異なるドメイン (電子商取引、エンターテイメントビデオ、医療) からの段落検索データが含まれています。 Sogou 検索のログデータに基づいて、Sogou-SRR、Sogou-QCL、Tiangong-PDR などのデータセットも提案されています。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 1: 段落並べ替えタスクで一般的に使用されるデータセットの統計既存のデータセットは段落並べ替えアプリケーションの開発を促進してきましたが、いくつかの制限にも注意する必要があります:

1) これらのデータセットは、段落並べ替えアプリケーションの開発を促進するものではありません。大規模な場合、特に中国のシナリオでは、ラベルまたは関連性ラベルに手動で注釈が付けられません。 Sogou-SRR と Tiangong-PDR には少量のクエリデータしか含まれていません。 mMarco- Chinese と Sogou-QCL は規模が大きいですが、前者は機械翻訳に基づいており、後者は関連性ラベルをユーザーのクリックデータとして使用します。最近、Multi-CPR と DuReader_retrieval という 2 つの比較的大規模なデータセットが構築され、リリースされました。

2) 既存のデータセットには、詳細な相関アノテーション情報がありません。ほとんどのデータセットは、バイナリ相関アノテーション (粒度の粗い)、つまり関連性があるか無関係であるかを使用します。既存の研究では、きめ細かい相関アノテーション情報が、さまざまなエンティティ間の関係をマイニングし、より正確なランキングアルゴリズムを構築するのに役立つことが示されています。また、マルチレベルのきめ細かいアノテーションを提供しないか、少量しか提供しない既存のデータセットもあります。たとえば、Sogou-SRR または Tiangong-PDR は、100,000 以下のきめ細かいアノテーションのみを提供します。

3) 偽陰性例の問題は、評価の精度に影響します。既存のデータセットは、多数の関連ドキュメントが無関係としてマークされる、偽陰性例の問題の影響を受けます。この問題は、大規模なデータにおける手動のアノテーションの数が少ないことが原因で発生し、評価の精度に大きな影響を与えます。たとえば、マルチ CPR では、各クエリ用語に対して 1 つの段落のみが関連するとマークされ、他の段落は無関係とマークされます。 DuReader_retrieval は、アノテーターが手動で最上位の段落セットを検査して再アノテーションを付けられるようにすることで、偽陰性の問題を軽減しようとします。

高品質のトレーニングと評価のための段落ランキングモデルをより適切にサポートするために、新しい中国語段落検索ベンチマークデータセット - T²Ranking を構築してリリースしました。。

データセット構築プロセス

データセット構築プロセスには、クエリ単語のサンプリング、文書の想起、段落の抽出、およびきめ細かい相関アノテーションが含まれます。同時に、データセットの品質を向上させるための複数の方法も設計しました。これには、段落のセマンティックな整合性と多様性を確保するためのモデルベースの段落分割方法とクラスタリングベースの段落重複排除方法の使用、およびアクティブラーニングの使用が含まれます。アノテーションベースのアノテーション、アノテーションの効率や品質を向上させる方法など。

1) 全体の流れ

クエリワードサンプリング：総合検索の検索ログよりサンプリングします。エンジン実際のユーザーによって送信されたクエリワードがサンプリングされ、重複排除と正規化後に最初のクエリワードセットが取得されました。次に、意図分析アルゴリズムを使用して、ポルノクエリ、非質問クエリ、リソースアプリケーションクエリ、およびユーザー情報を含む可能性のあるクエリを削除し、最終的なクエリデータセットには質問属性を持つ高品質のクエリのみが含まれるようにします。
ドキュメントのリコール: サンプリングされたクエリ用語に基づいて、Sogou、Baidu、Google などの複数の主流検索エンジンからドキュメント候補セットをリコールし、インデックス作成とドキュメントの並べ替え機能を完全に統合しました。これらの検索エンジンはインターネットデータのさまざまな部分をカバーし、多様なドキュメント結果を返すことができるため、ドキュメント候補コレクションの完全性を向上させ、偽陰性の問題をある程度軽減できます。
段落抽出: 段落抽出ステップには、段落の分割と重複排除が含まれます。ドキュメント内の段落をセグメント化するヒューリスティックな方法 (従来のように改行によって段落の始まりと終わりを決定するなど) を使用する代わりに、段落セマンティックモデルをトレーニングして段落分割を実行し、各段落の意味論的な整合性を可能な限り確保します。さらに、アノテーションの効率を向上させ、アノテーションが付けられた段落の多様性を確保するために、クラスタリングベースの技術を導入し、類似性の高い段落を効果的に削除します。
きめ細かい相関アノテーション: 採用されたアノテーターは、関連するアノテーションタスクを検索する専門家であり、アノテーション作業に長年従事しています。クエリと段落のペアごとに、少なくとも 3 人のアノテーターがアノテーションを提供します。 3 人のアノテーターのアノテーション結果に一貫性がない場合、追加のアノテーターを導入してアノテーションを行います。4 人のアノテーターの結果に一貫性がない場合、クエリの単語と段落のペアが曖昧すぎて品質が低く、一貫性がないと考えてしまう傾向があります。必要な情報を判断する能力が高すぎるため、クエリ用語と段落のペアがデータセットから除外されます。最終的な関連ラベルは多数決によって決定されます。当社が採用するレベル 4 関連性アノテーションガイドラインは、TREC ベンチマークと一致しています。
レベル 0: クエリ用語は段落の内容とまったく無関係です。
レベル 1: 段落のコンテンツはクエリ用語に関連しています。しかし、クエリ用語の情報要件とは一致しません
レベル 2: 段落の内容はクエリ用語に関連しており、クエリ用語の情報要件を部分的に満たすことができます
レベル 3: 段落の内容はクエリ用語の情報ニーズを完全に満たしており、正確な回答が含まれています。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

図 2: Wikipedia ページの例。提示された文書には、明確に定義された段落が含まれています。

#2) モデルベースの段落分割方法

既存のデータセットでは、段落通常、自然な段落 (改行) に基づいて、または固定長のスライディングウィンドウによってドキュメントから分割されます。ただし、どちらの方法でも、段落が意味的に不完全になったり、長すぎて複数の異なるトピックが含まれたりする可能性があります。この作業では、モデルベースの段落分割手法を採用しました。具体的には、文書のこの部分の構造が比較的明確であり、自然な段落も取得できるため、総合百科事典、百度百科事典、中国語版ウィキペディアを学習データとして使用しました。より良い定義。特定の単語をセグメンテーションポイントにする必要があるかどうかを判断するために、セグメンテーションモデルをトレーニングしました。私たちはシーケンスラベル付けタスクのアイデアを使用し、モデルをトレーニングするための肯定的な例として各自然セグメントの最後の単語を使用しました。

3) クラスタリングベースの段落重複排除手法

類似性の高い段落に注釈を付けるのは冗長であり、意味がありません。段落ランキングモデルでは、類似性の高い段落コンテンツによってもたらされる情報獲得は限られているため、注釈の効率を向上させるためにクラスタリングベースの段落重複排除方法を設計しました。具体的には、階層的クラスタリングアルゴリズムである Ward を使用して、類似したドキュメントの教師なしクラスタリングを実行します。同じクラス内の段落は非常に類似していると見なされ、関連性の注釈のために各クラスから 1 つの段落がサンプリングされます。この操作はトレーニングセットに対してのみ実行することに注意してください。テストセットの場合は、抽出されたすべての段落に完全に注釈を付けて、偽陰性例の影響を軽減します。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 3: アクティブラーニングに基づくサンプリングアノテーションプロセス

4) アクティブラーニングに基づくデータサンプリングアノテーション方法##実際には、すべてのトレーニングサンプルのパフォーマンスをさらに改善できるわけではないことが観察されています。ランキングモデル。モデルが正確に予測できるトレーニングサンプルの場合、後続のモデルのトレーニングヘルプは制限されます。したがって、アクティブラーニングのアイデアを借用して、モデルがさらに注釈を付けるためにより有益なトレーニングサンプルを選択できるようにしました。具体的には、まず既存のトレーニングデータに基づくクロスエンコーダーフレームワークに基づいてクエリ単語と段落の並べ替えモデルをトレーニングし、次にこのモデルを使用して他のデータを予測し、過剰な信頼スコア (情報コンテンツ) を削除しました。信頼性スコアが低い (ノイズの多いデータ)、保持された段落にさらに注釈を付け、このプロセスを繰り返します。

データセット統計

T

ランキングは、300,000 を超える実際のクエリと 200 万のインターネットパラグラフで構成されています。このうち、トレーニングセットには約 250,000 のクエリワードが含まれ、テストセットには約 50,000 のクエリワードが含まれます。クエリ用語の長さは最大 40 文字で、平均長は約 11 文字です。同時に、データセット内のクエリ単語は、医療、教育、電子商取引などを含む複数の分野をカバーしており、クエリ単語の多様性スコア (ILS) も計算しました。のほうが高いです。 175 万の文書から 230 万以上の段落がサンプリングされ、各文書は平均 1.3 段落に分割されました。トレーニングセットでは、クエリ用語あたり平均 6.25 段落に手動で注釈が付けられましたが、テストセットでは、クエリ用語あたり平均 15.75 段落に手動で注釈が付けられました。

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

#図 4: データセット内のクエリワードのドメイン分布

中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。

図 5: 相関アノテーションの分布

一般的に使用されるモデルの実験結果

取得したデータセットに対して、一般的に使用されるいくつかの段落ランク付けモデルのパフォーマンスをテストしました。また、段落想起と段落強調における既存の手法も評価しました。ソートの両方の段階。

1) 段落再現実験

既存の段落再現モデルは、疎再現モデルと密再現モデルに大別できます。リコールモデル。

スパースリコールモデルは、正確に一致する信号に焦点を当て、関連性スコアリング関数を設計します。たとえば、BM25 は最も代表的なベンチマークモデルです。

高密度リコールモデルは、ディープニューラルネットワークを使用して、クエリの単語と段落を表す低次元の密ベクトルを学習します。

次の再現モデルのパフォーマンスをテストしました。

QL (クエリ尤度): QL は代表的な A です。段落が特定のクエリ用語を生成する確率に基づいて関連性を評価する統計的言語モデル。

BM25: 一般的に使用されるスパースリコールベンチマークモデル。

DE w/ BM25 Neg: DPR モデル、デュアルタワーエンコーダー構造 (デュアルエンコーダー)、このモデルは、事前トレーニングされた言語モデルをバックボーンとして使用する最初の段落呼び出しです。フレームワークモデル。

DE w/Mined Neg: 完全なコーパスからハードネガティブサンプルを呼び出すことで、DPR モデルのパフォーマンスを向上させるデュアルエンコーダー構造。

DPTDR: プロンプトチューニングを使用した最初の段落想起モデル。

これらのモデルのうち、QL と BM25 は疎再現モデルであり、その他のモデルは密再現モデルです。これらのモデルのパフォーマンスを評価するには、MRR やリコールなどの一般的な指標を使用します。実験結果を次の表に示します。 # 図 6: テストセットでの再現モデルの段落パフォーマンス

実験結果から、密検索モデルは従来の疎ソートよりも優れたパフォーマンスを達成することがわかります。モデル。同時に、否定しにくい例の導入もモデルのパフォーマンスを向上させるのに役立ちます。私たちのデータセットにおけるこれらの実験モデルの再現率は、他のデータセットよりも悪いことに言及する価値があります。たとえば、このデータセットの BM25 の再現率 @50 は 0.492 ですが、MS-Marco と Dureader_retrieval 上記では 0.601 と 0.700 です。。これは、手動で注釈が付けられた段落が多いことが原因である可能性があります。テストセットでは、クエリ用語ごとに平均 4.74 の関連文書があり、再現タスクがより困難になり、偽陰性がある程度減少します。。問題。これは、T2Ranking が挑戦的なベンチマークデータセットであり、将来のリコールモデルには改善の余地が大きいことも示しています。
2) 段落の並べ替えの実験

##段落想起段階と比較して、並べ替え段階は考慮する必要があります。段落サイズが小さいため、ほとんどのメソッドはモデルフレームワークとしてインタラクティブエンコーダー (クロスエンコーダー) を使用する傾向があります。この研究では、段落並べ替えタスクでインタラクティブエンコーダーモデルのパフォーマンスをテストします。MRR と nDCG を採用します。評価指標の実験結果は次のとおりです。

## 図 7: 段落並べ替えタスクの対話型エンコーダーのパフォーマンス既存の研究の実験結果と一致する、より良い結果を達成できます。再現実験と同様に、私たちのデータセットの再ランキングモデルのパフォーマンスは、他のデータセットのパフォーマンスよりも悪いです。これは、私たちのデータセットのきめ細かいアノテーションとより高いクエリ単語の多様性が原因である可能性があり、さらに、私たちのデータセットが挑戦的であり、モデルのパフォーマンスをより正確に反映できます。

データセット公開チームの紹介

このデータセットは、清華大学コンピューターサイエンス学部の情報検索研究グループ (THUIR) と QQ ブラウザ検索技術センターによって共同リリースされました。 Tencent のチームによるもので、清華大学 Tian の承認、人工知能コンピューティング研究所の支援を受けています。 THUIR研究グループは、検索・推薦手法の研究に注力しており、ユーザー行動モデリングや説明可能な学習手法において典型的な成果を上げており、その研究成果はWSDM2022最優秀論文賞、SIGIR2020最優秀論文ノミネート賞、CIKM2018最優秀論文賞を受賞しています。 2020 年中国情報学会「銭維昌中国情報処理科学技術賞」一等賞をはじめ、数々の学術賞を受賞。 QQ ブラウザ検索技術センターチームは、テンセント PCG 情報プラットフォームとサービスラインの検索技術研究開発を担当するチームであり、テンセントのコンテンツエコシステムに依存し、ユーザー調査を通じて製品革新を推進し、ユーザーにグラフィック、情報、小説、長文コンテンツを提供します。オリエンテーション情報のニーズは満たされます。

以上が中国語段落並べ替えベンチマークデータセットをリリース: 300,000 の実際のクエリと 200 万のインターネット段落に基づいています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。