ホームページ > 記事 > テクノロジー周辺機器 > Meta FAIR チームと Samaya AI チームは AI を使用してウィキペディアの検証可能性を向上させます
編集者 | キャベツの葉
検証可能性はウィキペディアの中核となるコンテンツ ポリシーです。主張は引用によって裏付けられる必要があります。ウィキペディアの参照の品質を維持および向上させることは重要な課題であり、人間がこの仕事を行うのを支援するためのより優れたツールが緊急に必要とされています。
ここでは、Samaya AI と Meta FAIR の研究者が、情報検索システムと言語モデルを活用した人工知能 (AI) の助けを借りて、参考文献を改善するプロセスに取り組むことができることを示しています。
このニューラル ネットワーク ベースのシステム (ここでは SIDE と呼ばれます) は、その主張を裏付ける可能性が低い Wikipedia の引用を特定し、Web 上からより適切な引用を推奨します。チームは既存の Wikipedia 参照に基づいてモデルをトレーニングし、何千人もの Wikipedia 編集者の貢献と知恵を結集して学習しました。研究者らはクラウドソーシングを利用して、システムによって検証不能としてフラグが立てられる可能性が最も高い引用の上位 10% について、人々は計画時間の 70% で最初に引用された参考文献よりもシステムの代替案を好むことを観察しました。
システムの適用性を検証するために、研究者らは英語版 Wikipedia コミュニティと対話するためのデモを構築し、SIDE によると、同じ上位 10% については失敗する可能性が最も高いことがわかりました。 SIDE の最初の引用推奨は、既存の Wikipedia 引用の 2 倍の優先頻度を持っていると主張しています。この結果は、AI ベースのシステムを人間と並行して使用して、Wikipedia の検証可能性を向上できることを示しています。
この研究は「AIによるWikipediaの検証可能性の向上」というタイトルで、2023年10月19日に「Nature Machine Intelligence」に掲載されました。
Wikipedia は最もアクセス数の多い Web サイトの 1 つで、年間 5 兆ページビューがあり、今日最も重要な知識源の 1 つとなっています。したがって、Wikipedia に関する知識がほぼ常に検証可能であることが重要です。Wikipedia ユーザーは、信頼できる外部情報源を使用して Wikipedia 上の主張を見つけて確認できる必要があります。これを容易にするために、ウィキペディアの記事では、その主張を裏付ける背景資料へのインライン引用が提供されています。ウィキペディアの主張に疑問を抱く読者は、これらの指示に従い、情報を自分で検証できます。
しかし、実際には、このプロセスは失敗する可能性があります。引用文に異議を唱えられた主張が含まれていなかったり、その出所に疑問があったりする可能性があります。このような記述は依然として真実である可能性がありますが、注意深い読者であれば、引用された情報源の情報でそれらを簡単に検証することはできません。ウィキペディアの主張が真実であると仮定すると、その検証プロセスは 2 つの段階に分かれています: (1) 既存の情報源の一貫性をチェックする; (2) それが失敗し、新たな証拠を見つける。
上で述べたように、Wikipedia の主張を検証するには、言語の深い理解とオンライン検索の習熟が必要です。機械はこの動作をどの程度まで学習できるのでしょうか?この質問は、基本的な人工知能の進歩の観点から重要です。たとえば、検証には、自然言語で論理的含意を検出し、証拠を見つけるためにクレームとその文脈を最適な検索語に変換する能力が必要です。この 2 つの長年の問題は、主にある程度の合成環境で研究されてきました。
実際的な観点から見ると、これも同様に重要です。マシンバリデーターは、ウィキペディア編集者がどの引用が検証の失敗を引き起こす可能性があるかをフラグし、現在それぞれの主張を支持していない場合に引用を何に置き換えるべきかを提案するのに役立ちます。これは重要な場合があります。潜在的な証拠を検索し、検索結果を精読するには、時間と多くの認知的努力が必要です。 AI アシスタントをプロセスに統合すると、両方のシナリオを軽減できる可能性があります。
図: 側面の概要。 (出典: 論文)
最新の研究では、Samaya AI と Meta FAIR の研究者が、AI ベースの Wikipedia 引用検証ツールである SIDE を開発しました。 SIDE は、現在の引用に基づいて検証できない可能性のあるウィキペディア上の主張を発見し、ネットワーク スナップショットをスキャンして代替案を探します。
その動作は Wikipedia 自体から学習されます。研究者らは、英語版 Wikipedia の主張とその現在の引用の厳選されたコーパスを使用して、(1) 主張と文脈を、検索するために最適化された記号的検索クエリとニューラル検索クエリに変換する検索コンポーネントをトレーニングします。ウェブスケールのコーパス内の引用候補、(2) 特定の主張を検証する可能性に基づいて、既存の引用と取得された引用をランク付けする検証モデル。
チームは、自動化されたメトリクスと人間による注釈を使用してモデルを評価します。システムの精度を自動的に測定するために、彼らは、SIDE が高品質の記事 (Wikipedia の注目記事クラスで定義されている) 内の既存の Wikipedia の引用をどの程度うまく復元できるかを調べました。
研究者らは、ケースのほぼ 50% で、SIDE がウィキペディアで使用されているソースを最適なソリューションとして正確に返したことを発見しました。これは残りの 50% が間違っているという意味ではなく、単にそれらが現在の Wikipedia の情報源ではないというだけであることに注意してください。
チームは、引用アシスタントとしての SIDE の機能もテストしました。ユーザー調査では、既存の Wikipedia の引用を SIDE によって生成された引用の隣に配置しました。次にユーザーは、提供された引用が主張をどの程度裏付けているか、SIDE または Wikipedia からのどちらの引用が検証に適しているかを評価します。
全体的に、ユーザーは 60% 以上の確率で Wikipedia の引用よりも SIDE の引用を好み、SIDE が非常に低い検証スコアを Wikipedia の引用に関連付けると、この割合は 80% 以上に増加します。
論文リンク: https://www.nature.com/articles/s42256-023-00726-1
以上がMeta FAIR チームと Samaya AI チームは AI を使用してウィキペディアの検証可能性を向上させますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。