Maison > Article > Périphériques technologiques > Les équipes Meta FAIR et Samaya AI utilisent l’IA pour améliorer la vérifiabilité de Wikipédia
Modifier | Feuille de chou
La vérifiabilité est une politique de contenu fondamentale de Wikipédia : les affirmations doivent être étayées par des citations. Maintenir et améliorer la qualité des références Wikipédia est un défi important, et de meilleurs outils sont nécessaires de toute urgence pour aider les humains à faire ce travail.
Ici, des chercheurs de Samaya AI et Meta FAIR montrent que le processus d'amélioration des références peut être abordé à l'aide de l'intelligence artificielle (IA) alimentée par des systèmes de recherche d'informations et des modèles linguistiques.
Ce système basé sur un réseau neuronal (appelé SIDE ici) identifie les citations Wikipédia qui sont peu susceptibles de soutenir ses affirmations, puis recommande de meilleures citations sur le Web. L'équipe a formé le modèle sur les références Wikipédia existantes, tirant ainsi les leçons des contributions et de la sagesse combinée de milliers d'éditeurs Wikipédia. Grâce au crowdsourcing, les chercheurs ont observé que pour les 10 % de citations les plus susceptibles d'être signalées par le système comme invérifiables, les gens préféraient l'alternative du système à la référence initialement citée pendant 70 % du temps prévu.
Pour valider l'applicabilité du système, les chercheurs ont construit une démo pour interagir avec la communauté Wikipédia anglaise et ont découvert que pour les mêmes 10 % des affirmations les plus susceptibles d'être invérifiables, selon SIDE, les premières citations à SIDE La fréquence préférée des recommandations est deux fois supérieure à celle des citations Wikipédia existantes. Les résultats montrent que les systèmes basés sur l’IA peuvent être utilisés aux côtés des humains pour améliorer la vérifiabilité de Wikipédia.
La recherche s'intitulait « Améliorer la vérifiabilité de Wikipédia avec l'IA » et a été publiée dans « Nature Machine Intelligence » le 19 octobre 2023.
Wikipédia est l'un des sites Web les plus visités, avec cinq mille milliards de pages vues par an, ce qui en fait aujourd'hui l'une des sources de connaissances les plus importantes. Il est donc crucial que les connaissances sur Wikipédia soient presque toujours vérifiables : les utilisateurs de Wikipédia doivent pouvoir trouver et confirmer les affirmations sur Wikipédia en utilisant des sources externes fiables. Pour faciliter cela, l'article de Wikipédia fournit des citations en ligne des documents de référence à l'appui de l'affirmation. Les lecteurs qui remettent en question les affirmations de Wikipédia peuvent suivre ces instructions et vérifier eux-mêmes les informations.
En pratique, cependant, ce processus peut échouer : la citation peut ne pas contenir l'allégation contestée, ou son origine peut être discutable. De telles affirmations peuvent toujours être vraies, mais le lecteur attentif ne peut pas facilement les vérifier avec les informations contenues dans la source citée. En supposant que les affirmations de Wikipédia soient vraies, son processus de vérification est divisé en deux étapes : (1) vérifier la cohérence des sources existantes (2) à défaut, trouver de nouvelles preuves ;
Comme mentionné ci-dessus, la vérification des affirmations de Wikipédia nécessite une compréhension approfondie du langage et une maîtrise des recherches en ligne. Dans quelle mesure les machines peuvent-elles apprendre ce comportement ? Cette question est importante du point de vue des progrès fondamentaux de l’intelligence artificielle. Par exemple, la vérification nécessite la capacité de détecter des implications logiques dans le langage naturel et de traduire les affirmations et leur contexte en termes de recherche optimaux pour trouver des preuves – deux problèmes de longue date qui ont été étudiés principalement dans un certain degré de contexte de synthèse.
D’un point de vue pratique, c’est tout aussi important. Les validateurs automatiques peuvent aider les éditeurs de Wikipédia à identifier les citations susceptibles de déclencher un échec de validation et à suggérer par quoi remplacer les citations, au cas où ils ne soutiendraient pas actuellement leurs affirmations respectives. Cela peut être important : rechercher des preuves potentielles et parcourir les résultats de la recherche prend du temps et beaucoup d’efforts cognitifs. L’intégration d’assistants IA dans le processus peut contribuer à réduire ces deux scénarios.
Illustration : Aperçu CÔTÉ. (Source : article)
Dans leurs derniers travaux, des chercheurs de Samaya AI et Meta FAIR ont développé SIDE, un validateur de citations Wikipédia basé sur l'IA. SIDE découvre des affirmations sur Wikipédia qui peuvent ne pas être vérifiables sur la base de la citation actuelle et, pour cette raison, analyse l'instantané du réseau à la recherche d'alternatives.
Son comportement est appris de Wikipédia lui-même : à l'aide d'un corpus organisé de revendications de Wikipédia en anglais et de leurs citations actuelles, les chercheurs entraînent (1) un composant de récupération qui convertit les revendications et le contexte en notation optimisée et en requêtes de recherche neuronale pour trouver des citations candidates dans un corpus à l'échelle du Web ; (2) un modèle de vérification qui classe les citations existantes et récupérées en fonction de leur probabilité de vérifier une affirmation donnée.
L'équipe utilise des métriques automatisées et des annotations humaines pour évaluer son modèle. Pour mesurer automatiquement l'exactitude du système, ils ont examiné dans quelle mesure SIDE récupérait les citations Wikipédia existantes dans des articles de haute qualité (tels que définis par la classe d'articles vedettes de Wikipédia).
Les chercheurs ont constaté que dans près de 50 % des cas, SIDE renvoyait avec précision la source utilisée dans Wikipédia comme étant la meilleure solution. Il convient de noter que cela ne signifie pas que les 50 % restants ont tort, mais simplement qu'ils ne sont pas des sources Wikipédia actuelles.
L’équipe a également testé les capacités de SIDE en tant qu’assistant de citation. Dans les études sur les utilisateurs, ils ont placé les citations Wikipédia existantes à côté des citations générées par SIDE. Les utilisateurs évaluent ensuite dans quelle mesure les citations fournies soutiennent l'affirmation et quelle citation de SIDE ou Wikipédia est la plus appropriée pour la vérification.
Dans l’ensemble, les utilisateurs préfèrent les citations de SIDE aux citations de Wikipédia dans plus de 60 % des cas, et ce chiffre augmente jusqu’à plus de 80 % lorsque SIDE associe de très faibles scores de validation aux citations de Wikipédia.
Lien papier : https://www.nature.com/articles/s42256-023-00726-1
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!