Maison >Périphériques technologiques >IA >Tsinghua, Cambridge et l'UIC lancent conjointement le premier ensemble de données chinoises de vérification des faits : basé sur des preuves, couvrant la société médicale et d'autres domaines
Regardons d'abord la définition de la tâche et donnons un exemple relativement simple :
Par exemple, pendant le confinement à Shanghai, un certain auto-média a affirmé que "Li Liqun m'a volé. J'ai été surpris en train de descendre pour acheter de la viande." Sur la base de cette seule affirmation (réclamation), nous ne pouvons pas déterminer s'il est descendu secrètement pour acheter de la viande et s'il a été attrapé. Afin de vérifier l'authenticité de cette déclaration, l'idée la plus intuitive est de rechercher des preuves (les preuves sont des informations que vous pouvez collecter et qui peuvent nous aider à vérifier l'authenticité d'une déclaration). Par exemple, dans l'image ci-dessous, je la déchire simplement avec mes mains et elle peut être utilisée comme preuve.
La déclaration citée ci-dessus est relativement simple, ne nécessitant que de simples preuves et aucun raisonnement fondé sur des preuves. Regardons un exemple relativement complexe ci-dessous. Par exemple, il y a une déclaration : En 2019, un total de 120 800 personnes ont passé l'examen d'entrée au lycée de Chengdu, mais le plan d'inscription n'est que de 43 000. Il est relativement difficile de vérifier cette affirmation. Si nous trouvons des documents pertinents faisant état de l'examen d'entrée au lycée de Chengdu 2019 :
...Au total, 120 800 personnes ont passé l'examen d'entrée au lycée cette année. ville de Chengdu, comprenant le district 20, la zone de haute technologie et le nouveau district de Tianfu. Il y a quelques mois, le Bureau de l'éducation a annoncé le plan général d'inscription au lycée pour 2019. Le nombre de projets d'inscription a encore augmenté et les chances d'entrer dans le lycée général sont encore plus grandes. ...
En 2019, le plan d'inscription pour la ville centre (13 arrondissements) est de 43 015 personnes.
Ce document contient de nombreuses informations liées à la déclaration, mais ce qui est directement pertinent et peut nous aider à vérifier la déclaration est la seconde moitié du deuxième paragraphe ci-dessus, et après de nombreux paragraphes. Sur la base de ces éléments de preuve, nous pouvons savoir qu'il y a effectivement 120 800 personnes qui passent l'examen d'entrée au lycée dans les 20 arrondissements de Chengdu, et que le plan d'inscription pour la zone urbaine centrale (ne comprenant que 13 arrondissements) n'est en effet que de 43 000. Bien que les chiffres soient corrects, le concept est modifié ici. Lors de l'examen du nombre de personnes passant l'examen d'entrée au lycée, le nombre de personnes dans 20 districts est utilisé, mais lors de l'examen du plan d'inscription, la fourchette de 20 districts est réduite à 13 districts, trompant ainsi les lecteurs. Pour vérifier ce type de déclaration, nous devons souvent extraire des preuves directement pertinentes d'un ou plusieurs documents, et en même temps faire des déductions basées sur les preuves extraites. Afin de promouvoir les systèmes chinois d’apprentissage automatique de vérification des faits, nous proposons un tel ensemble de données chinoises fondées sur des preuves.
Selon l'examen de la vérification des faits [1], les ensembles de données actuels de vérification des faits peuvent être grossièrement divisés en deux catégories : Artificiel (Artificiel) et Naturel (Naturel).
Artificiel (Artificiel) : Il est demandé à l'annotateur de réécrire la phrase selon Wikipédia comme une déclaration. Les paragraphes pertinents du document peuvent être utilisés comme preuve pour vérifier cette déclaration. S'il s'agit d'une conversion synonyme, alors la déclaration est étayée par la preuve (Supported). Si les entités de la phrase sont remplacées ou si une série de modifications telles que la négation sont ajoutées, alors la déclaration est rejetée par la preuve (Réfutée). .
Ce paradigme d'annotation était à l'origine FEVER[2], et de nombreux ensembles de données célèbres plus tard tels que TabFact[3] ont également suivi ce paradigme. L'avantage de ce type d'ensemble de données artificielles est qu'il peut être étendu aux annotateurs. D’un autre côté, les preuves pertinentes sont également faciles à obtenir. L'inconvénient est que ces déclarations ne sont pas des déclarations que nous rencontrerons dans la vie quotidienne et qui sont populaires auprès du grand public. Par exemple, vous ne réécrivez pas la déclaration « Il est descendu secrètement pour acheter de la viande et a été attrapé » sur la base de Wikipédia de Li Liqun. . D’un autre côté, ce type d’ensemble de données suppose que Wikipédia contient toutes les connaissances nécessaires pour vérifier les affirmations, ce qui est une hypothèse relativement forte. Cette hypothèse n’est souvent pas respectée dans les scénarios réels. Le problème le plus simple est que Wikipédia a un décalage dans le temps.
Naturel : il s'agit d'une déclaration extraite directement d'une plateforme de vérification des faits. L'organisation étrangère la plus célèbre est PolitiFact, qui vérifie souvent ce que dit Trump. L’avantage de ce type d’ensemble de données est qu’il s’agit d’une déclaration à laquelle le grand public sera confronté quotidiennement et voudra connaître la vérité. C’est aussi une déclaration que les vérificateurs de faits humains doivent examiner.
Si nous voulons à terme construire un système capable de remplacer dans une certaine mesure les vérificateurs humains, l'entrée de ce système doit être ce type de déclaration. L’inconvénient de ce type d’ensemble de données est également évident : le nombre d’allégations vérifiées par des humains est très limité. Comme le montre le tableau, la plupart des ensembles de données sont en réalité d’un ordre de grandeur inférieur à ceux construits manuellement.
D'un autre côté, trouver des preuves est un problème très difficile. Les ensembles de données existants utilisent généralement directement des articles de vérification des faits [4] comme preuve, ou utilisent des revendications pour saisir des requêtes de recherche Google [5][6], puis utilisent le résumé de recherche renvoyé (affiché dans l'encadré rouge) comme preuve.
Ces méthodes de recherche de preuves posent deux problèmes :
En réponse aux problèmes mentionnés ci-dessus, nous avons construit CHEF qui présente les caractéristiques suivantes :
La construction de l'ensemble de données se compose de 4 parties : collecte de données, annotation des déclarations, récupération des preuves et vérification des données.
La déclaration originale est principalement extraite de quatre sites Web chinois de vérification des faits (selon Duke News Platform), dont deux en chinois simplifié : China Rumor Refutation Center et Tencent True Truth. . Le chinois traditionnel provient de deux plateformes à Taiwan : MyGoPen et le Taiwan Fact-Checking Center. Étant donné que la grande majorité (plus de 90 %) des affirmations analysées sur les sites Web de vérification des faits sont fausses, il est en fait assez intuitif que les rumeurs/déclarations les plus populaires soient fausses et seront réfutées/vérifiées par la plateforme de vérification. En nous référant aux méthodes précédentes (PublicHealth [7]), nous avons analysé les titres de China News Network comme de véritables allégations et construit un ensemble de données avec des étiquettes relativement équilibrées.
Par rapport aux organisations étrangères de vérification des faits relativement matures, les articles publiés par les plateformes de vérification chinoises sont relativement moins standardisés. PolitiFact, par exemple, vous dira exactement quelle est la réclamation, quel est le résumé de la vérification et quels sont les détails des preuves et du raisonnement (comme le montre l'image ci-dessus). Cependant, les articles chinois ne l’indiquent généralement pas clairement, nous demandons donc aux annotateurs de lire l’article et d’en extraire la déclaration vérifiée par l’article. Dans le même temps, la déclaration est également nettoyée pour réduire les biais qu’elle contient.
Des travaux antérieurs ont montré [8] que les déclarations dans l'ensemble de données de vérification des faits contiennent des biais relativement forts (par exemple, les fausses déclarations contiennent généralement des mots négatifs), et les PLM tels que BERT peuvent capturer directement ces biais sans avoir besoin pour preuve. Vous pouvez vérifier la déclaration. Les méthodes de nettoyage consistent à transformer les questions rhétoriques en phrases déclaratives et à supprimer certains mots qui peuvent être biaisés, tels que : lourd, choquant, etc. Après avoir extrait les affirmations, nous avons également demandé aux annotateurs d’étiqueter les affirmations sur la base d’articles de vérification des faits. Nous adoptons une classification similaire à celle d'une série d'ouvrages telle que FEVER, utilisant trois classifications : Soutenu, Réfuté et Pas assez d'informations (NEI). Parmi eux, Refuted est le plus grand et NEI est le plus petit.
Nous utilisons la déclaration comme déclaration de requête pour interroger la recherche Google, puis filtrer certains documents, dont certains sont des documents postérieurs à la publication de la déclaration, et l'autre partie sont des documents provenant de la propagation de fausses nouvelles. plateformes, et enfin conserver la documentation du Top 5. Il a ensuite été demandé aux annotateurs de sélectionner jusqu'à 5 phrases comme preuve pour chaque déclaration.
Les statistiques des réclamations et des preuves dans l'ensemble de données sont les suivantes : la longueur moyenne des documents renvoyés pour chaque réclamation est de 3691 mots, dont la phrase dans laquelle l'annotateur a extrait la dernière preuve à grain fin contient 126 mots. Si vous utilisez Google Rule, les résumés contiennent en moyenne 68 mots. La simple comparaison de chiffres, à l'aide de documents renvoyés et de phrases annotées, fournit plus d'informations contextuelles que l'utilisation directe de résumés.
Afin de garantir la cohérence de l'étiquetage, nous avons ajouté une série de vérification des données et sélectionné au hasard 3 % des déclarations étiquetées. Au total, 310 déclarations ont été distribuées à 5 annotateurs pour étiquetage et réévaluation. -l'étiquetage. Le score Fleiss K a atteint 0,74, ce qui est légèrement supérieur au 0,68 de FEVER et au 0,70 de Snopes[5], ce qui indique que la qualité de l'annotation des données n'est pas inférieure aux ensembles de données construits par les chercheurs précédents. La déclaration du CHEF est principalement divisée en 5 thèmes : société, santé publique, politique, science et culture. Contrairement aux plateformes de fact-checking européennes et américaines qui se concentrent sur le domaine politique, les plateformes chinoises accordent davantage d’attention aux questions de santé publique, comme le nouveau coronavirus, les soins de santé, les traitements médicaux, etc. Un autre sujet majeur est la société, comme : la fraude, la formation continue, les événements sociaux, etc.
La vérification des allégations présente quatre défis principaux :
Semblable aux précédents ensembles de données de vérification des faits classiques (tels que FEVER), le système d'apprentissage automatique doit d'abord être dans un document donné Les phrases pertinentes sont sélectionnées comme preuve (récupération de preuves), et les affirmations sont ensuite vérifiées par rapport aux preuves (vérification des réclamations).
Basé sur le travail de milliers de personnes, cet article propose deux grandes catégories de systèmes de base : les systèmes de canalisations et de joints. Pipeline : la récupération des preuves et la vérification des réclamations sont deux modules distincts. L'outil de récupération des preuves est d'abord utilisé pour extraire les preuves, puis les réclamations combinées sont transmises au module de vérification des réclamations pour classification.
Joint : Les modules de récupération de preuves et de vérification des réclamations sont optimisés conjointement. Trois modèles différents sont utilisés. Le premier est le modèle conjoint de SOTA sur FEVER [10], qui utilise un cadre d'apprentissage multitâche pour apprendre à étiqueter en même temps les preuves et les affirmations. La seconde consiste à traiter l'extraction de preuves comme une variable latente [11] et à étiqueter chaque phrase du document renvoyé avec 0 ou 1. Les phrases étiquetées avec 1 seront laissées comme preuve et classées avec la déclaration, en utilisant REINFORCE pour la formation. . La troisième méthode est similaire à la deuxième méthode, sauf qu'elle utilise HardKuma et la méthode des paramètres lourds pour la formation conjointe [12] au lieu d'utiliser le gradient politique.
Les principaux résultats de l'expérience sont présentés dans la figure ci-dessous :
Plus il y en a, mieux c'est, mieux c'est. Comme le montre la figure ci-dessous, lorsque nous sélectionnons 5 phrases comme preuves à grain fin, le nombre de preuves à grain fin. preuves dans le système de pipeline L'extracteur de preuves a obtenu les meilleurs résultats lorsque 10 et 15 phrases ont été extraites comme preuve, l'effet est devenu de plus en plus mauvais. Nous supposons que davantage de bruit a été introduit dans les phrases extraites, ce qui a affecté le modèle de vérification des déclarations. juge.
Plus la longueur est longue, meilleur est l'effet de modèle. Nous supposons que la raison principale est que la déclaration est plus détaillée et plus facile. des éléments de preuve détaillés aident le modèle à porter des jugements. Lorsque la longueur de la déclaration est relativement courte, l'écart entre les modèles de référence centralisés n'est pas très grand. Lorsque la longueur de la déclaration est relativement longue, plus les preuves obtenues sont bonnes, plus l'effet de vérification des déclarations est important, ce qui illustre également l'importance de la recherche des preuves.
Les allégations du domaine scientifique sont les plus difficiles à vérifier, et l'effet du modèle ne dépasse fondamentalement pas 55. D’une part, il est plus difficile de rassembler des preuves pertinentes, et d’autre part, les déclarations sur des questions scientifiques sont relativement complexes et nécessitent souvent un raisonnement implicite pour obtenir des résultats.
Comme le montre la figure, même si nous introduisons certaines déclarations prises en charge, l'ensemble des données présente toujours le problème du déséquilibre des catégories. L'effet du modèle sur la catégorie NEI est beaucoup plus faible que sur les catégories Soutenu et Réfuté. Les travaux futurs pourront étudier comment ajuster le modèle de vérification des réclamations pour des ensembles de données de vérification des faits déséquilibrés par catégorie, ou utiliser des méthodes d'augmentation des données pour augmenter de manière aléatoire le nombre de NEI au cours du processus de formation. Par exemple, FEVEROUS [13] augmente de manière aléatoire le nombre de NEI. NEI pendant le processus de formation. Jetez les preuves de certaines réclamations et changez la catégorie de ces réclamations en NEI.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!