Maison >Périphériques technologiques >IA >Données synthétiques : l'avenir du machine learning
Traducteur | Bugatti
Reviewer | Sun Shujuan
Les données peuvent être considérées comme l'élément vital des modèles d'apprentissage automatique. Mais que se passe-t-il lorsque l’accès à cette ressource précieuse est restreint ? Comme de nombreux projets et entreprises commencent à le démontrer, c’est à ce moment-là que les données synthétiques constituent une option viable, voire excellente.
Les données synthétiques sont des informations générées artificiellement qui ne sont pas obtenues par mesure directe. Les « fausses » données ne constituent pas un concept nouveau ou révolutionnaire en soi. Il s'agit essentiellement d'une méthode de génération de données de test ou de formation pour un modèle qui manque d'informations disponibles ou nécessaires pour fonctionner correctement.
Dans le passé, le manque de données a conduit à la méthode pratique consistant à utiliser un ensemble de points de données générés aléatoirement. Bien que cela puisse suffire à des fins d’enseignement et de test, les données aléatoires ne sont pas les données sur lesquelles vous souhaitez entraîner un quelconque type de modèle prédictif. C’est ce qui est différent dans le concept de données synthétiques, c’est fiable.
Les données synthétiques sont essentiellement un concept unique où nous pouvons intelligemment générer des données aléatoires. Par conséquent, cette approche peut être appliquée à des cas d’utilisation plus complexes, et pas seulement à des tests.
Bien que la manière dont les données synthétiques sont générées ne soit pas différente de celle des données aléatoires - simplement grâce à un ensemble d'entrées plus complexe, les données synthétiques servent un objectif différent et ont donc des exigences uniques.
Les méthodes de synthèse sont basées et limitées à certains critères qui sont alimentés en entrée à l'avance. En fait, ce n'est pas aléatoire. Il est basé sur un ensemble d'échantillons de données avec une distribution spécifique et des critères qui déterminent la plage, la distribution et la fréquence possibles des points de données. En gros, l’objectif est de répliquer des données réelles pour alimenter un ensemble de données plus vaste, qui sera ensuite suffisamment grand pour entraîner un modèle d’apprentissage automatique.
Cette approche devient particulièrement intéressante lors de l'exploration de méthodes d'apprentissage profond pour affiner les données synthétiques. Les algorithmes peuvent rivaliser les uns avec les autres, visant à se surpasser dans leur capacité à générer et identifier des données synthétiques. En effet, il s’agit ici de s’engager dans une course aux armements artificiels pour générer des données hyperréalistes.
Si nous ne parvenons pas à rassembler les ressources précieuses nécessaires au progrès de la civilisation, nous trouverons un moyen de les créer. Ce principe s’applique désormais également au monde des données de l’apprentissage automatique et de l’intelligence artificielle.
Lors de la formation d'un algorithme, il est crucial de disposer d'un échantillon de données très large, sinon les modèles identifiés par l'algorithme pourraient être trop simples pour des applications pratiques. C'est en fait très logique. Tout comme l’intelligence humaine emprunte souvent la voie la plus simple pour résoudre un problème, il en va souvent de même lors de la formation à l’apprentissage automatique et à l’intelligence artificielle.
Par exemple, envisagez de l'appliquer à un algorithme de reconnaissance d'objets capable d'identifier avec précision les chiens à partir d'un ensemble d'images de chats. Si la quantité de données est trop faible, l’IA risque de s’appuyer sur des modèles qui ne sont pas des caractéristiques essentielles de l’objet qu’elle tente d’identifier. Dans ce cas, l'IA peut toujours être efficace, mais s'effondrer lorsqu'elle rencontre des données qui ne suivent pas le modèle qu'elle a initialement identifié.
Alors, quelle est la solution ? Nous avons dessiné de nombreux animaux légèrement différents, obligeant le réseau à trouver la structure sous-jacente de l'image, et pas seulement l'emplacement de certains pixels. Mais au lieu de dessiner un million de chiens à la main, il serait préférable de construire un système spécifiquement pour dessiner des chiens qui puisse être utilisé pour entraîner des algorithmes de classification – ce que nous faisons en fait lorsque nous alimentons des données synthétiques afin d’entraîner l’apprentissage automatique.
Cependant, cette approche présente des défauts évidents. Le simple fait de générer des données à partir de rien ne représente pas le monde réel, de sorte que l’algorithme risque d’échouer lorsqu’il rencontre des données réelles. La solution consiste à collecter un sous-ensemble de données, à analyser et à identifier les tendances et les plages qu'il contient, puis à utiliser ces données pour générer de grandes quantités de données aléatoires susceptibles d'être représentatives de ce à quoi ressembleraient les données si nous les collections toutes. nous-mêmes.
C'est aussi la valeur des données synthétiques. Nous n’avons plus besoin de collecter des données sans fin, puis de les nettoyer et de les traiter avant utilisation.
Le monde traverse actuellement un changement très radical, notamment dans l'UE : la vie privée et les données générées sont de plus en plus protégées. Dans le domaine de l’apprentissage automatique et de l’IA, le renforcement de la protection des données est un problème de longue date. Les données restreintes sont souvent exactement ce qui est nécessaire pour entraîner les algorithmes à fonctionner et à apporter de la valeur aux utilisateurs finaux, en particulier pour les solutions B2C.
Les problèmes de confidentialité sont souvent résolus lorsque les individus décident d'utiliser une solution et approuvent donc l'utilisation de leurs données. Le problème ici est qu'il est difficile d'amener les utilisateurs à vous fournir leurs données personnelles jusqu'à ce que vous disposiez d'une solution offrant suffisamment de valeur pour être prêt à les transmettre. En conséquence, les fournisseurs se retrouvent souvent face au dilemme de l’œuf et de la poule.
Les données synthétiques sont la solution, et les entreprises peuvent accéder à des sous-ensembles de données grâce aux premiers utilisateurs. Ils peuvent ensuite utiliser ces informations comme base pour générer suffisamment de données pour entraîner l’apprentissage automatique et l’IA. Cette approche peut réduire considérablement le besoin de données privées, long et coûteux, tout en permettant de développer des algorithmes pour les utilisateurs réels.
Pour certains secteurs, tels que la santé, la banque et le droit, les données synthétiques permettent d'accéder plus facilement à de grandes quantités de données qui n'étaient auparavant pas disponibles, supprimant ainsi les contraintes auxquelles les algorithmes nouveaux et plus avancés sont souvent confrontés.
Le problème avec les données réelles est qu'elles ne sont pas générées dans le but de former des algorithmes d'apprentissage automatique et d'IA, elles sont simplement un sous-produit d'événements qui se produisent autour de nous. Comme mentionné précédemment, cela limite évidemment la disponibilité et la facilité d'utilisation des données collectées, mais limite également les paramètres des données et la possibilité de défauts (valeurs aberrantes) qui pourraient corrompre les résultats. C'est pourquoi les données synthétiques, qui peuvent être personnalisées et contrôlées, sont plus efficaces lors de la formation des modèles.
Cependant, bien qu'idéales pour les scénarios de formation, les données synthétiques s'appuieront inévitablement toujours sur au moins une petite partie de données réelles pour leur propre création. Ainsi, les données synthétiques ne remplacent jamais les données originales sur lesquelles elles s’appuient. De manière plus réaliste, cela réduira considérablement la quantité de données réelles requises pour la formation des algorithmes. Ce processus nécessite beaucoup plus de données que les tests - généralement 80 % des données sont utilisées pour la formation et les 20 % restants sont utilisés pour les tests.
Enfin, si elles sont bien utilisées, les données synthétiques offrent un moyen plus rapide et plus efficace d'obtenir les données dont nous avons besoin à un coût inférieur à celui des données du monde réel, tout en réduisant les problèmes ennuyeux de confidentialité des données.
Titre original : Données synthétiques : L'avenir de l'apprentissage automatique, auteur : Christian Lawaetz Halvorsen
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!