Maison >Périphériques technologiques >IA >Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?
Il ne fait aucun doute que la collecte de données réelles pour entraîner l’intelligence artificielle ou l’apprentissage automatique (AI/ML) prend du temps et coûte cher. Et bien souvent, cela comporte de nombreux risques, mais un problème plus courant est que trop peu de données ou des données biaisées peuvent induire les organisations en erreur. Mais et si vous pouviez générerde nouvelles données, dites données synthétiques ?
Cela semble peu probable, mais c'est exactement ce que Synthesis AI prévoit de lever avec 17 millions de dollars auprès de sociétés de capital-risque, dont 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital Series A. financement.
C'est une preuve très fiable. L'entreprise prévoit d'utiliser ce financement pour étendre sa recherche et son développement dans le domaine du mélange de données réelles et synthétiques.
Yashar Behzadi, PDG de Synthesis AI, a déclaré dans un communiqué : « Les données synthétiques sont à un point d'inflexion dans leur adoption, et notre objectif est de développer davantage la technologie et de provoquer un changement de paradigme dans la façon dont les systèmes de vision par ordinateur sont construits. sera bientôt une conception et une formation complètes de modèles de vision par ordinateur dans des mondes virtuels, permettant une intelligence artificielle plus avancée et éthique »
Les données synthétiques sont créées par des humains plutôt que collectées dans le monde réel. Actuellement, de nombreuses applications se concentrent sur les données visuelles, telles que les données collectées à partir des systèmes de vision par ordinateur. Pourtant, il n'y a aucune raison pratique pour laquelle des données synthétiques ne peuvent pas être créées pour d'autres cas d'utilisation, tels que tester des applications ou améliorer des algorithmes de détection de fraude. Ils ressemblent en quelque sorte à des jumeaux numériques hautement structurés de documents physiques.
En fournissant des ensembles de données massifs et réels à grande échelle, les data scientists et les analystes peuvent théoriquement ignorer le processus de collecte de données et passer directement aux tests ou à la formation.
En effet, la majeure partie du coût de création d'un ensemble de données du monde réel ne consiste pas seulement à collecter les données brutes. Prenons l'exemple de la vision par ordinateur et des voitures autonomes. Les constructeurs automobiles et les chercheurs peuvent attacher diverses caméras, radars et capteurs lidar aux véhicules pour les collecter, mais les données brutes ne signifient rien pour les algorithmes d'IA/ML. Un défi tout aussi intimidant consiste à étiqueter manuellement les données avec des informations contextuelles pour aider le système à prendre de meilleures décisions.
Regardons le contexte de ce défi : Imaginez que vous conduisez régulièrement un court trajet, avec tous les panneaux d'arrêt, les intersections, les voitures garées, les piétons, etc., et imaginez ensuite que donner à chacun les dangers potentiels de l'étiquetage est une tâche difficile.
Le principal avantage des données synthétiques est que, en théorie, elles peuvent créer des ensembles de données parfaitement étiquetés, suffisamment grands pour entraîner correctement les applications IA/ML, ce qui signifie que les data scientists peuvent soudainement tester leurs algorithmes dans un grand nombre de nouveaux endroits avant de pouvoir véritablement les mettre en œuvre. données mondiales ou dans des situations où il est difficile de les obtenir. En reprenant l'exemple des voitures autonomes, les data scientists peuvent créer des données synthétiques pour entraîner les voitures à conduire dans des conditions difficiles, telles que des routes enneigées, sans avoir à envoyer les conducteurs vers le nord ou dans les montagnes pour collecter manuellement des données.
Le principal avantage des données synthétiques est qu'elles peuvent théoriquement créer des ensembles de données parfaitement étiquetés à l'échelle requise pour former correctement les applications IA/ML, ce qui signifie que les data scientists peuvent créer des données avant que les données réelles ne soient disponibles, ou lorsqu'il serait difficile de les utiliser. disponibles, ils testaient soudainement leurs algorithmes dans de nombreux nouveaux endroits. Toujours avec l'exemple de la voiture autonome, les data scientists peuvent créer des données synthétiques pour entraîner la voiture à conduire dans des conditions défavorables, telles que des routes enneigées, sans que le conducteur aille tout au nord ou dans les montagnes pour collecter des données manuellement.
Cependant, il existe un problème de poule et d’œuf avec les données synthétiques, car elles ne peuvent être créées qu’en utilisant… plus de données et plus d’algorithmes IA/ML. Commencez avec un ensemble de données « de départ », puis utilisez-le comme base de référence pour vos créations synthétiques, ce qui signifie qu'elles seront aussi bonnes que les données avec lesquelles vous commencez.
Quel data scientist ou chercheur ne bénéficierait pas d'une offre apparemment infinie de générateurs de données ? Le principal avantage – la possibilité d'éviter la collecte manuelle de données du monde réel – est simplement accéléré par les données synthétiques. les moyens d'application de l'IA/ML.
Parce que les analystes et les data scientists ont un contrôle strict sur les données de départ et peuvent même faire un effort supplémentaire pour intégrer la diversité, ou travailler avec des consultants externes pour découvrir et décoder les préjugés, ils peuvent se conformer à des normes plus élevées. Synthesis AI, par exemple, développe un système qui surveille l'état du conducteur et inclut soigneusement différents visages dans son ensemble de données synthétiques générées par ordinateur pour garantir que les applications du monde réel fonctionnent pour tout le monde.
La confidentialité est une autre victoire potentielle. Si une entreprise passe des millions de kilomètres à collecter des données réelles sur ses voitures autonomes, elle collecte de nombreuses données que beaucoup de gens considèrent comme personnelles, en particulier leurs visages. De grandes entreprises comme Google et Apple ont trouvé des moyens d'éviter ce type de problèmes dans leurs logiciels de cartographie, mais leurs itinéraires ne sont pas réalisables pour les petites équipes d'IA/ML qui souhaitent tester leurs algorithmes.
« Les entreprises sont également aux prises avec des problèmes éthiques liés aux préjugés des modèles et à la confidentialité des consommateurs dans les produits centrés sur l'humain. Il est clair que la construction de la prochaine génération de vision par ordinateur nécessite un nouveau paradigme », Yashar, PDG et fondateur de la société Behzadi. a dit aux médias.
Bien que les données synthétiques reposent sur une graine pour démarrer, elles peuvent être adaptées et modifiées pour aider à former des applications IA/ML dans des cas extrêmes difficiles ou dangereux à capturer dans la vie réelle. Les entreprises à l'origine des voitures autonomes espèrent réussir à identifier des objets ou des personnes qui ne sont que partiellement visibles, comme un panneau d'arrêt caché derrière un camion ou un piéton se tenant entre deux voitures se précipitant sur la route.
Compte tenu de ces victoires, et malgré certaines inquiétudes concernant le problème de la poule et de l’œuf que constitue le biais d’encodage dans les données synthétiques, Gartnerprédit que d’ici 2024 60 % des données seront générées de manière synthétique. Ils prédisent qu’une grande partie des nouvelles données se concentreront sur la correction des modèles prédictifs lorsque les données historiques sur lesquelles elles sont basées perdent de leur pertinence ou lorsque les hypothèses basées sur l’expérience passée s’effondrent.
Mais il y a toujours quelquesdonnées du monde réel qui doivent être collectées, nous sommes donc encore loin d'être complètement obsolètes par les avatars de notre moi universel et impartial.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!