


Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?
Il ne fait aucun doute que la collecte de données réelles pour entraîner l’intelligence artificielle ou l’apprentissage automatique (AI/ML) prend du temps et coûte cher. Et bien souvent, cela comporte de nombreux risques, mais un problème plus courant est que trop peu de données ou des données biaisées peuvent induire les organisations en erreur. Mais et si vous pouviez générerde nouvelles données, dites données synthétiques ?
Cela semble peu probable, mais c'est exactement ce que Synthesis AI prévoit de lever avec 17 millions de dollars auprès de sociétés de capital-risque, dont 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital Series A. financement.
C'est une preuve très fiable. L'entreprise prévoit d'utiliser ce financement pour étendre sa recherche et son développement dans le domaine du mélange de données réelles et synthétiques.
Yashar Behzadi, PDG de Synthesis AI, a déclaré dans un communiqué : « Les données synthétiques sont à un point d'inflexion dans leur adoption, et notre objectif est de développer davantage la technologie et de provoquer un changement de paradigme dans la façon dont les systèmes de vision par ordinateur sont construits. sera bientôt une conception et une formation complètes de modèles de vision par ordinateur dans des mondes virtuels, permettant une intelligence artificielle plus avancée et éthique »
Mais qu'est-ce que les données synthétiques ?
Les données synthétiques sont créées par des humains plutôt que collectées dans le monde réel. Actuellement, de nombreuses applications se concentrent sur les données visuelles, telles que les données collectées à partir des systèmes de vision par ordinateur. Pourtant, il n'y a aucune raison pratique pour laquelle des données synthétiques ne peuvent pas être créées pour d'autres cas d'utilisation, tels que tester des applications ou améliorer des algorithmes de détection de fraude. Ils ressemblent en quelque sorte à des jumeaux numériques hautement structurés de documents physiques.
En fournissant des ensembles de données massifs et réels à grande échelle, les data scientists et les analystes peuvent théoriquement ignorer le processus de collecte de données et passer directement aux tests ou à la formation.
En effet, la majeure partie du coût de création d'un ensemble de données du monde réel ne consiste pas seulement à collecter les données brutes. Prenons l'exemple de la vision par ordinateur et des voitures autonomes. Les constructeurs automobiles et les chercheurs peuvent attacher diverses caméras, radars et capteurs lidar aux véhicules pour les collecter, mais les données brutes ne signifient rien pour les algorithmes d'IA/ML. Un défi tout aussi intimidant consiste à étiqueter manuellement les données avec des informations contextuelles pour aider le système à prendre de meilleures décisions.
Regardons le contexte de ce défi : Imaginez que vous conduisez régulièrement un court trajet, avec tous les panneaux d'arrêt, les intersections, les voitures garées, les piétons, etc., et imaginez ensuite que donner à chacun les dangers potentiels de l'étiquetage est une tâche difficile.
Le principal avantage des données synthétiques est que, en théorie, elles peuvent créer des ensembles de données parfaitement étiquetés, suffisamment grands pour entraîner correctement les applications IA/ML, ce qui signifie que les data scientists peuvent soudainement tester leurs algorithmes dans un grand nombre de nouveaux endroits avant de pouvoir véritablement les mettre en œuvre. données mondiales ou dans des situations où il est difficile de les obtenir. En reprenant l'exemple des voitures autonomes, les data scientists peuvent créer des données synthétiques pour entraîner les voitures à conduire dans des conditions difficiles, telles que des routes enneigées, sans avoir à envoyer les conducteurs vers le nord ou dans les montagnes pour collecter manuellement des données.
Le principal avantage des données synthétiques est qu'elles peuvent théoriquement créer des ensembles de données parfaitement étiquetés à l'échelle requise pour former correctement les applications IA/ML, ce qui signifie que les data scientists peuvent créer des données avant que les données réelles ne soient disponibles, ou lorsqu'il serait difficile de les utiliser. disponibles, ils testaient soudainement leurs algorithmes dans de nombreux nouveaux endroits. Toujours avec l'exemple de la voiture autonome, les data scientists peuvent créer des données synthétiques pour entraîner la voiture à conduire dans des conditions défavorables, telles que des routes enneigées, sans que le conducteur aille tout au nord ou dans les montagnes pour collecter des données manuellement.
Cependant, il existe un problème de poule et d’œuf avec les données synthétiques, car elles ne peuvent être créées qu’en utilisant… plus de données et plus d’algorithmes IA/ML. Commencez avec un ensemble de données « de départ », puis utilisez-le comme base de référence pour vos créations synthétiques, ce qui signifie qu'elles seront aussi bonnes que les données avec lesquelles vous commencez.
AVANTAGES (INTANGIBLES)
Quel data scientist ou chercheur ne bénéficierait pas d'une offre apparemment infinie de générateurs de données ? Le principal avantage – la possibilité d'éviter la collecte manuelle de données du monde réel – est simplement accéléré par les données synthétiques. les moyens d'application de l'IA/ML.
Parce que les analystes et les data scientists ont un contrôle strict sur les données de départ et peuvent même faire un effort supplémentaire pour intégrer la diversité, ou travailler avec des consultants externes pour découvrir et décoder les préjugés, ils peuvent se conformer à des normes plus élevées. Synthesis AI, par exemple, développe un système qui surveille l'état du conducteur et inclut soigneusement différents visages dans son ensemble de données synthétiques générées par ordinateur pour garantir que les applications du monde réel fonctionnent pour tout le monde.
La confidentialité est une autre victoire potentielle. Si une entreprise passe des millions de kilomètres à collecter des données réelles sur ses voitures autonomes, elle collecte de nombreuses données que beaucoup de gens considèrent comme personnelles, en particulier leurs visages. De grandes entreprises comme Google et Apple ont trouvé des moyens d'éviter ce type de problèmes dans leurs logiciels de cartographie, mais leurs itinéraires ne sont pas réalisables pour les petites équipes d'IA/ML qui souhaitent tester leurs algorithmes.
« Les entreprises sont également aux prises avec des problèmes éthiques liés aux préjugés des modèles et à la confidentialité des consommateurs dans les produits centrés sur l'humain. Il est clair que la construction de la prochaine génération de vision par ordinateur nécessite un nouveau paradigme », Yashar, PDG et fondateur de la société Behzadi. a dit aux médias.
Bien que les données synthétiques reposent sur une graine pour démarrer, elles peuvent être adaptées et modifiées pour aider à former des applications IA/ML dans des cas extrêmes difficiles ou dangereux à capturer dans la vie réelle. Les entreprises à l'origine des voitures autonomes espèrent réussir à identifier des objets ou des personnes qui ne sont que partiellement visibles, comme un panneau d'arrêt caché derrière un camion ou un piéton se tenant entre deux voitures se précipitant sur la route.
Compte tenu de ces victoires, et malgré certaines inquiétudes concernant le problème de la poule et de l’œuf que constitue le biais d’encodage dans les données synthétiques, Gartnerprédit que d’ici 2024 60 % des données seront générées de manière synthétique. Ils prédisent qu’une grande partie des nouvelles données se concentreront sur la correction des modèles prédictifs lorsque les données historiques sur lesquelles elles sont basées perdent de leur pertinence ou lorsque les hypothèses basées sur l’expérience passée s’effondrent.
Mais il y a toujours quelquesdonnées du monde réel qui doivent être collectées, nous sommes donc encore loin d'être complètement obsolètes par les avatars de notre moi universel et impartial.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Introduction Dans l'ingénierie rapide, «Graph of Thought» fait référence à une nouvelle approche qui utilise la théorie des graphiques pour structurer et guider le processus de raisonnement de l'IA. Contrairement aux méthodes traditionnelles, qui impliquent souvent des s linéaires

Introduction Félicitations! Vous gérez une entreprise prospère. Grâce à vos pages Web, campagnes de médias sociaux, webinaires, conférences, ressources gratuites et autres sources, vous collectez 5000 identifiants de messagerie par jour. La prochaine étape évidente est

Introduction Dans l'environnement de développement logiciel au rythme rapide d'aujourd'hui, garantissant des performances optimales d'application est cruciale. La surveillance des mesures en temps réel telles que les temps de réponse, les taux d'erreur et l'utilisation des ressources peuvent aider

«Combien d'utilisateurs avez-vous?» il a poussé. "Je pense que la dernière fois que nous avons dit était de 500 millions d'actifs hebdomadaires, et cela croît très rapidement", a répondu Altman. "Vous m'avez dit que cela a doublé en quelques semaines", a poursuivi Anderson. «J'ai dit que le priv

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Imaginez avoir un assistant alimenté par AI qui non seulement répond à vos requêtes mais rassemble également de manière autonome des informations, exécute des tâches et gère même plusieurs types de données - texte, images et code. Cela semble futuriste? En ce

Introduction L’industrie financière est la pierre angulaire du développement de tout pays, car elle stimule la croissance économique en facilitant des transactions efficaces et une disponibilité du crédit. La facilité avec laquelle les transactions se produisent et le crédit

Introduction Les données sont générées à un rythme sans précédent à partir de sources telles que les médias sociaux, les transactions financières et les plateformes de commerce électronique. Gérer ce flux continu d'informations est un défi, mais il offre un


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

ZendStudio 13.5.1 Mac
Puissant environnement de développement intégré PHP

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Version Mac de WebStorm
Outils de développement JavaScript utiles

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft