Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?-IA-php.cn

Maison

Périphériques technologiques

Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?

王林

Apr 14, 2023 am 09:52 AM

ai合成数据ml

合成数据会推动 AI/ML 训练的未来吗？

Il ne fait aucun doute que la collecte de données réelles pour entraîner l’intelligence artificielle ou l’apprentissage automatique (AI/ML) prend du temps et coûte cher. Et bien souvent, cela comporte de nombreux risques, mais un problème plus courant est que trop peu de données ou des données biaisées peuvent induire les organisations en erreur. Mais et si vous pouviez générerde nouvelles données, dites données synthétiques ?

Cela semble peu probable, mais c'est exactement ce que Synthesis AI prévoit de lever avec 17 millions de dollars auprès de sociétés de capital-risque, dont 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital Series A. financement.

C'est une preuve très fiable. L'entreprise prévoit d'utiliser ce financement pour étendre sa recherche et son développement dans le domaine du mélange de données réelles et synthétiques.

Yashar Behzadi, PDG de Synthesis AI, a déclaré dans un communiqué : « Les données synthétiques sont à un point d'inflexion dans leur adoption, et notre objectif est de développer davantage la technologie et de provoquer un changement de paradigme dans la façon dont les systèmes de vision par ordinateur sont construits. sera bientôt une conception et une formation complètes de modèles de vision par ordinateur dans des mondes virtuels, permettant une intelligence artificielle plus avancée et éthique »

Mais qu'est-ce que les données synthétiques ?

Les données synthétiques sont créées par des humains plutôt que collectées dans le monde réel. Actuellement, de nombreuses applications se concentrent sur les données visuelles, telles que les données collectées à partir des systèmes de vision par ordinateur. Pourtant, il n'y a aucune raison pratique pour laquelle des données synthétiques ne peuvent pas être créées pour d'autres cas d'utilisation, tels que tester des applications ou améliorer des algorithmes de détection de fraude. Ils ressemblent en quelque sorte à des jumeaux numériques hautement structurés de documents physiques.

En fournissant des ensembles de données massifs et réels à grande échelle, les data scientists et les analystes peuvent théoriquement ignorer le processus de collecte de données et passer directement aux tests ou à la formation.

En effet, la majeure partie du coût de création d'un ensemble de données du monde réel ne consiste pas seulement à collecter les données brutes. Prenons l'exemple de la vision par ordinateur et des voitures autonomes. Les constructeurs automobiles et les chercheurs peuvent attacher diverses caméras, radars et capteurs lidar aux véhicules pour les collecter, mais les données brutes ne signifient rien pour les algorithmes d'IA/ML. Un défi tout aussi intimidant consiste à étiqueter manuellement les données avec des informations contextuelles pour aider le système à prendre de meilleures décisions.

Regardons le contexte de ce défi : Imaginez que vous conduisez régulièrement un court trajet, avec tous les panneaux d'arrêt, les intersections, les voitures garées, les piétons, etc., et imaginez ensuite que donner à chacun les dangers potentiels de l'étiquetage est une tâche difficile.

Le principal avantage des données synthétiques est que, en théorie, elles peuvent créer des ensembles de données parfaitement étiquetés, suffisamment grands pour entraîner correctement les applications IA/ML, ce qui signifie que les data scientists peuvent soudainement tester leurs algorithmes dans un grand nombre de nouveaux endroits avant de pouvoir véritablement les mettre en œuvre. données mondiales ou dans des situations où il est difficile de les obtenir. En reprenant l'exemple des voitures autonomes, les data scientists peuvent créer des données synthétiques pour entraîner les voitures à conduire dans des conditions difficiles, telles que des routes enneigées, sans avoir à envoyer les conducteurs vers le nord ou dans les montagnes pour collecter manuellement des données.

Le principal avantage des données synthétiques est qu'elles peuvent théoriquement créer des ensembles de données parfaitement étiquetés à l'échelle requise pour former correctement les applications IA/ML, ce qui signifie que les data scientists peuvent créer des données avant que les données réelles ne soient disponibles, ou lorsqu'il serait difficile de les utiliser. disponibles, ils testaient soudainement leurs algorithmes dans de nombreux nouveaux endroits. Toujours avec l'exemple de la voiture autonome, les data scientists peuvent créer des données synthétiques pour entraîner la voiture à conduire dans des conditions défavorables, telles que des routes enneigées, sans que le conducteur aille tout au nord ou dans les montagnes pour collecter des données manuellement.

Cependant, il existe un problème de poule et d’œuf avec les données synthétiques, car elles ne peuvent être créées qu’en utilisant… plus de données et plus d’algorithmes IA/ML. Commencez avec un ensemble de données « de départ », puis utilisez-le comme base de référence pour vos créations synthétiques, ce qui signifie qu'elles seront aussi bonnes que les données avec lesquelles vous commencez.

AVANTAGES (INTANGIBLES)

Quel data scientist ou chercheur ne bénéficierait pas d'une offre apparemment infinie de générateurs de données ? Le principal avantage – la possibilité d'éviter la collecte manuelle de données du monde réel – est simplement accéléré par les données synthétiques. les moyens d'application de l'IA/ML.

Parce que les analystes et les data scientists ont un contrôle strict sur les données de départ et peuvent même faire un effort supplémentaire pour intégrer la diversité, ou travailler avec des consultants externes pour découvrir et décoder les préjugés, ils peuvent se conformer à des normes plus élevées. Synthesis AI, par exemple, développe un système qui surveille l'état du conducteur et inclut soigneusement différents visages dans son ensemble de données synthétiques générées par ordinateur pour garantir que les applications du monde réel fonctionnent pour tout le monde.

La confidentialité est une autre victoire potentielle. Si une entreprise passe des millions de kilomètres à collecter des données réelles sur ses voitures autonomes, elle collecte de nombreuses données que beaucoup de gens considèrent comme personnelles, en particulier leurs visages. De grandes entreprises comme Google et Apple ont trouvé des moyens d'éviter ce type de problèmes dans leurs logiciels de cartographie, mais leurs itinéraires ne sont pas réalisables pour les petites équipes d'IA/ML qui souhaitent tester leurs algorithmes.

« Les entreprises sont également aux prises avec des problèmes éthiques liés aux préjugés des modèles et à la confidentialité des consommateurs dans les produits centrés sur l'humain. Il est clair que la construction de la prochaine génération de vision par ordinateur nécessite un nouveau paradigme », Yashar, PDG et fondateur de la société Behzadi. a dit aux médias.

Bien que les données synthétiques reposent sur une graine pour démarrer, elles peuvent être adaptées et modifiées pour aider à former des applications IA/ML dans des cas extrêmes difficiles ou dangereux à capturer dans la vie réelle. Les entreprises à l'origine des voitures autonomes espèrent réussir à identifier des objets ou des personnes qui ne sont que partiellement visibles, comme un panneau d'arrêt caché derrière un camion ou un piéton se tenant entre deux voitures se précipitant sur la route.

Compte tenu de ces victoires, et malgré certaines inquiétudes concernant le problème de la poule et de l’œuf que constitue le biais d’encodage dans les données synthétiques, Gartnerprédit que d’ici 2024 60 % des données seront générées de manière synthétique. Ils prédisent qu’une grande partie des nouvelles données se concentreront sur la correction des modèles prédictifs lorsque les données historiques sur lesquelles elles sont basées perdent de leur pertinence ou lorsque les hypothèses basées sur l’expérience passée s’effondrent.

Mais il y a toujours quelquesdonnées du monde réel qui doivent être collectées, nous sommes donc encore loin d'être complètement obsolètes par les avatars de notre moi universel et impartial.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Vous devez construire un lieu de travail dans un voile d'ignoranceApr 29, 2025 am 11:15 AM

Dans le livre de 1971 de John Rawls, The Theory of Justice, il a proposé une expérience de pensée que nous devrions prendre en tant que noyau de la conception de l'IA d'aujourd'hui et utilise la prise de décision: le voile de l'ignorance. Cette philosophie fournit un outil simple pour comprendre l'équité et fournit également un plan pour les dirigeants afin d'utiliser cette compréhension pour concevoir et mettre en œuvre l'IA de manière équitable. Imaginez que vous établissez des règles pour une nouvelle société. Mais il y a une prémisse: vous ne savez pas à l'avance quel rôle vous allez jouer dans cette société. Vous pouvez finir par être riche ou pauvre, sain ou handicapé, appartenant à une minorité majoritaire ou marginale. Opérant dans le cadre de ce «voile d'ignorance» empêche les décideurs de prendre des décisions qui bénéficient elles-mêmes. Au contraire, les gens seront plus motivés pour formuler le public

Décisions, décisions… les prochaines étapes pour une IA appliquée pratiqueApr 29, 2025 am 11:14 AM

De nombreuses entreprises se spécialisent dans l'automatisation des processus robotiques (RPA), offrant des robots pour automatiser les tâches répétitives - UIPATH, l'automatisation n'importe où, le prisme bleu et autres. Pendant ce temps, l'exploitation de processus, l'orchestration et le traitement des documents intelligents spécialis

Les agents arrivent - plus sur ce que nous ferons à côté des partenaires de l'IAApr 29, 2025 am 11:13 AM

L'avenir de l'IA va au-delà de la simple prédiction des mots et de la simulation conversationnelle; Les agents de l'IA émergent, capables d'action indépendante et d'achèvement des tâches. Ce changement est déjà évident dans des outils comme le claude d'Anthropic. Agents de l'IA: recherche un

Pourquoi l'empathie est plus importante que le contrôle des dirigeants dans un avenir dirigé par l'IAApr 29, 2025 am 11:12 AM

Les progrès technologiques rapides nécessitent une perspective prospective sur l'avenir du travail. Que se passe-t-il lorsque l'IA transcende une simple amélioration de la productivité et commence à façonner nos structures sociétales? Le prochain livre de Topher McDougal, Gaia Wakes:

IA pour la classification des produits: les machines peuvent-elles maîtriser la loi fiscale?Apr 29, 2025 am 11:11 AM

La classification des produits, impliquant souvent des codes complexes comme "HS 8471.30" à partir de systèmes tels que le système harmonisé (HS), est crucial pour le commerce international et les ventes intérieures. Ces codes garantissent une application fiscale correcte, impactant chaque inv

La demande du centre de données pourrait-elle susciter un rebond de technologie climatique?Apr 29, 2025 am 11:10 AM

L'avenir de la consommation d'énergie dans les centres de données et l'investissement en technologie climatique Cet article explore la forte augmentation de la consommation d'énergie dans les centres de données motivés par l'IA et son impact sur le changement climatique, et analyse des solutions innovantes et des recommandations politiques pour relever ce défi. Défis de la demande d'énergie: les centres de données à grande échelle importants et ultra-larges consomment une puissance énorme, comparable à la somme de centaines de milliers de familles nord-américaines ordinaires, et des centres émergents d'IA à l'échelle ultra-large consomment des dizaines de fois plus de puissance que cela. Au cours des huit premiers mois de 2024, Microsoft, Meta, Google et Amazon ont investi environ 125 milliards de dollars en construction et en fonctionnement des centres de données d'IA (JP Morgan, 2024) (tableau 1). La demande d'énergie croissante est à la fois un défi et une opportunité. Selon Canary Media, l'électricité imminente

L'âge d'or de l'IA et de l'IA et d'HollywoodApr 29, 2025 am 11:09 AM

L'IA générative révolutionne la production cinématographique et télévisée. Le modèle Ray 2 de Luma, ainsi que la Gen-4 de Runway, Sora d'Openai, Veo et d'autres modèles de Google, améliorent la qualité des vidéos générées à une vitesse sans précédent. Ces modèles peuvent facilement créer des effets spéciaux complexes et des scènes réalistes, même de courts clips vidéo et des effets de mouvement perçus par la caméra ont été réalisés. Bien que la manipulation et la cohérence de ces outils doivent encore être améliorées, la vitesse de progrès est incroyable. La vidéo générative devient un support indépendant. Certains modèles sont bons dans la production d'animation, tandis que d'autres sont bons dans les images en direct. Il convient de noter que Adobe's Firefly et Moonvalley's MA

Chatgpt devient-il lentement le plus grand homme de l'IA?Apr 29, 2025 am 11:08 AM

L'expérience utilisateur de ChatGPT diminue: est-ce une dégradation du modèle ou des attentes de l'utilisateur? Récemment, un grand nombre d'utilisateurs payés par Chatgpt se sont plaints de leur dégradation des performances, ce qui a attiré une attention généralisée. Les utilisateurs ont signalé des réponses plus lentes aux modèles, des réponses plus courtes, un manque d'aide et encore plus d'hallucinations. Certains utilisateurs ont exprimé leur insatisfaction aux réseaux sociaux, soulignant que Chatgpt est devenu «trop flatteur» et a tendance à vérifier les vues des utilisateurs plutôt que de fournir des commentaires critiques. Cela affecte non seulement l'expérience utilisateur, mais apporte également des pertes réelles aux clients des entreprises, tels que la réduction de la productivité et le gaspillage des ressources informatiques. Preuve de dégradation des performances De nombreux utilisateurs ont signalé une dégradation significative des performances de Chatgpt, en particulier dans des modèles plus anciens tels que le GPT-4 (qui sera bientôt interrompu du service à la fin de ce mois). ce

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semainesByDDD

Inzoi: Comment postuler à l'école et à l'université

4 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

2 Il y a quelques semainesByDDD

Roblox: Dead Rails - Comment invoquer et vaincre Nikola Tesla

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.