Maison >Périphériques technologiques >IA >La gestion des données est devenue le plus grand goulot d'étranglement dans le développement de l'intelligence artificielle

La gestion des données est devenue le plus grand goulot d'étranglement dans le développement de l'intelligence artificielle

王林
王林avant
2023-04-29 13:25:061136parcourir

La gestion des données est devenue le plus grand goulot détranglement dans le développement de lintelligence artificielle

Le véritable signe de grandeur en matière d’infrastructure est qu’il est facile de l’ignorer en la faisant voler. Plus il est performant, moins on y pense. Par exemple, l’importance de l’infrastructure mobile ne nous vient à l’esprit que lorsque nous avons du mal à nous connecter. Tout comme lorsque nous roulons sur une nouvelle autoroute fraîchement pavée, nous ne prêtons guère attention à la surface de la route qui passe silencieusement sous nos roues. En revanche, une autoroute mal entretenue nous rappelle son existence à chaque nid-de-poule, gazon et bosse que nous rencontrons.

Les infrastructures n’ont besoin de notre attention que lorsqu’elles sont manquantes, inadéquates ou endommagées. Et dans la vision par ordinateur, l’infrastructure – ou plutôt ce qui en manque – est ce qui préoccupe actuellement de nombreuses personnes.

Le calcul établit la norme en matière d'infrastructure

Chaque projet d'IA/ML (y compris la vision par ordinateur) repose sur trois piliers de développement de base : les données, les algorithmes/modèles et le calcul. Parmi ces trois piliers, l’informatique est de loin celui doté de l’infrastructure la plus puissante et la plus solide. Avec des décennies d'investissement et de développement dédiés aux entreprises, le cloud computing est devenu la référence en matière d'infrastructure informatique dans les environnements informatiques d'entreprise, et la vision par ordinateur ne fait pas exception.

Dans un modèle d'infrastructure en tant que service, les développeurs bénéficient d'un accès à la demande et avec paiement à l'utilisation à un pipeline de puissance de calcul en constante expansion depuis près de 20 ans. Au cours de cette période, il a révolutionné l’informatique d’entreprise en améliorant considérablement l’agilité, la rentabilité, l’évolutivité et bien plus encore. Avec l’avènement des GPU dédiés au machine learning, on peut affirmer sans se tromper que cette partie de la pile d’infrastructure de vision par ordinateur est bel et bien vivante. Si nous voulons voir la vision par ordinateur et l’IA réaliser leur plein potentiel, il serait judicieux d’utiliser le calcul comme modèle sur lequel repose le reste de la pile d’infrastructure CV.

Lignée et limites du développement piloté par les modèles

Jusqu'à récemment, le développement d'algorithmes et de modèles a été le moteur du développement de la vision par ordinateur et de l'intelligence artificielle. Tant du côté de la recherche que du développement commercial, les équipes ont travaillé dur pendant des années pour tester, corriger et améliorer progressivement les modèles IA/ML, et partager leurs progrès dans les communautés open source comme Kaggle. Les domaines de la vision par ordinateur et de l’intelligence artificielle ont fait de grands progrès au cours des deux premières décennies du nouveau millénaire en concentrant leurs efforts sur le développement et la modélisation d’algorithmes.

Cependant, ces dernières années, ces progrès ont ralenti car l'optimisation centrée sur le modèle viole la loi des rendements décroissants. De plus, les approches centrées sur les modèles présentent plusieurs limites. Par exemple, vous ne pouvez pas utiliser les mêmes données pour l'entraînement, puis recycler le modèle. Les approches centrées sur les modèles nécessitent également davantage de travail manuel en termes de nettoyage des données, de validation des modèles et de formation, ce qui peut faire perdre un temps et des ressources précieux à des tâches génératrices de revenus plus innovantes.

Aujourd'hui, grâce à des communautés comme Hugging Face, les équipes CV ont un accès gratuit et ouvert à une vaste gamme d'algorithmes, de modèles et d'architectures vastes et complexes, chacun prenant en charge différentes capacités de base du CV - de la reconnaissance d'objets et de repères faciaux à l'estimation de pose et aux fonctionnalités. correspondant. Ces actifs sont devenus aussi proches d'une solution « prêt à l'emploi » qu'on pourrait l'imaginer : fournissant aux équipes de vision par ordinateur et d'IA un tableau blanc prêt à l'emploi pour se former sur un certain nombre de tâches et de cas d'utilisation spécialisés.

Tout comme les capacités humaines de base telles que la coordination œil-main peuvent être appliquées et entraînées à une variété de compétences différentes - du tennis de table au lancer - ces algorithmes ML modernes peuvent également être entraînés pour exécuter une gamme d'applications spécifiques. Cependant, alors que les humains se spécialisent au fil des années de pratique et de sueur, les machines y parviennent grâce à la formation sur les données.

Intelligence artificielle centrée sur les données et goulots d'étranglement du Big Data

Cela a incité de nombreuses personnalités du domaine de l'intelligence artificielle à appeler à une nouvelle ère de développement de l'apprentissage profond - une ère dans laquelle le principal moteur de progrès est les données. Il y a quelques années à peine, Andrew Ng et d’autres ont annoncé que l’orientation vers les données était la direction du développement de l’IA. Durant cette courte période, l’industrie a prospéré. En quelques années seulement, une pléthore de nouvelles applications commerciales et de cas d'utilisation de la vision par ordinateur ont vu le jour, couvrant un large éventail d'industries, de la robotique et de l'AR/VR à la construction automobile et à la sécurité domestique.

Récemment, nous avons mené des recherches sur la détection des mains sur le volant dans les voitures en utilisant une approche centrée sur les données. Nos expériences montrent qu'en utilisant cette approche et des données synthétiques, nous sommes capables d'identifier et de générer des cas extrêmes spécifiques qui manquent dans l'ensemble de données de formation.

La gestion des données est devenue le plus grand goulot détranglement dans le développement de lintelligence artificielle

Datagen génère des images synthétiques pour le test du volant en main (Image fournie par : Datagen)

Bien que l'industrie de la vision par ordinateur soit en pleine effervescence au sujet des données, elles ne sont pas toutes fanatiques. Bien que le domaine ait établi que les données constituent la voie à suivre, le chemin comporte de nombreux obstacles et pièges, dont beaucoup ont déjà entravé les équipes CV. Une récente enquête menée auprès de professionnels américains de la vision par ordinateur a révélé que le domaine est en proie à de longs retards dans les projets, à des processus non standardisés et à un manque de ressources, qui proviennent tous des données. Dans la même enquête, 99 % des personnes interrogées ont déclaré qu'au moins un projet de CV avait été annulé indéfiniment en raison de données de formation insuffisantes.

Même les 1% chanceux qui ont évité l'annulation d'un projet jusqu'à présent ne peuvent pas éviter les retards du projet. Dans l'enquête, tous les répondants ont déclaré avoir subi des retards importants dans leurs projets en raison de données de formation insuffisantes ou insuffisantes, 80 % d'entre eux ayant signalé des retards de trois mois ou plus. En fin de compte, le but de l’infrastructure est un objectif d’utilité : faciliter, accélérer ou communiquer. Dans un monde où les retards importants font partie intégrante des activités commerciales, il est clair qu'il manque certaines infrastructures vitales.

Les données de formation traditionnelles défient l'infrastructure

Cependant, contrairement à l'informatique et aux algorithmes, le troisième pilier du développement de l'IA/ML ne se prête pas à l'infrastructure - en particulier dans le domaine de la vision par ordinateur, où de grandes quantités de données sont désorganisées et très chronophages. la collecte et la gestion nécessitent beaucoup de ressources. Bien qu'il existe de nombreuses bases de données de formation visuelle labellisées et disponibles gratuitement en ligne (telles que la désormais célèbre base de données ImageNet), elles se sont révélées insuffisantes à elles seules en tant que source de données de formation pour le développement de CV commerciaux.

En effet, contrairement aux modèles qui généralisent par conception, les données d'entraînement sont par nature spécifiques à une application. Les données sont ce qui distingue une application d'un modèle donné d'une autre et doivent donc être uniques non seulement à une tâche spécifique, mais également à l'environnement ou au contexte dans lequel cette tâche est exécutée. Contrairement à la puissance de calcul, qui peut être générée et accessible à la vitesse de la lumière, les données visuelles traditionnelles doivent être créées ou collectées par des humains (en prenant des photos sur le terrain ou en recherchant des images appropriées sur Internet), puis minutieusement nettoyées et étiquetées par des humains. (il s'agit d'un processus sujet aux erreurs humaines, aux incohérences et aux préjugés).

Cela soulève la question : « Comment pouvons-nous créer des visualisations de données qui soient à la fois adaptées à des applications spécifiques et facilement banalisées (c'est-à-dire rapides, bon marché et polyvalentes) ? » Bien que ces deux qualités puissent sembler contradictoires, le potentiel de la solution a émergé. il s'avère très prometteur comme moyen de concilier ces deux qualités fondamentales mais apparemment incompatibles.

Chemin d'accès aux données synthétiques et à la pile de CV complète

La gestion des données est devenue le plus grand goulot détranglement dans le développement de lintelligence artificielle

La vision par ordinateur (CV) est l'un des principaux domaines de l'intelligence artificielle moderne

Produire des applications avec des applications spécifiques et économiser du temps et des ressources à La seule façon de visualiser les données d'entraînement est d'utiliser des données synthétiques. Pour ceux qui ne connaissent pas ce concept, les données synthétiques sont des informations générées par l’homme et conçues pour représenter fidèlement un équivalent du monde réel. En termes de données visuelles synthétiques, cela signifie des images 3D réalistes générées par ordinateur (CGI) sous la forme d’images fixes ou de vidéos.

En réponse aux nombreux problèmes apparus à l'ère des centres de données, une industrie émergente a commencé à se former autour de la génération de données synthétiques - un écosystème croissant de petites et moyennes startups proposant une variété de solutions exploitant les données synthétiques pour résoudre les problèmes énumérés ci-dessus une série de points douloureux.

Les solutions les plus prometteuses utilisent des algorithmes d'IA/ML pour générer des images 3D photoréalistes et générer automatiquement la vérité terrain associée (c'est-à-dire des métadonnées) pour chaque point de données. Les données synthétiques éliminent donc le processus manuel d’étiquetage et d’annotation qui dure souvent des mois, tout en éliminant également la possibilité d’erreur humaine et de biais.

Dans notre article (publié à NeurIPS 2021), Découvrir les biais de groupe dans la détection de repères faciaux à l'aide de données synthétiques, nous avons constaté que pour analyser les performances d'un modèle entraîné et identifier ses faiblesses, il est nécessaire de mettre de côté une partie des données. pour les tests. L'ensemble de tests doit être suffisamment grand pour détecter des écarts statistiquement significatifs par rapport à tous les sous-groupes pertinents au sein de la population cible. Cette exigence peut être difficile à satisfaire, en particulier dans les applications gourmandes en données.

Nous proposons de surmonter cette difficulté en générant des ensembles de tests synthétiques. Nous validons notre proposition en utilisant la tâche de détection de repères faciaux en montrant que tous les biais observés sur des ensembles de données réels peuvent également être observés sur des ensembles de données synthétiques bien conçus. Cela montre que les ensembles de tests synthétiques peuvent détecter efficacement les faiblesses du modèle et surmonter les limitations de taille ou de diversité des ensembles de tests réels.

Aujourd'hui, les startups fournissent aux équipes CV des entreprises des plates-formes de génération de données synthétiques en libre-service éprouvées qui atténuent les biais et permettent d'étendre la collecte de données. Ces plates-formes permettent aux équipes CV des entreprises de générer des données de formation spécifiques à un cas d'utilisation, de manière mesurée et à la demande, comblant ainsi le fossé entre spécificité et échelle qui rend les données traditionnelles impropres à l'infrastructure.

De nouveaux espoirs pour les soi-disant « gestionnaires de données » de la vision par ordinateur

Il est indéniable que nous vivons une période passionnante pour le domaine de la vision par ordinateur. Mais comme dans tout autre domaine en évolution, nous traversons une période difficile. De grands talents et des esprits brillants se précipitent dans un domaine plein d'idées et d'enthousiasme, pour se retrouver freinés par le manque de pipelines de données adéquats. Le domaine est tellement embourbé dans l’inefficacité que les data scientists sont aujourd’hui connus pour être un domaine dans lequel une organisation sur trois est déjà aux prises avec un déficit de compétences, et nous ne pouvons pas nous permettre de gaspiller de précieuses ressources humaines.

Les données synthétiques ouvrent la porte à une véritable infrastructure de données d'entraînement - un jour, cela pourrait être aussi simple que d'ouvrir le robinet pour un verre d'eau ou de fournir des calculs. Ce sera certainement un rafraîchissement bienvenu pour les gestionnaires de données du monde entier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer