Maison  >  Article  >  Périphériques technologiques  >  Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

PHPz
PHPzavant
2023-06-08 11:38:451184parcourir

#Cet article est produit par Tout le monde est le « Plan d'incitation original » d'un chef de produit.

Bien que les modèles d'IA à grande échelle soient désormais très populaires et que chaque entreprise en veuille une part, les algorithmes et les données impliqués dans la réalisation de ce processus ne sont pas anodins. Parmi eux, la transmission et la gestion des données constituent un gros problème. Cet article se concentre sur le goulot d'étranglement de la formation aux applications d'IA, résume les difficultés de la formation en IA et le combine avec les rapports d'analyse d'IDC pour conclure que les « données » constituent le plus grand goulot d'étranglement et envisage des solutions à ce problème.

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

1. Contexte du produit

"Récemment, des voix se sont élevées à nouveau pour discuter de l'IA. Contrairement à l'attitude attentiste à l'égard de l'IA au cours des deux dernières années, de nombreuses personnes disent qu'avec l'application de ChatGPT, l'ère de l'IA est vraiment arrivée, et le produit et les étudiants en opération sont occupés à comprendre ce qu'est ChatGPT, ce qu'est la diffusion stable, etc., mais les ingénieurs en algorithmes ont des maux de tête fous et se plaignent follement. Les dirigeants leur demandent de proposer de grands modèles dès que possible et d'améliorer le modèle d'algorithme. indicateurs et affaires de services dès que possible. En passant devant l'équipe d'algorithmes, j'ai entendu Zhang Gong et Hu Gong La conversation suivante :

.

Gong Zhang : Frère Hu, comment se passe votre formation de mannequin ?

Gong Hu : Oh, c'est difficile à expliquer en une phrase. Il n'y a pas de données. J'ai finalement soumis les données au service commercial, mais soit ils n'ont pas pu les collecter, soit les données qu'ils ont collectées étaient toutes différentes et ne pouvaient pas l'être. utilisé?

Gong Zhang : Qui ne l'est pas ? C'est pareil pour moi. Récemment, les photos et vidéos des clients s'élevaient à plus de 10 T. On nous a demandé de les envoyer nous-mêmes. Il a fallu beaucoup de temps à notre équipe rien que pour importer les données.

Gong Hu a déclaré que si l'entreprise peut créer une plate-forme de données qui nous permet d'obtenir et de gérer rapidement des données, il nous sera plus pratique d'utiliser les données dans notre travail quotidien. »

Après avoir entendu la conversation ci-dessus, j'ai eu une idée. La plate-forme de gestion de données que j'ai récemment construite pour les clients, basée sur l'idée du tissage de données, peut simplement résoudre leurs problèmes. Je leur ai donc rapidement présenté le produit en détail et leur ai expliqué comment le faire. Utiliser des « données ». Le concept de conception de « tissage » est utilisé pour créer une plate-forme de gestion de données afin d'aider les utilisateurs à surmonter le goulot d'étranglement des données dans la formation aux applications d'IA.

2. Difficultés dans l'application de la formation en IA

À l'exception des questions subjectives de personnel, nous résumons les difficultés objectives de la formation aux applications de l'IA, qui peuvent se résumer aux trois points suivants :

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Données de haute qualité : Pour obtenir de bons résultats dans la formation d'algorithmes, la première condition est des données de haute qualité. Cependant, la manière d'obtenir des données de haute qualité présente les difficultés suivantes :

.
  • Diversité des données : il existe des données structurées/non structurées dans de nombreux formats, et les données fournies par différents systèmes manquent de normes unifiées.
  • Distribution des données : de nombreuses données d'entreprise sont stockées discrètement et ne disposent pas d'une plate-forme de gestion des données unifiée. Il est difficile d'obtenir des données avant la formation des applications.
  • Annotation des données : les données peuvent être obtenues instantanément, mais une grande quantité de données commerciales doivent être annotées avant de pouvoir être appliquées, et l'annotation prend du temps et demande beaucoup de travail.

Puissance de calcul efficace : fait référence à la formation d'un modèle, qui nécessite généralement beaucoup de puissance de calcul. En même temps, il est difficile d'utiliser la puissance de calcul de manière efficace

.
  • À mesure que les grands modèles sont progressivement promus à tout moment, la taille du modèle devient de plus en plus grande et la demande de puissance de calcul augmente également rapidement.
  • Lorsque le stockage des données est discret, l'accès aux données ralentit. Même avec la puissance de calcul d'un cluster, lorsque le parallélisme n'est pas possible, la puissance de calcul ne sera pas appliquée efficacement.

Cadre mature : fait référence aux applications algorithmiques qui nécessitent des cadres algorithmiques matures, stables et hautement évolutifs

  • Cadre d'application : il existe actuellement de nombreux cadres d'algorithmes d'apprentissage en profondeur dans le pays et à l'étranger. Pour la recherche d'algorithmes (Pytorch) et les applications industrielles (Tensorflow), vous devez choisir différents cadres.
  • Conversion des données : en raison des différents frameworks et des différents langages utilisés, même si des données de haute qualité sont préparées, elles doivent être rapidement adaptées aux différents langages et frameworks de formation.

Résumé : D'après l'analyse des trois difficultés de la formation aux applications d'IA, elles sont toutes liées aux données, donc si le problème des données peut être résolu, cela peut efficacement aider la formation aux applications d'IA à surmonter le goulot d'étranglement.

3. Les données sont-elles le goulot d'étranglement des applications d'IA ?

Bien que la synthèse des données côté application soit le goulot d'étranglement de la formation aux applications d'IA, combien d'utilisateurs le pensent ? Une donnée est nécessaire pour illustrer.

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Classement des principaux enjeux des applications d'intelligence artificielle

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Quelle quantité de travail est investie dans la préparation des données lors du développement de modèles d'intelligence artificielle

Remarque : Les données proviennent du rapport statistique d'IDC

Les statistiques montrent que 29 % des utilisateurs estiment que les applications d'intelligence artificielle manquent de données de formation et de test, et 85 % des utilisateurs estiment qu'au moins la moitié de la charge de travail est consacrée à la préparation des données.

Résumé : Étant donné qu'il a été prouvé que les données constituent effectivement le goulot d'étranglement des applications d'IA, vous pouvez envisager de trouver un point d'entrée à partir des données pour fournir des normes unifiées et un accès rapide à de grandes quantités de sources de données hautement disponiblespour réaliser le produit. planification du positionnement.

4. Conception du produit

Après avoir trouvé les données comme point d'entrée, nous avons réfléchi à la manière de créer des produits basés sur les données. Sur la base de l'analyse ci-dessus, nous pouvons constater que nous devons résoudre 3 problèmes basés sur les données dans nos produits :

  • Question 1 : Stockage des données, essayez de ne pas modifier l'emplacement de stockage des données sources et minimisez le coût du stockage des données.
  • Question 2 : Accès rapide, idéal depuis la requête précoce de données jusqu'au raisonnement des données, recherchez rapidement les données requises.
  • Question 3 : Unifier les normes pour standardiser les données complexes pour une application facile.

Basé sur la plateforme traditionnelle de gestion de données, nous adoptons le concept de « tissage de données + graphe de connaissances » pour réaliser une conception révolutionnaire permettant de résoudre les problèmes ci-dessus. Les points marquants de chaque numéro sont les suivants :

  • Question 1 : Conception basée sur l'idée du tissage de données
  • Question 2 : Conception basée sur l'idée de graphe de connaissances
  • Question 3 : Fournir des services externes basés sur une plateforme de données unifiée

La prochaine étape est la conception détaillée du produit, qui sera introduite à partir du positionnement du produit, de l'architecture d'application, de la compétitivité différenciée et du chemin de construction.

1. Architecture du produit

1) Positionnement du produit

Fournir une plateforme de gestion de données de type graphe de connaissances basée sur l'idée du tissage de données pour servir les clients qui ont besoin de données de haute qualité.

Remarque : Bien que l'objectif principal soit de résoudre le goulot d'étranglement des données dans la formation aux applications d'IA, du point de vue de la planification du produit, nous avons élargi les scénarios d'utilisation, et toute personne ayant besoin de services de données est l'utilisateur cible de ce produit.

2) Architecture des applications produits

De la couche données à la couche application produit, nous concevons l'architecture produit suivante :

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Couche de données : prend en charge l'accès à différents types de données, ainsi qu'aux données structurées et non structurées. Il existe de nombreux types de données pour la formation en IA, en particulier les applications multimodales qui nécessitent plusieurs types de données.

Couche de stockage : compte tenu de la nature discrète des données, il est nécessaire de prendre en charge le stockage des données dans différents emplacements et de prendre en charge l'accès des données cloud aux données locales.

Plateforme de gestion de données : Le produit de base à concevoir cette fois comprend principalement quatre parties :

  1. Gouvernance des données : un module commun dont disposent les plateformes de gestion de données traditionnelles, fournissant des fonctions telles que l'analyse des données, le nettoyage et la définition de règles.
  2. Sécurité des données : C'est également un module traditionnel et fournit des fonctions liées à la sécurité des données, telles que la désensibilisation des données, la transmission sécurisée des données, etc.
  3. Stockage de virtualisation des données et cache distribué : ici, l'idée du tissage de données est utilisée pour tisser des données provenant de différentes plates-formes afin de former une vue de données. En même temps, seules les informations logiques des données stockées sont virtualisées, sans. la migration et la copie réduisent les coûts de stockage ; cependant, afin d'obtenir des données rapidement, un cache distribué est fourni dans la conception pour mettre en cache les données fréquemment consultées, améliorer la vitesse d'E/S et le parallélisme des données pour la formation des algorithmes d'IA et maximiser le calcul. puissance. forcer l’efficacité du cluster.
  4. Graphique de connaissances : nettoyer les données, définir les règles, les stocker sous forme de triplets de graphe de connaissances et fournir des services de requête externes sous forme de graphe de connaissances. Le graphe de connaissances est propice au raisonnement de recherche et peut être transmis via une entité. Les données sont associées à d'autres données d'entité. Par exemple, si vous interrogez les données vidéo du film, vous pouvez rechercher « Personnes sur la route » et les acteurs « Wang Baoqiang » et « Xu Zheng » seront associés à « Tai囧 ». ". Grâce à la requête d'inférence d'association, vous pouvez aider les utilisateurs sur la plateforme. Extrayez rapidement les données requises.

Services Data : Après la conception de la plateforme, il est nécessaire de réserver un débouché aux services externes. A partir du positionnement du produit, elle est principalement axée sur les clients toB, il faut donc considérer à la fois les services visuels et les services API.

  • Service API/SDK : Pour les entreprises ou les utilisateurs disposant de capacités techniques, telles que le goulot d'étranglement des applications de formation IA que cet article veut résoudre, vous pouvez directement intégrer la plateforme IA au service API de la plateforme de données pour obtenir le données requises et utiliser les données nettoyées pour la formation du modèle. Remarque : Généralement, les plateformes de formation IA nécessitent des données annotées, vous pouvez donc d'abord connecter la plateforme d'annotation, puis transmettre directement les données à la plateforme de formation IA.
  • Requête visuelle : en plus de prendre en compte le niveau technique d'amarrage, nous devons bien sûr également prendre en compte le comportement des utilisateurs professionnels, tels que l'interrogation et le téléchargement de données sur la plate-forme, tels que les chefs de produit et les responsables des opérations sur lesquels ils doivent s'appuyer. la requête visuelle fournie par la plateforme elle-même. Après avoir récupéré et téléchargé les données, importez-les. D'autres plateformes commerciales sont utilisées pour le traitement et la production. La requête visuelle adopte une structure graphique et utilise le style Tianyancha comme référence. , les données associées sont présentées en même temps pour faciliter l'inférence et l'interrogation de l'utilisateur.

Application industrielle de l’IA : le tissage de données contribue à des percées dans la formation aux applications d’IA

Remarque : les captures d'écran de Tianyancha sont uniquement à titre de référence d'apprentissage

2.Commercialisation

Une fois le produit lancé, la commercialisation n'est pas disponible, l'orientation de la commercialisation doit donc être clairement considérée lors de la phase de planification du produit, et les trois aspects clés suivants doivent être pris en compte :

1) Contenu à vendre

Pour les clients B-end, nous proposons deux types de contenus commerciaux, dont les produits standards « plateforme de gestion de données » et les « solutions techniques ».

  • Produits standards : Pour les utilisateurs sans plateforme de gestion de données, les utilisateurs n'ont qu'à acheter nos produits standards, accéder aux données, puis les appliquer dans leur entreprise, prêts à l'emploi.
  • Solutions techniques : Après l'impact de la tendance à la transformation numérique, de nombreuses entreprises clientes du côté B disposeront plus ou moins de leurs propres plateformes de gestion de données. Par conséquent, un autre argument de vente de toB est de vendre des solutions techniques matures, qui sont bénéfiques. à l'entreprise actuelle.Certains produits sont en cours de transformation et de mise à niveau.À l'heure actuelle, nous devons transformer les produits clients de la couche inférieure à la couche de service sur la base de l'idée de conception « tissage de données + graphique de connaissances ».

2) Méthode de vente

Les deux modèles de vente courants pour les produits B-end sont la « coopération de canal » et la « vente directe », et ces méthodes sont également utilisées dans ce produit.

  • Coopération de canal : deux types de coopération de canal sont sélectionnés. L'un est celui des agents dans les préfectures et les villes, qui en feront la promotion localement ; l'autre est le modèle ISV, où l'on trouve un agent centralisé doté de capacités techniques et la plate-forme de gestion des données. intégrés aux leurs. La coopération en matière de produits peut compléter les avantages de chacun et les promouvoir ensemble auprès du monde extérieur.
  • Ventes directes : Ventes directes de produits via des lancements de produits, des promotions publicitaires, des visites clients, etc.

3) Avantages de la différenciation

Puisqu'il s'agit d'une plateforme de gestion de données basée sur de nouvelles idées de conception, pendant le processus de vente de produits, elle doit refléter les avantages différenciés des plateformes de gestion de données traditionnelles afin de rattraper son retard et d'attirer les utilisateurs. Nous pouvons la résumer comme suit. 3 points Avantage :

  • Tissage de données : ce produit utilise l'idée du tissage de données pour la gestion des données et utilise le stockage de virtualisation des données pour réduire le coût de stockage physique des données. En même temps, il utilise la mise en cache des données pour réduire le délai d'accès à l'obtention ; données pendant la formation aux applications d’IA.
  • Capacités de l'IA : différent de la méthode traditionnelle de récupération de la plateforme de données à travers diverses conditions, ce produit est directement présenté sous la forme d'une vue graphique de connaissances. L'utilisateur ne peut saisir qu'une condition simple et le système peut renvoyer les relations de données pertinentes. . La topologie réalise « trouver des personnes grâce aux données ».
  • Produits standards matures : Bien que vous puissiez vendre des solutions techniques, il est difficile d'impressionner les clients sans produits standards matures. Par conséquent, contrairement aux fabricants traditionnels qui vendent des plates-formes de gestion de données volumineuses et complètes, nous vendons des plates-formes « petites mais raffinées ». plateforme intelligente de gestion des données.
3. Construire des chemins

La maturité du produit nécessite également un chemin de construction continu Lors du processus de construction de ce produit, il s'appuie sur des « produits de polissage de projet » et est construit en deux grandes étapes.

  • Livraison du projet, précipitation technologique : En entreprenant des projets de données à moitié privatisés, les idées de tissage de données et de construction de graphes de connaissances sont précipitées dans le projet et la précipitation technologique est obtenue.
  • Mise en œuvre du produit et promotion de la marque : faites abstraction des produits de projets réels et mettez-les en œuvre de manière itérative. Après avoir construit le produit, marquez-le et faites-en la promotion en externe.
5.

Cet article se concentre sur le goulot d'étranglement de la formation aux applications d'IA, résume les difficultés de la formation en IA et le combine avec les rapports d'analyse d'IDC pour conclure que les « données » sont le plus gros goulot d'étranglement et envisage des solutions à ce problème.

Sur la base des concepts de tissage de données et de graphe de connaissances, la conception de la transformation du produit est réalisée. Une plate-forme intelligente de gestion des données pour les « personnes qui recherchent des données » est présentée en détail du point de vue du positionnement du produit, de l'architecture du produit et de l'application. scénarios, etc., et le produit est également introduit. Les idées de promotion commerciale et les voies de construction ultérieures peuvent aider les clients avec des scénarios d'application de données, tels que les plates-formes de formation d'IA, les plates-formes d'annotation de données, et même les clients qui ont besoin de transformer et de mettre à niveau la gestion traditionnelle des données. produits.

À l'avenir, nous explorerons plus en détail l'idée d'étendre le tissage des données au processus réel de formation parallèle de modèles afin de rechercher une plus grande faisabilité de l'efficacité des données.

Chroniqueur

Eric_d, tout le monde est chroniqueur chef de produit. Je suis passionné par l'IA, le big data et d'autres domaines. J'ai d'excellentes compétences en analyse des besoins, en processus de produits et en conception d'architecture. J'aime aussi la randonnée.

Cet article est produit par Tout le monde est le « Plan d'incitation original » d'un chef de produit.

L'image du titre provient d'Unsplash, basée sur l'accord CC0.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer