Maison  >  Article  >  Périphériques technologiques  >  Principaux défis liés à l’utilisation des données en temps réel

Principaux défis liés à l’utilisation des données en temps réel

王林
王林avant
2023-04-13 08:07:071110parcourir

Principaux défis liés à l’utilisation des données en temps réel

L'analyse de données en temps réel a toujours représenté un défi pour ceux qui travaillent avec des modèles ML alors qu'ils cherchent à améliorer la précision de leurs inférences en utilisant les données les plus récentes.

Seules l'IA et le ML peuvent donner un sens à de grands volumes de données en streaming, car les données en temps réel sont fournies trop rapidement pour une analyse manuelle ou un logiciel traditionnel d'organisation des données. Mais si l’utilisation de données en temps réel constitue l’une des applications les plus précieuses des modèles ML, elle soulève plusieurs questions pour ceux qui cherchent à tirer parti de l’outil d’analyse des données.

Nous aborderons ensuite certains des principaux défis rencontrés par ceux qui tentent d'utiliser des données en temps réel et les moyens potentiels de les surmonter.

Dans quels cas d'utilisation les entreprises doivent-elles utiliser des données en streaming plutôt que des données par lots ? Dans l’ensemble, les flux de données peuvent être utilisés pour une prise de décision automatisée en temps réel, ce qui peut impliquer l’exploitation de modèles d’apprentissage automatique dans un environnement de production sur des ensembles de données complexes. Citons par exemple le trading algorithmique dans le trading à haute fréquence, la détection d'anomalies dans les dispositifs médicaux, la détection d'intrusion dans la cybersécurité ou les modèles de conversion/rétention du commerce électronique. Par conséquent, travailler avec des données par lots relève de « tout le reste », où la prise de décision et le contexte en temps réel ne sont pas aussi importants que d'avoir de grandes quantités de données à analyser. Par conséquent, travailler avec des données par lots entre dans la catégorie « tout le reste », où les décisions et le contexte en temps réel ne sont pas importants, mais où de grandes quantités de données sont analysées. Des exemples incluent la prévision de la demande, la segmentation des clients et l’attribution multi-touch.

Défis liés à l'utilisation de données en temps réel

Bien que l'utilisation de données en temps réel pour entraîner des modèles ML sur des flux de données continus présente l'avantage de s'adapter rapidement aux changements et de pouvoir économiser de l'espace de stockage de données, il existe également des défis. La conversion du modèle en données en temps réel peut entraîner une surcharge supplémentaire et ne pas fournir de résultats idéaux si ces défis ne sont pas correctement pris en compte.

Définition du temps réel

Travailler avec des données en temps réel présente plusieurs défis, à commencer par le concept même de données en temps réel. Différentes personnes ont des interprétations différentes du mot « temps réel ». Dans un environnement d'analyse, certains peuvent penser que le temps réel signifie obtenir des réponses immédiates, tandis que d'autres n'hésitent pas à attendre quelques minutes à partir du moment où les données sont collectées jusqu'à ce que le système d'analyse réponde.

Ces différentes définitions du temps réel peuvent conduire à des résultats peu clairs. Imaginons un scénario dans lequel les attentes et la compréhension de l’équipe de direction en matière d’analyse en temps réel diffèrent de celles de ceux qui la mettent en œuvre. Des définitions peu claires conduisent à une incertitude quant aux cas d'utilisation potentiels et aux activités commerciales (actuelles et futures) qui peuvent être abordées.

Vitesse constante des données et variation de capacité

De manière générale, les données en temps réel ne circulent pas à une vitesse ou un volume constant, et il est difficile de prédire comment elles se comporteront. Contrairement au traitement des données par lots, il n'est pas pratique de redémarrer constamment les tâches jusqu'à ce qu'un défaut soit découvert dans le pipeline. Les données circulant constamment, toute erreur de traitement peut avoir un effet domino sur les résultats.

La nature limitée de l’étape de traitement des données en temps réel entrave encore davantage les procédures de dépannage standard. Ainsi, même si les tests ne détectent pas toutes les erreurs inattendues, les nouvelles plates-formes de test peuvent mieux réguler et atténuer les problèmes.

Qualité des données

Obtenir des informations utiles à partir de données en temps réel dépend également de la qualité des données. Un manque de qualité des données peut avoir un impact sur l’ensemble du flux de travail analytique, tout comme une mauvaise collecte de données peut avoir un impact sur les performances de l’ensemble du pipeline. Il n’y a rien de pire que de tirer des conclusions commerciales à partir de données erronées.

En partageant les responsabilités et en démocratisant l'accès aux données, il est possible de mettre fortement l'accent sur l'exactitude, l'exhaustivité et l'exhaustivité des données. Une solution efficace garantira que chacun dans chaque fonction reconnaît la valeur de données précises et les encouragera à assumer la responsabilité du maintien de la qualité des données. De plus, pour garantir que seules des sources de données fiables sont utilisées, des procédures automatisées doivent être utilisées pour appliquer des politiques de qualité similaires aux données en temps réel, car cela réduit les efforts d'analyse inutiles.

Diverses sources et formats de données

En raison de la diversité des formats de données et du nombre croissant de sources de données, les pipelines de traitement des données en temps réel peuvent rencontrer des difficultés. Par exemple, dans le commerce électronique, les outils de surveillance des activités, les trackers d’activité électroniques et les modèles de comportement des consommateurs suivent tous l’activité Web dans le monde en ligne. De même, dans le secteur manufacturier, une grande variété d’appareils IoT sont utilisés pour collecter des données de performances provenant de divers appareils. Tous ces cas d'utilisation ont des méthodes de collecte de données différentes et souvent des formats de données différents.

En raison de ces changements de données, les modifications des spécifications de l'API ou les mises à jour du micrologiciel des capteurs peuvent provoquer des interruptions du streaming de données en temps réel. Pour éviter des analyses erronées et des problèmes potentiels futurs, les données en temps réel doivent tenir compte des situations dans lesquelles les événements ne peuvent pas être enregistrés.

Technologie obsolète

Diverses nouvelles sources d'informations créent des problèmes pour les entreprises. L'ampleur des processus actuels d'analyse des données entrantes a considérablement augmenté. La collecte et la préparation d'informations à l'aide d'un lac d'informations sur site ou dans le cloud peuvent nécessiter plus de tests que prévu.

Le problème provient en grande partie de l'utilisation de systèmes et de technologies hérités, qui nécessitent une armée toujours croissante de concepteurs et d'ingénieurs d'informations qualifiés pour acquérir et synchroniser les informations et créer les pipelines d'inspection nécessaires pour communiquer les informations aux applications.

Compte tenu des défis uniques liés au traitement des données en temps réel, les organisations doivent réfléchir aux outils qui les aideront à déployer et à gérer les modèles d'IA et de ML de la manière la plus efficace. Une interface facile à utiliser qui permet à tous les membres de l'équipe d'exploiter des métriques et des analyses en temps réel pour suivre, mesurer et contribuer à améliorer les performances du ML serait idéale.

Les fonctionnalités d'observabilité de base telles que les pistes d'audit en temps réel des données utilisées en production peuvent aider les équipes à identifier facilement les causes profondes des problèmes. En fin de compte, la compétitivité d'une entreprise peut dépendre de sa capacité à tirer des informations commerciales exploitables à partir de données en temps réel via des pipelines de traitement de données optimisés pour de grands volumes de données tout en offrant une visibilité sur les performances du modèle.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer