Maison >Problème commun >Quels sont les quatre bons sens essentiels pour se lancer dans le big data ?

Quels sont les quatre bons sens essentiels pour se lancer dans le big data ?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼original
2019-07-25 17:11:292459parcourir

Quels sont les quatre bons sens essentiels pour se lancer dans le big data ?

Quatre bons sens essentiels pour se lancer dans le Big Data

Un travail très important pour les ingénieurs Big Data est de passer Analyser les données pour trouver les caractéristiques des événements passés. Par exemple, l'équipe de données de Tencent construit un entrepôt de données pour trier les informations de données volumineuses et irrégulières sur toutes les plates-formes réseau de l'entreprise et résumer les caractéristiques qui peuvent être interrogées pour répondre aux besoins en données des différentes activités de l'entreprise, y compris le placement publicitaire. développement de jeux, réseaux sociaux, etc.

1. Cinq aspects fondamentaux de l'analyse du Big Data

1 Analyse visuelle

Les utilisateurs de l'analyse du Big Data comprennent des experts en analyse du Big Data. également les utilisateurs ordinaires, mais leur exigence la plus fondamentale pour l'analyse du Big Data est l'analyse visuelle, car l'analyse visuelle peut présenter intuitivement les caractéristiques du Big Data et peut être facilement acceptée par les lecteurs, aussi simple et claire que de parler à travers des images.

2. Algorithme d'exploration de données

Le noyau théorique de l'analyse du Big Data est l'algorithme d'exploration de données. Divers algorithmes d'exploration de données sont basés sur différents types et formats de données pour présenter les données elles-mêmes de manière plus scientifique. C'est précisément grâce à ces diverses méthodes statistiques (que l'on peut appeler vérité) reconnues par les statisticiens du monde entier qu'ils peuvent approfondir les données et dénicher des valeurs reconnues. Un autre aspect est que ces algorithmes d’exploration de données peuvent traiter le Big Data plus rapidement. Si un algorithme met plusieurs années à parvenir à une conclusion, il sera alors impossible de déterminer la valeur du Big Data.

3. Capacités d'analyse prédictive

L'un des derniers domaines d'application de l'analyse du Big Data est l'analyse prédictive. L'extraction des caractéristiques du Big Data et l'établissement scientifique de modèles peuvent ensuite apporter de nouvelles données via le modèle. prédire les données futures.

4. Moteur sémantique

L'analyse des mégadonnées est largement utilisée dans l'exploration de données en réseau. Elle peut analyser et juger les besoins des utilisateurs à partir des mots-clés de recherche, des mots-clés de balises ou d'autres sémantiques d'entrée, de manière à ce que pour obtenir une meilleure expérience utilisateur et une meilleure correspondance publicitaire.

5. Qualité des données et gestion des données

L'analyse du Big Data est indissociable de la qualité et de la gestion des données. Des données de haute qualité et une gestion efficace des données, que ce soit dans le domaine de la recherche universitaire ou des applications commerciales, peuvent être obtenues. garantir que les résultats de l’analyse sont véridiques et précieux. La base de l'analyse du Big Data repose sur les cinq aspects ci-dessus. Bien sûr, si vous approfondissez l'analyse du Big Data, il existe de nombreuses méthodes d'analyse du Big Data plus distinctives, approfondies et professionnelles.

2. Comment choisir les outils d'analyse de données adaptés

Pour comprendre quelles données analyser, il existe quatre principaux types de données à analyser dans le big data :

DONNÉES DE TRANSACTION

La plate-forme Big Data peut obtenir des quantités de plus en plus grandes de données de transaction structurées, de sorte qu'un plus large éventail de types de données de transaction puisse être analysé, pas seulement les données d'achat sur les points de vente ou le commerce électronique. inclut des données de transactions comportementales, telles que les journaux de données de flux de clics Internet enregistrés par les serveurs Web.

DONNÉES GÉNÉRÉES PAR L'HUMAIN

Les données non structurées existent largement dans les e-mails, les documents, les images, les audios, les vidéos, ainsi que les données générées via les blogs, les wikis, en particulier les flux de médias sociaux. Ces données constituent une riche source de données pour l'analyse à l'aide des capacités d'analyse de texte.

DONNÉES MOBILES

Les smartphones et tablettes avec accès à Internet sont de plus en plus courants. Les applications sur ces appareils mobiles sont capables de suivre et de communiquer d'innombrables événements, depuis les données de transaction dans l'application (telles que l'enregistrement d'une recherche d'un produit) jusqu'aux événements de rapport de profil ou de statut (tels qu'un changement d'emplacement signalant un nouveau géocode).

DONNÉES DES MACHINES ET DES CAPTEURS

Cela inclut les données créées ou générées par des appareils fonctionnels, tels que les compteurs intelligents, les contrôleurs de température intelligents, les machines d'usine et les appareils électroménagers connectés à Internet. Ces appareils peuvent être configurés pour communiquer avec d'autres nœuds de l'inter-réseau et peuvent également transmettre automatiquement des données à un serveur central afin que les données puissent être analysées. Les données des machines et des capteurs sont d’excellents exemples issus de l’émergence de l’Internet des objets (IoT). Les données de l'IoT peuvent être utilisées pour créer des modèles analytiques, surveiller en permanence le comportement prédictif (par exemple, identifier le moment où les valeurs des capteurs indiquent un problème) et fournir des instructions prescrites (par exemple, alerter les techniciens pour qu'ils inspectent l'équipement avant qu'un problème réel ne survienne).

Recommandations associées : "FAQ"

3. Comment distinguer trois professions populaires du Big Data : data scientist, data Engineer, Data Analyst

À mesure que le Big Data devient de plus en plus populaire, les carrières liées au Big Data sont également devenues populaires, offrant de nombreuses opportunités de développement des talents. Les data scientists, les ingénieurs de données et les analystes de données sont devenus les postes les plus populaires dans l'industrie du Big Data. Comment sont-ils définis ? À quoi sert-il exactement ? Quelles sont les compétences requises ?

Comment se positionnent ces trois métiers ?

Comment est un data scientist

Les data scientists font référence aux ingénieurs qui peuvent utiliser des méthodes scientifiques et des outils d'exploration de données pour reproduire et comprendre numériquement des quantités complexes et importantes de nombres, de symboles, de texte, d'URL, d'informations audio ou vidéo, et peuvent trouver de nouvelles informations expertes. (différent du statisticien ou de l’analyste).

Comment est défini un ingénieur de données ?

Un ingénieur de données est généralement défini comme un « ingénieur logiciel vedette possédant une compréhension approfondie du sujet des statistiques ». Si vous êtes confronté à un problème commercial, vous avez besoin d'un ingénieur de données. Leur valeur fondamentale réside dans leur capacité à créer des pipelines de données à partir de données propres. Une parfaite compréhension des systèmes de fichiers, de l'informatique distribuée et des bases de données sont des compétences nécessaires pour devenir un excellent ingénieur de données.

Les ingénieurs de données ont une assez bonne compréhension des algorithmes. Par conséquent, les ingénieurs de données doivent être capables d’exécuter des modèles de données de base. Les besoins des entreprises haut de gamme ont donné lieu à des calculs très complexes. Souvent, ces besoins dépassent la portée des connaissances de l'ingénieur de données. À ce stade, vous devez faire appel à un data scientist pour obtenir de l'aide.

Comment comprendre les analystes de données

Les analystes de données font référence à des personnes de différents secteurs qui se spécialisent dans la collecte, l'organisation et l'analyse de données industrielles, et dans la prise de décisions industrielles basées sur les données. Des professionnels qui recherchent, évaluent et prévoient. Ils savent poser les bonnes questions et sont très bons en analyse, visualisation et présentation de données.

Quelles sont les responsabilités spécifiques de ces 3 métiers

Les responsabilités professionnelles des data scientists

Les data scientists ont tendance à regarder le monde environnant en explorant monde des données. Pour transformer une grande quantité de données dispersées en données structurées pouvant être analysées, il est également nécessaire de trouver des sources de données riches, d'intégrer d'autres sources de données éventuellement incomplètes et de nettoyer l'ensemble de données résultant. Dans le nouvel environnement concurrentiel, les défis évoluent constamment et de nouvelles données affluent constamment. Les data scientists doivent aider les décideurs à parcourir diverses analyses, de l'analyse de données temporaires à l'analyse continue des interactions de données. Lorsqu’ils font des découvertes, ils communiquent leurs conclusions et suggèrent de nouvelles orientations commerciales. Ils présentent les informations visuelles de manière créative et rendent les modèles qu'ils trouvent clairs et convaincants. Suggérer au patron les modèles contenus dans les données pour influencer les produits, les processus et les décisions.

Responsabilités professionnelles des ingénieurs de données

Analyser l'histoire, prédire l'avenir et optimiser les choix sont les trois tâches les plus importantes des ingénieurs Big Data lorsqu'ils « jouent avec les données ». A travers ces trois axes de travail, ils aident les entreprises à prendre de meilleures décisions commerciales.

Un travail très important des ingénieurs Big Data consiste à découvrir les caractéristiques des événements passés en analysant les données. Par exemple, l'équipe de données de Tencent construit un entrepôt de données pour trier les informations de données volumineuses et irrégulières sur toutes les plates-formes réseau de l'entreprise et résumer les caractéristiques qui peuvent être interrogées pour répondre aux besoins en données des différentes activités de l'entreprise, y compris le placement publicitaire. développement de jeux, réseaux sociaux, etc.

Le rôle le plus important de la découverte des caractéristiques des événements passés est d'aider les entreprises à mieux comprendre les consommateurs. En analysant la trajectoire comportementale passée de l’utilisateur, vous pouvez comprendre cette personne et prédire son comportement.

En introduisant des facteurs clés, les ingénieurs Big Data peuvent prédire les futures tendances de consommation. Sur la plateforme marketing d’Alimama, les ingénieurs tentent d’aider les vendeurs Taobao à faire des affaires en introduisant des données météorologiques. Par exemple, si cet été n’est pas chaud, il est fort probable que certains produits ne se vendront pas aussi bien que l’année dernière. Outre les climatiseurs et les ventilateurs, les gilets, les maillots de bain, etc. pourraient également être concernés. Ensuite, nous établirons la relation entre les données météorologiques et les données de vente, trouverons les catégories associées et alerterons les vendeurs à l'avance pour qu'ils renouvellent leurs stocks.

En fonction de la nature commerciale des différentes entreprises, les ingénieurs Big Data peuvent atteindre différents objectifs grâce à l'analyse des données. Pour Tencent, l’exemple le plus simple et le plus direct qui reflète le travail des ingénieurs Big Data est le test d’options (AB Test), qui aide les chefs de produit à choisir entre les alternatives A et B. Dans le passé, les décideurs ne pouvaient porter des jugements que sur la base de leur expérience, mais désormais les ingénieurs Big Data peuvent effectuer des tests en temps réel à grande échelle. Par exemple, dans l'exemple des produits de réseaux sociaux, laissez la moitié des utilisateurs voir l'interface A et l'autre moitié utilise l'interface B pour observer les statistiques des taux de clics et des taux de conversion sur une période donnée aideront le service marketing à faire le choix final.

Responsabilités professionnelles des analystes de données

Internet lui-même présente les caractéristiques de la numérisation et de l'interactivité. Cet attribut a révolutionné la collecte de données, l'organisation et la recherche. Dans le passé, les analystes de données du « monde atomique » devaient dépenser des sommes plus élevées (fonds, ressources et temps) pour obtenir des données nécessaires à la recherche et à l'analyse. La richesse, l'exhaustivité, la continuité et l'actualité des données étaient bien pires que sur Internet. ère.

Par rapport aux analystes de données traditionnels, les analystes de données de l'ère Internet ne sont pas confrontés à un manque de données, mais à un excédent de données. Par conséquent, les analystes de données à l’ère d’Internet doivent apprendre à utiliser des moyens techniques pour effectuer un traitement efficace des données. Plus important encore, les analystes de données à l’ère d’Internet doivent continuer à innover et à faire des percées dans les méthodologies de recherche de données.

En termes d'industrie, la valeur des analystes de données est similaire à celle-ci. En ce qui concerne l'industrie de l'édition d'informations, quelle que soit l'époque, la capacité des opérateurs médiatiques à comprendre de manière précise, détaillée et opportune la situation de l'audience et l'évolution des tendances est la clé du succès ou de l'échec des médias.

En outre, pour les secteurs du contenu tels que l'information et l'édition, il est encore plus essentiel que les analystes de données puissent jouer le rôle d'analyse des données sur les consommateurs de contenu, qui est une fonction clé pour aider les organisations d'information et d'édition à améliorer leurs clients. service.

Quelles compétences devez-vous maîtriser pour vous engager dans ces 3 carrières ?

A. Compétences que les data scientists doivent maîtriser

1, L'informatique. Science

De manière générale, les data scientists doivent pour la plupart avoir une formation professionnelle liée à la programmation et à l'informatique. En termes simples, ce sont les compétences liées aux technologies de traitement parallèle à grande échelle telles que Hadoop et Mahout et au machine learning qui sont nécessaires au traitement du Big Data.

2. Mathématiques, statistiques, exploration de données, etc.

En plus des connaissances en mathématiques et en statistiques, vous devez également avoir les compétences nécessaires pour utiliser les logiciels d'analyse statistique traditionnels tels que SPSS et SAS. . Parmi eux, le langage de programmation open source et son environnement d'exploitation « R » pour l'analyse statistique ont récemment attiré beaucoup d'attention. La force de R réside non seulement dans le fait qu’il contient une riche bibliothèque d’analyses statistiques, mais également dans ses capacités de génération de graphiques de haute qualité pour visualiser les résultats, qui peuvent être exécutés via des commandes simples. De plus, il dispose également d'un mécanisme d'extension de package appelé CRAN (The Comprehensive R Archive Network). En important le package d'extension, vous pouvez utiliser des fonctions et des ensembles de données qui ne sont pas pris en charge dans l'état standard.

3. Visualisation des données (Visualisation)

La qualité de l'information dépend en grande partie de son expression. Il est très important pour les data scientists d'analyser la signification contenue dans les données composées de listes numériques, de développer des prototypes Web et d'utiliser des API externes pour unifier les graphiques, les cartes, les tableaux de bord et autres services afin de visualiser les résultats de l'analyse.

B. Compétences que les ingénieurs de données doivent maîtriser

1 Formation liée aux mathématiques et aux statistiques

Les exigences pour les ingénieurs Big Data sont qu'ils espèrent avoir une formation en statistiques. et mathématiques. Les travailleurs qui manquent de connaissances théoriques sont plus susceptibles d'entrer dans une zone de danger technique (zone de danger) - un tas de chiffres peuvent toujours produire des résultats selon différents modèles de données et algorithmes, mais si vous ne savez pas ce qu'ils signifient, c'est ce n’est pas un résultat vraiment significatif, et un tel résultat peut facilement vous induire en erreur. Ce n'est qu'avec certaines connaissances théoriques que nous pouvons comprendre les modèles, les réutiliser et même innover pour résoudre des problèmes pratiques.

2. Capacité de codage informatique

Les capacités de développement réelles et les capacités de traitement de données à grande échelle sont des éléments essentiels pour un ingénieur Big Data. Étant donné que la valeur d’une grande partie des données provient du processus d’extraction, vous devez le faire vous-même pour découvrir la valeur de l’or. Par exemple, de nombreux enregistrements générés par les personnes sur les réseaux sociaux sont désormais des données non structurées. Comment extraire des informations significatives de ces textes, voix, images et même vidéos ignorants nécessite que les ingénieurs du Big Data les extraient eux-mêmes. Même dans certaines équipes, les responsabilités des ingénieurs Big Data sont principalement l'analyse commerciale, mais ils doivent également être familiers avec la manière dont les ordinateurs traitent le Big Data.

3. Connaissance de domaines d'application ou d'industries spécifiques

Un point très important concernant le rôle d'ingénieur Big Data est qu'il ne peut pas être séparé du marché, car le Big Data ne peut être généré que lorsque combiné avec des applications dans des domaines de valeur spécifiques. Par conséquent, une expérience dans un ou plusieurs secteurs verticaux peut aider les candidats à accumuler des connaissances du secteur, ce qui sera d'une grande aide pour devenir un ingénieur Big Data à l'avenir. C'est donc également un bonus plus convaincant pour postuler à ce poste.

C. Compétences que les analystes de données doivent maîtriser

1. La condition préalable pour s'engager dans un travail d'analyse de données est de comprendre l'entreprise, c'est-à-dire d'être familier avec les connaissances du secteur, les activités et les processus de l'entreprise, et il est préférable d'avoir vos propres connaissances uniques si vous êtes séparé des connaissances du secteur et de l'expérience commerciale de l'entreprise. , les résultats de l'analyse seront uniquement hors ligne. Les cerfs-volants n'ont pas beaucoup de valeur d'usage.

2. Comprendre la gestion. D'une part, il est nécessaire de construire un cadre d'analyse des données. Par exemple, pour déterminer les idées d'analyse, vous devez utiliser des connaissances théoriques en matière de marketing, de gestion et d'autres. Il sera difficile de construire un cadre d'analyse des données, et l'analyse ultérieure des données sera également difficile à réaliser . D'autre part, le rôle est de fournir des suggestions d'analyse instructives basées sur les conclusions de l'analyse des données.

3. Comprendre l'analyse. Il s'agit de maîtriser les principes de base de l'analyse des données et certaines méthodes efficaces d'analyse des données, et d'être capable de les appliquer de manière flexible à des travaux pratiques afin de réaliser efficacement l'analyse des données. Les méthodes d'analyse de base comprennent : l'analyse comparative, l'analyse de groupe, l'analyse croisée, l'analyse structurelle, l'analyse de diagramme en entonnoir, l'analyse d'évaluation complète, l'analyse factorielle, l'analyse de corrélation matricielle, etc. Les méthodes d'analyse avancées comprennent : l'analyse de corrélation, l'analyse de régression, l'analyse groupée, l'analyse discriminante, l'analyse en composantes principales, l'analyse factorielle, l'analyse des correspondances, les séries chronologiques, etc.

4. Comprendre les outils. Désigne la maîtrise des outils courants liés à l’analyse des données. Les méthodes d'analyse des données sont des théories, et les outils d'analyse des données sont des outils permettant de mettre en œuvre la théorie des méthodes d'analyse des données. Face à des quantités de données de plus en plus importantes, nous ne pouvons pas compter sur des calculatrices pour l'analyse. Nous devons nous appuyer sur des outils d'analyse de données puissants pour nous aider à compléter l'analyse des données. travail.

5. Comprendre le design. Comprendre la conception signifie utiliser des graphiques pour exprimer efficacement les vues analytiques de l’analyste de données afin que les résultats de l’analyse soient clairs en un coup d’œil. La conception de graphiques est un sujet majeur, tout comme le choix des graphiques, la mise en page, la correspondance des couleurs, etc., qui nécessitent tous la maîtrise de certains principes de conception.

4. Un plan de développement en 9 étapes pour devenir un data scientist à partir d'un débutant

Tout d'abord, chaque entreprise a des définitions différentes des data scientists, et il existe actuellement aucune définition unifiée. Mais en général, un data scientist combine les compétences d’un ingénieur logiciel avec celles d’un statisticien et possède des connaissances industrielles importantes investies dans le domaine dans lequel il souhaite travailler.

Environ 90 % des data scientists ont au moins une formation collégiale, voire un doctorat, et bien sûr, les domaines dans lesquels ils obtiennent leurs diplômes sont très larges. Certains recruteurs trouvent même que les diplômés en sciences humaines possèdent la créativité nécessaire pour enseigner aux autres des compétences essentielles.

Donc, à l'exception d'un programme menant à un diplôme en science des données (qui pousse comme des champignons dans les universités prestigieuses du monde entier), quelles étapes devez-vous suivre pour devenir un data scientist

Révisez vos compétences mathématiques et statistiques

Un bon data scientist doit être capable de comprendre ce que les données vous disent, et pour ce faire, vous devez avoir une solide compréhension de l'algèbre linéaire de base, une compréhension de algorithmes et compétences statistiques. Des mathématiques avancées peuvent être nécessaires dans certaines situations spécifiques, mais c'est un bon point de départ.

Comprendre le concept de machine learning

Le machine learning est le prochain mot émergent, mais il est inextricablement lié au big data. L'apprentissage automatique utilise des algorithmes d'intelligence artificielle pour transformer les données en valeur sans programmation explicite.

Apprendre à coder

Les data scientists doivent savoir comment modifier le code pour indiquer aux ordinateurs comment analyser les données. Commencez avec un langage open source comme Python.

Comprendre les bases de données, les pools de données et le stockage distribué

Les données sont stockées dans des bases de données, des pools de données ou des réseaux distribués entiers. Et la manière de créer un référentiel de ces données dépend de la manière dont vous accédez, utilisez et analysez ces données. Si vous ne disposez pas d’une architecture globale ou d’une planification préalable lors de la création de votre stockage de données, les conséquences pour vous seront profondes.

Apprenez les techniques de modification et de nettoyage des données

La modification des données est le processus de conversion des données brutes dans un autre format plus facile d'accès et d'analyse. Le nettoyage des données permet d'éliminer les données en double et « mauvaises ». Les deux sont des outils essentiels dans la boîte à outils d’un data scientist.

Apprenez les bases d'une bonne visualisation et création de rapports de données

Vous n'avez pas besoin d'être graphiste, mais vous devez avoir une solide compréhension de la façon de créez des rapports de données accessibles au profane. Des personnes comme votre manager ou votre PDG peuvent comprendre.

Ajoutez plus d'outils à votre boîte à outils

Une fois que vous maîtrisez les compétences ci-dessus, il est temps d'élargir votre boîte à outils de science des données pour inclure Hadoop, R Language et Spark. L'expérience et la connaissance de l'utilisation de ces outils vous placeront au-dessus du large bassin de demandeurs d'emploi en science des données.

Pratique

Comment s'entraîner à être un data scientist avant d'obtenir un emploi dans un nouveau domaine Utiliser le code open source pour développer un projet que vous aimez, participer à des concours ? , Devenez un data scientist travaillant sur le Web, participez à un bootcamp, faites du bénévolat ou un stagiaire. Les meilleurs data scientists auront de l'expérience et de l'intuition dans le domaine des données et pourront démontrer leur travail pour devenir candidats.

Devenez membre de la communauté

Suivez les leaders d'opinion de votre secteur, lisez les blogs et les sites Web de l'industrie, engagez-vous, posez des questions et restez informé des actualités et des théories actuelles. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn