Maison >Problème commun >Que devez-vous apprendre sur le Big Data ?

Que devez-vous apprendre sur le Big Data ?

藏色散人
藏色散人original
2019-05-09 11:51:2677130parcourir

Le Big Data est une série de méthodes de traitement permettant de stocker, de calculer, de statistiques et d'analyser d'énormes quantités de données. La quantité de données traitées est généralement de niveau To, voire de niveau PB ou EB, ce qui est hors de portée des données traditionnelles. méthodes de traitement des données. Achevées, les technologies impliquées comprennent l'informatique distribuée, le traitement à haute concurrence, le traitement à haute disponibilité, le clustering, l'informatique en temps réel, etc., qui regroupe les technologies informatiques les plus populaires dans le domaine informatique actuel.

Que devez-vous apprendre sur le Big Data ?

Que devez-vous apprendre sur le Big Data ?

1. Technologie de programmation Java

La technologie de programmation Java est la base de l'apprentissage du Big Data. Java est un langage fortement typé avec des capacités multiplateformes extrêmement élevées et peut écrire des applications de bureau, des applications Web, Les systèmes distribués et les applications de systèmes embarqués sont les outils de programmation préférés des ingénieurs Big Data. Par conséquent, si vous souhaitez bien apprendre le Big Data, maîtriser les bases de Java est essentiel !

2.Commandes Linux

Le développement du Big Data est généralement effectué dans l'environnement Linux. Par rapport au système d'exploitation Linux, le système d'exploitation Windows est un système d'exploitation fermé et les logiciels Big Data open source sont donc très limités si vous souhaitez vous lancer dans le Big Data. développement Pour les travaux connexes, vous devez également maîtriser les commandes de fonctionnement de base de Linux.

3. Hadoop

Hadoop est un cadre important pour le développement de Big Data. Son cœur est HDFS et MapReduce fournit le stockage de données massives, et MapReduce fournit des calculs pour des données massives. pour vous concentrer sur la maîtrise, vous devez également maîtriser les technologies et opérations associées telles que le cluster Hadoop, la gestion du cluster Hadoop, YARN et la gestion avancée Hadoop !

4. sur Hadoop Un outil d'entrepôt de données qui peut mapper des fichiers de données structurés dans une table de base de données et fournir des fonctions de requête SQL simples. Il peut convertir des instructions SQL en tâches MapReduce à exécuter, ce qui est très approprié pour l'analyse statistique des entrepôts de données. Pour Hive, vous devez maîtriser son installation, son application et ses opérations avancées.

5. Avro et Protobuf

Avro et Protobuf sont tous deux des systèmes de sérialisation de données qui peuvent fournir une variété de types de structures de données et sont très adaptés au stockage de données et à la communication entre différents formats d'échange de données. , pour apprendre le big data, il faut maîtriser son usage spécifique.

6.ZooKeeper

ZooKeeper est un composant important de Hadoop et Hbase. C'est un logiciel qui fournit des services cohérents pour les applications distribuées. Les fonctions fournies incluent : la maintenance de la configuration, le service de nom de domaine, la distribution. Synchronisation, services de composants, etc. Dans le développement Big Data, vous devez maîtriser les commandes courantes et les méthodes d'implémentation des fonctions de ZooKeeper.

7. HBase

HBase est une base de données open source distribuée et orientée colonnes. Elle est différente des bases de données relationnelles générales et est plus adaptée au stockage de données non structurées. Un système de stockage distribué fiable, performant, orienté colonnes et évolutif. Le développement de Big Data nécessite la maîtrise des connaissances de base, des applications, de l'architecture et de l'utilisation avancée de HBase.

8.phoenix

phoenix est un moteur SQL open source écrit en Java basé sur l'API JDBC pour faire fonctionner HBase. Il possède des colonnes dynamiques, un chargement de hachage, un serveur de requêtes, un suivi, des transactions. et personnalisation des utilisateurs Le développement de Big Data nécessite la maîtrise des principes et de l'utilisation des fonctions, des index secondaires, du mappage des espaces de noms, de la collecte de données, des colonnes d'horodatage des lignes, des requêtes de pagination, des requêtes de saut, des vues et des fonctionnalités multi-locataires.

9. Redis

Redis est un système de stockage clé-valeur. Son émergence a grandement compensé les lacunes du stockage clé/valeur tel que memcached. dans les bases de données relationnelles. Un très bon complément. Il fournit Java, C/C++, C#, PHP, JavaScript, Perl, Object-C, Python, Ruby, Erlang et d'autres clients. Il est très pratique à utiliser. l'installation et la configuration de Redis et les méthodes d'utilisation associées.

10. Flume

Flume est un système distribué hautement disponible et hautement fiable pour la collecte, l'agrégation et la transmission de journaux massifs. Flume prend en charge la personnalisation de divers expéditeurs de données dans le système de journalisation. les données ; en même temps, Flume offre la possibilité de traiter simplement les données et d'écrire vers différents destinataires de données (personnalisables). Le développement du Big data nécessite de maîtriser son installation, sa configuration et les méthodes d'utilisation associées.

11. SSM

Le framework SSM est une intégration de trois frameworks open source : Spring, SpringMVC et MyBatis. Il est souvent utilisé comme framework pour des projets Web avec des sources de données relativement simples. Le développement du Big data nécessite respectivement de maîtriser les trois frameworks Spring, SpringMVC et MyBatis, puis d'utiliser SSM pour les opérations d'intégration.

12.Kafka

Kafka est un système de messagerie de publication-abonnement distribué à haut débit. Son objectif dans le développement et les applications Big Data est d'unifier les processus en ligne via le mécanisme de chargement parallèle de Hadoop et les messages hors ligne. le traitement consiste également à fournir des messages en temps réel via le cluster. Le développement du Big data nécessite de maîtriser les principes de l'architecture Kafka, le rôle et l'utilisation de chaque composant, ainsi que la mise en œuvre des fonctions associées !

13. Scala

Scala est un langage de programmation multi-paradigmes, Développement Big Data L'important framework Spark est conçu en utilisant le langage Scala. Si vous souhaitez bien apprendre le framework Spark, il est essentiel d'avoir une base Scala. Par conséquent, le développement Big Data nécessite de maîtriser les connaissances de base de la programmation Scala !

14.Étincelle

Spark est un moteur de calcul rapide et polyvalent conçu pour le traitement de données à grande échelle. Il fournit un cadre complet et unifié pour gérer les besoins de traitement du Big Data pour divers ensembles de données et sources de données de différentes natures. bases, SparkJob, Spark RDD, déploiement de tâches Spark et allocation de ressources, Spark shuffle, gestion de la mémoire Spark, variables de diffusion Spark, Spark SQL, Spark Streaming et Spark ML et autres connaissances connexes.

15.Azkaban

Azkaban est un planificateur de tâches de flux de travail par lots qui peut être utilisé pour exécuter un ensemble de tâches et de processus dans un ordre spécifique au sein d'un flux de travail. Azkaban peut être utilisé pour effectuer des tâches volumineuses. La planification des tâches de données et le développement du Big Data nécessitent la maîtrise des règles de configuration et de syntaxe pertinentes d'Azkaban.

16. Python et analyse de données

Python est un langage de programmation orienté objet doté de bibliothèques riches, facile à utiliser et largement utilisé. Il est également utilisé dans le domaine du big data et peut principalement. être utilisé pour la collecte de données, l'analyse des données et la visualisation des données, etc. Par conséquent, le développement du Big Data nécessite l'apprentissage de certaines connaissances en Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn