Parcours d'apprentissage Big Data
java(Java se,[mysql])
Linux (shell, architecture à haute concurrence, lucene, solr)
Hadoop (Hadoop, HDFS, Mapreduce, Yarn, Hive, hbase, sqoop, zookeeper, flume)
Apprentissage automatique (R, mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python , spark python) (apprentissage recommandé : Tutoriel vidéo Python)
Plateforme informatique (docker, kvm, openstack)
Explication du terme
Il y a de nombreux points auxquels les débutants doivent prêter attention lorsqu'ils apprennent le Big Data, mais quoi qu'il en soit, puisque vous avez choisi d'entrer dans l'industrie du Big Data, vous n'avez qu'à vous occuper des hauts et des bas. . Comme le dit le proverbe, n'oubliez jamais votre intention initiale et vous réussirez toujours. Ce dont vous avez le plus besoin pour apprendre le Big Data, c'est de persévérance.
bases de Javase [y compris MySQL], notez qu'il s'agit de Javase, pas de Javaee. La connaissance de javaweb n'est pas nécessaire pour les ingénieurs big data
Linux
lucene : Architecture du moteur de recherche en texte intégral
solr : Le complet -Le serveur de recherche de texte basé sur Lucene est configurable, évolutif, optimise les performances des requêtes et fournit une interface complète de gestion des fonctions.
Hadoop
HDFS : Système de stockage distribué, comprenant NameNode, DataNode. NameNode : métadonnées, DataNode. DataNode : stocke les données.
yarn : Il peut être compris comme le mécanisme de coordination de MapReduce, qui est essentiellement le mécanisme de traitement et d'analyse de Hadoop, divisé en ResourceManager et NodeManager.
MapReduce : Framework logiciel pour l'écriture de programmes.
Hive : L'entrepôt de données peut être interrogé avec SQL et peut exécuter des programmes Map/Reduce. Utilisé pour calculer des tendances ou des journaux de sites Web, et ne doit pas être utilisé pour des requêtes en temps réel car le retour des résultats prend beaucoup de temps.
HBase : Base de données. Il est très approprié pour l’interrogation en temps réel du Big Data. Facebook utilise Hbase pour stocker les données des messages et effectuer une analyse en temps réel des messages
ZooKeeper : un système de coordination fiable pour les messages distribués à grande échelle. La synchronisation distribuée de Hadoop est implémentée par Zookeeper, comme plusieurs NameNodes et la commutation de veille active.
Sqoop : Transférez des bases de données entre elles, des bases de données relationnelles et HDFS entre elles
Mahout : Bibliothèque extensible d'apprentissage automatique et d'exploration de données. Utilisé pour l’exploration de recommandations, l’agrégation, la classification et l’exploration fréquente d’ensembles d’éléments.
Chukwa : un système de collecte open source qui surveille les grands systèmes distribués, construit sur les frameworks HDFS et Map/Reduce. Afficher, surveiller et analyser les résultats.
Ambari : utilisé pour configurer, gérer et surveiller les clusters Hadoop, interface Web conviviale.
Cloudera
Cloudera Manager : surveillance de la gestion et intégration des diagnostics
Cloudera CDH : (distribution de Cloudera, y compris Apache Hadoop) Cloudera a apporté les modifications correspondantes à Hadoop Changed, la version finale s'appelle CDH.
Cloudera Flume : le système de collecte de journaux prend en charge la personnalisation de divers expéditeurs de données dans le système de journalisation pour collecter des données.
Cloudera Impala : fournit des requêtes directes et du SQL interactif pour les données stockées dans HDFS et HBase d'Apache Hadoop.
Cloudera hue : gestionnaire Web, comprenant hue ui, hui server, hui db. hue fournit des interfaces shell pour tous les composants CDH, et mr peut être écrit en hue.
Machine Learning/R
R : Langage et environnement d'exploitation pour l'analyse statistique et les graphiques, actuellement Hadoop-R
mahout : Fourni Implémentation évolutive de algorithmes classiques dans le domaine de l'apprentissage automatique, notamment le clustering, la classification, le filtrage des recommandations, l'exploration fréquente de sous-éléments, etc., et peuvent être étendus au cloud via Hadoop.
storm
Storm : un système informatique de streaming en temps réel distribué et tolérant aux pannes qui peut être utilisé pour l'analyse en temps réel, l'apprentissage automatique en ligne et le traitement des flux d'informations , et calcul continu RPC distribué, traitement des messages et mise à jour de la base de données en temps réel.
Kafka : un système de messagerie de publication-abonnement distribué à haut débit qui peut gérer toutes les données de streaming d'action (navigation, recherche, etc.) sur des sites Web grand public. Par rapport aux données de journalisation et à l'analyse hors ligne de Hadoop, un traitement en temps réel peut être réalisé. Actuellement, le mécanisme de chargement parallèle de Hadoop est utilisé pour unifier le traitement des messages en ligne et hors ligne.
Redis : écrit en langage C, il prend en charge le réseau, est une base de données clé-valeur de type journal qui peut être basée sur la mémoire et persistant.
Spark
Scala : un langage de programmation entièrement orienté objet similaire à Java.
jblas : Une bibliothèque d'algèbre linéaire rapide (JAVA). La mise en œuvre d'ATLAS ART est basée sur BLAS et LAPACK, la norme industrielle de facto pour les calculs matriciels, et utilise une infrastructure avancée pour toutes les procédures de calcul, ce qui la rend très rapide.
Spark : Spark est un framework parallèle général similaire à Hadoop MapReduce implémenté en langage Scala. En plus des avantages de Hadoop MapReduce, il est différent de MapReduce dans la mesure où les résultats de sortie intermédiaires des tâches peuvent être enregistrés en mémoire. , il n'est donc pas nécessaire de lire ou d'écrire HDFS, donc Spark est mieux adapté aux algorithmes MapReduce qui nécessitent des itérations, tels que l'exploration de données et l'apprentissage automatique. Il peut fonctionner en parallèle avec le système de fichiers Hadoop. Les frameworks de cluster tiers qui ont utilisé Mesos peuvent prendre en charge ce comportement.
Spark SQL : dans le cadre du framework Big Data Apache Spark, il peut être utilisé pour le traitement de données structurées et peut effectuer des requêtes de données Spark de type SQL
Spark Streaming : un framework informatique en temps réel basé sur Spark, étend la capacité de Spark à traiter les données en streaming Big Data.
Spark MLlib : MLlib est la bibliothèque d'implémentation de Spark pour les algorithmes d'apprentissage automatique couramment utilisés. Actuellement (2014.05), elle prend en charge la classification binaire, la régression, le clustering et le filtrage collaboratif. Il comprend également un algorithme de base d’optimisation de descente de gradient de bas niveau. MLlib s'appuie sur la bibliothèque d'algèbre linéaire jblas, et jblas lui-même s'appuie sur le programme Fortran distant.
Spark GraphX : GraphX est une API pour les graphiques et le calcul parallèle de graphiques dans Spark. Elle peut fournir une solution de données unique au-dessus de Spark et peut compléter un ensemble complet d'opérations de pipeline pour le calcul graphique. de manière pratique et efficace.
Fortran : le premier langage de programmation informatique de haut niveau, largement utilisé dans les domaines de l'informatique scientifique et technique.
BLAS : bibliothèque de sous-programmes d'algèbre linéaire de base, avec un grand nombre de programmes déjà écrits pour les opérations d'algèbre linéaire.
LAPACK : logiciel ouvert bien connu, permettant notamment de résoudre les problèmes d'algèbre linéaire numérique les plus courants dans les calculs scientifiques et techniques, tels que la résolution d'équations linéaires, de problèmes de moindres carrés linéaires, de problèmes de valeurs propres et de problèmes de valeurs singulières, etc.
ATLAS : Une version optimisée de la bibliothèque d'algorithmes linéaires BLAS.
Spark Python : Spark est écrit en langage scala, mais pour des raisons de promotion et de compatibilité, des interfaces Java et Python sont fournies.
Python
Python : un langage de programmation informatique interprété et orienté objet.
Plateforme de cloud computing
Docker : moteur de conteneur d'applications open source
kvm : (Clavier Vidéo Souris)
openstack : ouvert source Projet de plateforme de gestion du cloud computing
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!