Maison >Problème commun >Quelle est la voie d'apprentissage classique pour le Big Data ?
Le parcours d'apprentissage du big data est le suivant :
java(Java se,javaweb)
Linux(shell , Architecture à haute concurrence, Lucene, Solr)
Hadoop (Hadoop, HDFS, Mapreduce, Yarn, Hive, hbase, sqoop, zookeeper, flume)
Apprentissage automatique (R, mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)
Plateforme de cloud computing (docker, kvm, openstack)
Explication du terme
1. Linux
lucene : complet. -Architecture du moteur de recherche en texte
solr : Un serveur de recherche en texte intégral basé sur Lucene, qui est configurable, évolutif, optimise les performances des requêtes et fournit une interface complète de gestion des fonctions.
2. Hadoop
HDFS : système de stockage distribué, comprenant NameNode, DataNode. NameNode : métadonnées, DataNode. DataNode : stocke les données.
yarn : Il peut être compris comme le mécanisme de coordination de MapReduce, qui est essentiellement le mécanisme de traitement et d'analyse de Hadoop, divisé en ResourceManager et NodeManager.
MapReduce : Framework logiciel pour l'écriture de programmes.
Hive : L'entrepôt de données peut être interrogé avec SQL et peut exécuter des programmes Map/Reduce. Utilisé pour calculer des tendances ou des journaux de sites Web, et ne doit pas être utilisé pour des requêtes en temps réel car le retour des résultats prend beaucoup de temps.
HBase : Base de données. Il est très approprié pour l’interrogation en temps réel du Big Data. Facebook utilise Hbase pour stocker les données des messages et effectuer une analyse en temps réel des messages
ZooKeeper : un système de coordination fiable pour les messages distribués à grande échelle. La synchronisation distribuée de Hadoop est implémentée par Zookeeper, comme plusieurs NameNodes et la commutation de veille active.
Sqoop : Transférez des bases de données entre elles, des bases de données relationnelles et HDFS entre elles
Mahout : Bibliothèque extensible d'apprentissage automatique et d'exploration de données. Utilisé pour l'exploration de recommandations, l'agrégation, la classification et l'exploration fréquente d'ensembles d'éléments.
Chukwa : un système de collecte open source qui surveille les grands systèmes distribués, construit sur les frameworks HDFS et Map/Reduce. Afficher, surveiller et analyser les résultats.
Ambari : utilisé pour configurer, gérer et surveiller les clusters Hadoop, interface Web conviviale.
2. Cloudera
Cloudera Manager : surveillance de la gestion et intégration des diagnostics
Cloudera CDH : (distribution de Cloudera, y compris Apache Hadoop) Cloudera a apporté les modifications correspondantes à Hadoop et au version finale Appelé CDH.
Cloudera Flume : le système de collecte de journaux prend en charge la personnalisation de divers expéditeurs de données dans le système de journalisation pour collecter des données.
Cloudera Impala : fournit des requêtes directes et du SQL interactif pour les données stockées dans HDFS et HBase d'Apache Hadoop.
Cloudera hue : gestionnaire Web, comprenant hue ui, hui server, hui db. hue fournit des interfaces shell pour tous les composants CDH, et mr peut être écrit en hue.
3. Machine Learning/R
R : Langage et environnement d'exploitation pour l'analyse statistique et les graphiques Actuellement, Hadoop-R
mahout : Fournit des machines évolutives La mise en œuvre du classique. algorithmes dans le domaine de l'apprentissage, y compris le clustering, la classification, le filtrage des recommandations, l'exploration fréquente de sous-éléments, etc., et peuvent être étendus au cloud via Hadoop.
4. Storm
Storm : un système informatique de streaming en temps réel distribué et tolérant aux pannes qui peut être utilisé pour l'analyse en temps réel, l'apprentissage automatique en ligne, le traitement des flux d'informations, le calcul continu, RPC distribué, traite les messages et met à jour la base de données en temps réel.
Kafka : un système de messagerie de publication-abonnement distribué à haut débit qui peut gérer toutes les données de streaming d'action (navigation, recherche, etc.) sur des sites Web grand public. Par rapport aux données de journalisation et à l'analyse hors ligne de Hadoop, un traitement en temps réel peut être réalisé. Actuellement, le mécanisme de chargement parallèle de Hadoop est utilisé pour unifier le traitement des messages en ligne et hors ligne.
Redis : écrit en langage C, il prend en charge le réseau, est une base de données clé-valeur de type journal qui peut être basée sur la mémoire et persistant.
5. Spark
Scala : Un langage de programmation entièrement orienté objet similaire à Java.
jblas : Une bibliothèque d'algèbre linéaire rapide (JAVA). La mise en œuvre d'ATLAS ART est basée sur BLAS et LAPACK, la norme industrielle de facto pour les calculs matriciels, et utilise une infrastructure avancée pour toutes les procédures de calcul, ce qui la rend très rapide.
Spark : Spark est un framework parallèle général similaire à Hadoop MapReduce implémenté dans le langage Scala. En plus des avantages de Hadoop MapReduce, il est différent de MapReduce dans la mesure où les résultats de sortie intermédiaires des tâches peuvent être enregistrés dans. mémoire, il n'est donc pas nécessaire de lire ou d'écrire HDFS, donc Spark est mieux adapté aux algorithmes MapReduce qui nécessitent des itérations, tels que l'exploration de données et l'apprentissage automatique. Il peut fonctionner en parallèle avec le système de fichiers Hadoop. Les frameworks de cluster tiers utilisant Mesos peuvent prendre en charge ce comportement.
Spark SQL : dans le cadre du framework Big Data Apache Spark, il peut être utilisé pour le traitement de données structurées et peut effectuer des requêtes de données Spark de type SQL
Spark Streaming : une solution en temps réel construit sur Spark Le cadre informatique étend la capacité de Spark à traiter les données en streaming Big Data.
Spark MLlib : MLlib est la bibliothèque d'implémentation de Spark pour les algorithmes d'apprentissage automatique couramment utilisés. Actuellement (2014.05), elle prend en charge la classification binaire, la régression, le clustering et le filtrage collaboratif. Il comprend également un algorithme de base d’optimisation de descente de gradient de bas niveau. MLlib s'appuie sur la bibliothèque d'algèbre linéaire jblas, et jblas lui-même s'appuie sur le programme Fortran distant.
Spark GraphX : GraphX est une API pour les graphiques et le calcul parallèle de graphiques dans Spark. Elle peut fournir une solution de données unique au-dessus de Spark et peut effectuer un ensemble complet d'opérations de pipeline pour le calcul graphique de manière pratique et efficace. .
Fortran : le premier langage de programmation informatique de haut niveau, largement utilisé dans les domaines de l'informatique scientifique et technique.
BLAS : Bibliothèque de sous-programmes d'algèbre linéaire de base, avec un grand nombre de programmes déjà écrits pour les opérations d'algèbre linéaire.
LAPACK : logiciel ouvert bien connu, permettant notamment de résoudre les problèmes d'algèbre linéaire numérique les plus courants dans les calculs scientifiques et techniques, tels que la résolution d'équations linéaires, de problèmes de moindres carrés linéaires, de problèmes de valeurs propres et de problèmes de valeurs singulières, etc.
ATLAS : Une version optimisée de la bibliothèque d'algorithmes linéaires BLAS.
Spark Python : Spark est écrit en langage scala, mais pour des raisons de promotion et de compatibilité, des interfaces java et python sont fournies.
6. Python
Python : un langage de programmation informatique interprété et orienté objet.
7. Plateforme de cloud computing
Docker : moteur de conteneur d'applications open source
kvm : (Clavier Vidéo Souris)
openstack : gestion du cloud computing open source Projet Plateforme
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!