Maison >interface Web >tutoriel HTML >Une brève discussion sur ce qu'est Hadoop et son parcours d'apprentissage
Hadoop implémente un Système de fichiers(HadoopDistributedFileSystème ), appelé HDFS, a une tolérance aux pannes élevée et est conçu pour être déployé sur du matériel à faible coût et offre un débit élevé pour accéder aux données d'application, ce qui convient à ceux qui disposent d'applications avec de grands ensembles de données (largedataset) ; . HDFS assouplit les exigences POSIX et peut accéder aux données du système de fichiers sous forme d'accès en streaming. Le framework de Hadoop
La conception de base est : HDFS et MapReduce fournit un stockage massif. données, et MapReduce fournit le calcul pour des données massives. En un mot, Hadoop est un stockage plus un calcul 🎜> Le nom Hadoop n'est pas une abréviation, mais un nom fictif. Le créateur du projet, Doug Cutting, a expliqué comment Hadoop tire son nom. : "Le nom a été donné à un jouet éléphant marron par mon enfant. Hadoop est une plateforme informatique distribuée qui permet aux utilisateurs de structurer
et de l'utiliser facilement. Les utilisateurs peuvent facilement développer et exécuter des applications qui gèrent d'énormes quantités de données sur Hadoop. Il présente principalement les avantages suivants :
1. Haute fiabilité La capacité de Hadoop à stocker et à traiter les données petit à petit est digne de la confiance des gens. 2. Hadoop hautement évolutif distribue les données et effectue des tâches informatiques entre les clusters d'ordinateurs disponibles. Ces clusters peuvent être facilement étendus à des milliers de nœuds. 3. Efficacité Hadoop peut déplacer dynamiquement les données entre les nœuds et assurer l'équilibre dynamique de chaque nœud, de sorte que la vitesse de traitement est très rapide.
4. Hadoop, hautement tolérant aux pannes, peut enregistrer automatiquement plusieurs copies de données et redistribuer automatiquement les tâches ayant échoué.
5. Faible coût Comparé aux ordinateurs tout-en-un, aux entrepôts de données commerciaux et aux magasins de données tels que QlikView et YonghongZ-Suite, hadoop est open source, le coût logiciel du projet sera donc considérablement réduit.
Hadoop est livré avec un framework écrit en langage Java, il est donc idéal pour fonctionner sur des plateformes de production
Linux
. Les applications sur Hadoop peuvent également être écrites dans d'autres langages, comme le C.
L'importance du traitement du Big Data Hadoop La large application de Hadoop dans les applications de traitement du Big Data bénéficie de ses avantages naturels en matière d'extraction, de transformation et de chargement de données (ETL). L'architecture distribuée de Hadoop place le moteur de traitement du Big Data aussi près que possible du stockage, ce qui est relativement adapté aux opérations de traitement par lots telles que ETL, car les résultats du traitement par lots de ces opérations peuvent aller directement au stockage. La fonction MapReduce de Hadoop divise une tâche unique en morceaux et envoie les tâches fragmentées (Map) à plusieurs nœuds, puis les charge (Reduce) dans l'entrepôt de données sous la forme d'un seul ensemble de données. Informations sur le parcours d'apprentissage Hadoop du site Web chinois PHP :
1. HadoopCommon : un module au bas du système Hadoop, fournissant divers outils pour les sous-projets Hadoop, tels que :
fichiers de configuration
et journal opérations, etc.
2. HDFS : système de fichiers distribué, offrant un accès aux données d'application à haut débit pour les clients externes, HDFS est comme un système de fichiers hiérarchique traditionnel. Les fichiers peuvent être créés, supprimés, déplacés ou renommés, et bien plus encore. Cependant, l'architecture de HDFS est construite sur la base d'un ensemble spécifique de nœuds (voir Figure 1), qui est déterminé par ses propres caractéristiques. Ces nœuds incluent NameNode (un seul), qui fournit des services de métadonnées dans HDFS ; DataNode, qui fournit des blocs de stockage à HDFS. C'est un inconvénient (point de défaillance unique) de HDFS puisqu'un seul NameNode existe.
Les fichiers stockés dans HDFS sont divisés en blocs, et ces blocs sont ensuite copiés sur plusieurs ordinateurs (DataNode). Ceci est très différent de l'architecture RAID traditionnelle. La taille du bloc (généralement 64 Mo) et le nombre de blocs copiés sont déterminés par le client lors de la création du fichier. NameNode peut contrôler toutes les opérations sur les fichiers. Toutes les communications au sein de HDFS sont basées sur le protocole standard TCP/IP.
3. MapReduce : un framework logiciel pour cluster informatique de traitement de données massif distribué. 4. Avro : projet RPC hébergé par dougcutting, principalement responsable de la sérialisation des données
. Un peu similaire au protobuf de Google et au thr
ift de Facebook. avro sera utilisé pour le RPC de Hadoop à l'avenir, rendant la communication du module RPC de Hadoop plus rapide et la structure des données plus compacte. 5. Hive : Semblable à CloudBase, il s'agit également d'un ensemble de logiciels basés sur la plateforme informatique distribuée Hadoop qui fournit la fonction SQL d'entrepôt de données. Il simplifie la synthèse et la requête ad hoc des données massives stockées dans Hadoop. hive fournit un ensemble de langage de requête QL, basé sur SQL, très pratique à utiliser.
6. HBase : Basée sur HadoopDistributedFileSystem, il s'agit d'une base de données distribuée open source et évolutive basée sur le modèle de stockage en colonnes , qui prend en charge le stockage de données structurées dans de grandes tables.
7. Pig : Il s'agit d'un langage de flux de données avancé et d'un cadre d'exécution pour le calcul parallèle. Le langage de type SQL est un langage de requête avancé construit sur MapReduce. Il compile certaines opérations dans Map et Reduction du modèle MapReduce. les utilisateurs peuvent définir leurs propres fonctions.
8. ZooKeeper : une implémentation open source de Chubby de Google. Il s'agit d'un système de coordination fiable pour les systèmes distribués à grande échelle. Il fournit des fonctions telles que : la maintenance de la configuration, le service de noms, la synchronisation distribuée, le service de groupe, etc. L'objectif de ZooKeeper est d'encapsuler des services clés complexes et sujets aux erreurs, et de fournir aux utilisateurs des interfaces simples et faciles à utiliser et un système avec des performances efficaces et des fonctions stables.
9. Chukwa : un système de collecte de données pour la gestion des grands systèmes distribués fourni par Yahoo.
10. Cassandra : Une base de données multi-maîtres évolutive sans point de défaillance unique.
11. Mahout : Une bibliothèque évolutive d'apprentissage automatique et d'exploration de données.
Les objectifs de conception initiaux de Hadoop étaient une fiabilité élevée, une évolutivité élevée, une tolérance aux pannes élevée et une efficacité élevée qui ont rendu Hadoop populaire auprès de nombreuses grandes entreprises dès son apparition, et qui ont également été largement appréciés. l'attention de la communauté des chercheurs. Jusqu’à présent, la technologie Hadoop a été largement utilisée dans le domaine Internet.
Ce qui précède est une introduction détaillée de ce qu'est Hadoop et du parcours d'apprentissage Hadoop. Si vous souhaitez en savoir plus sur Hadoop, veuillez prêter attention au site officiel de la plateforme, WeChat et aux autres plateformes informatiques. La plate-forme d'apprentissage et d'éducation en ligne de carrière vous offre une autorité. Le cours de formation Big Data Hadoop et le système de didacticiels vidéo sont le premier système de cours vidéo en ligne adaptatif Hadoop enregistré en ligne par un conférencier médaillé d'or sur la grande plate-forme, vous permettant maîtriser rapidement les compétences pratiques de Hadoop, de l'entrée à la maîtrise du développement Big Data.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!