Maison >Problème commun >Hadoop est utilisé pour l'informatique distribuée, qu'est-ce que c'est

Hadoop est utilisé pour l'informatique distribuée, qu'est-ce que c'est

(*-*)浩original: 2019-11-18 14:01:233396parcourir

Qu'est-ce que Hadoop ?

(1)Hadoop est un framework open source qui peut écrire et exécuter des applications distribuées pour traiter des données à grande échelle. Il est conçu pour être utilisé hors ligne et à grande échelle. Analyse des données. La conception n'est pas adaptée au mode de traitement des transactions en ligne qui lit et écrit plusieurs enregistrements de manière aléatoire. (Apprentissage recommandé : Tutoriel vidéo web front-end)

Hadoop=HDFS (système de fichiers, technologie de stockage de données liée) + Mapreduce (traitement des données), la source de données de Hadoop peut être n'importe quelle forme, par rapport aux bases de données relationnelles, a de meilleures performances dans le traitement des données semi-structurées et non structurées, et a des capacités de traitement plus flexibles. Quelle que soit la forme de données, elle sera finalement convertie en clé/valeur, et la clé/valeur est la clé/valeur. données de base.

Utilisez des expressions fonctionnelles pour Mapreduce au lieu de SQL. SQL est une instruction de requête, tandis que Mapreduce utilise des scripts et des codes pour les bases de données relationnelles, Hadoop, qui est utilisé pour SQL, est remplacé par l'outil open source Hive.

(2)Hadoop est une solution informatique distribuée.

Que peut faire Hadoop ?

Hadoop est doué pour l'analyse des journaux, et Facebook utilise Hive pour l'analyse des journaux. En 2009, 30 % des non-programmeurs de Facebook utilisaient HiveQL pour l'analyse des données.

Taobao Hive est ; également utilisé pour le filtrage personnalisé dans les recherches ; Pig peut également être utilisé pour le traitement avancé des données, notamment pour découvrir des personnes que vous connaissez peut-être sur Twitter et LinkedIn, ce qui peut obtenir un effet de recommandation similaire au filtrage collaboratif d'Amazon.com.

Les recommandations de produits Taobao sont également disponibles ! Dans Yahoo! 40 % des tâches Hadoop sont exécutées à l'aide de pig, y compris l'identification et le filtrage du spam et la modélisation des fonctionnalités utilisateur.

Hadoop est composé de nombreux éléments.

En bas se trouve le système de fichiers distribués Hadoop (HDFS), qui stocke les fichiers sur tous les nœuds de stockage du cluster Hadoop.

La couche supérieure de HDFS est le moteur MapReduce, qui se compose de JobTrackers et de TaskTrackers. Grâce à l'introduction du système de fichiers distribué de base HDFS et du traitement MapReduce de la plate-forme informatique distribuée Hadoop, ainsi que de l'outil d'entrepôt de données Hive et de la base de données distribuée Hbase, il couvre essentiellement tout le cœur technique de la plate-forme distribuée Hadoop.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：À quoi appartient la déconnexion du terminal lorsque l'ordinateur s'arrêteArticle suivant：À quoi appartient la déconnexion du terminal lorsque l'ordinateur s'arrête

Articles Liés

Voir plus