Maison >Problème commun >Que retenir du Big Data

Que retenir du Big Data

王林
王林original
2020-04-29 11:47:453584parcourir

Que retenir du Big Data

1. Programmation Java

La programmation Java est la base du développement du Big Data. De nombreuses technologies du Big Data sont écrites en Java, comme Hadoop et Spark. . , mapreduce, etc. Par conséquent, si vous voulez bien apprendre le big data, la programmation Java est une compétence nécessaire !

(Apprentissage recommandé : programme d'introduction à Java )

2. Fonctionnement et maintenance de Linux

Le développement de Big Data d'entreprise est souvent done in Il est réalisé sous le système d'exploitation Linux. Par conséquent, si vous souhaitez vous engager dans des travaux liés au Big Data, vous devez maîtriser les méthodes d'exploitation du système Linux et les commandes associées.

3. Hadoop

Hadoop est un framework logiciel capable de traiter de grandes quantités de données et MapReduce est sa conception principale qui fournit des services pour des quantités massives. de données. En plus du stockage, MapReduce fournit des calculs pour des données massives et constitue une compétence-cadre essentielle pour le développement du Big Data.

4. Zookeeper

ZooKeeper est un service de coordination d'applications distribuées et open source. Il s'agit d'une implémentation open source de Chubby de Google et est une combinaison de Hadoop et An. composant important de Hbase. Il s'agit d'un logiciel qui fournit des services cohérents pour les applications distribuées. Les fonctions fournies incluent : la maintenance de la configuration, les services de noms de domaine, la synchronisation distribuée, les services de groupe, etc.

5. Hive

hive est un outil d'entrepôt de données basé sur Hadoop, qui peut mapper des fichiers de données structurés dans une table de base de données et fournir une fonction de requête SQL simple. Instructions SQL dans les tâches MapReduce à exécuter, ce qui est très approprié pour l'analyse statistique des entrepôts de données.

6. Hbase

Il s'agit de la base de données NOSQL de l'écosystème Hadoop. Ses données sont stockées sous forme de clé et de valeur et la clé est unique, elle est donc unique. peut être utilisé pour dédupliquer des données. Par rapport à MYSQL, il peut stocker une quantité de données beaucoup plus importante

7 Kafka

Kafka est une publication distribuée à haut débit. -un système de messagerie d'abonnement capable de traiter toutes les données de flux d'action sur des sites Web à l'échelle grand public, d'unifier le traitement des messages en ligne et hors ligne via le mécanisme de chargement parallèle de Hadoop et de fournir des messages en temps réel via des clusters.

8. Spark

Spark est un moteur de calcul rapide et général conçu pour le traitement de données à grande échelle. Il présente les avantages de Hadoop MapReduce, mais ce qui diffère de MapReduce est le résultat de sortie intermédiaire. du travail. Il peut être stocké en mémoire, éliminant ainsi le besoin de lire et d'écrire HDFS, de sorte que Spark peut être mieux adapté aux algorithmes MapReduce qui nécessitent des itérations, tels que l'exploration de données et l'apprentissage automatique.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn