Maison  >  Article  >  Java  >  Que savoir sur le Big Data Java

Que savoir sur le Big Data Java

(*-*)浩
(*-*)浩original
2019-05-27 14:30:223485parcourir

Processus d'apprentissage du Big Data Java.

Que savoir sur le Big Data Java

Phase 1 : Bases des pages Web statiques (HTML+CSS)

Niveau de difficulté : une étoile

2. Points de connaissances techniques + tâches de projet d'étape + capacités complètes

3. Les principales technologies incluent :

Balises communes HTML, mise en page commune CSS, style, positionnement, etc., conception de pages statiques. et méthodes de production, etc.

La deuxième étape : JavaSE+JavaWeb

1 Niveau de difficulté : deux étoiles

2. tâches du projet + capacités complètes

3. Les principales technologies incluent :

syntaxe de base Java, orienté objet Java (classe, objet, encapsulation, héritage, polymorphisme, classe abstraite, interface, classe commune, classes internes, modificateurs communs, etc.), exceptions, collections, fichiers, IO, MYSQL (opérations d'instructions SQL de base, requêtes multi-tables, sous-requêtes, procédures stockées, transactions, transactions distribuées), JDBC, threads, réflexion, programmation Socket, énumération, génériques, modèles de conception

4. La description est la suivante :

est appelé les bases de Java, des points techniques superficiels aux points techniques approfondis, l'analyse de modules de projets d'entreprise réels et la conception de plusieurs stockages. méthodes et mise en œuvre. Cette étape est l'étape la plus importante des quatre premières étapes, car toutes les étapes suivantes sont basées sur cette étape, et c'est également l'étape avec la plus grande densité d'apprentissage du Big Data. Cette étape sera la première fois pour l'équipe de développer et de produire de vrais projets avec front et backend (technologie de première étape + application complète de technologie de deuxième étape).

La troisième étape : framework front-end

1. Procédures difficiles et faciles : deux étoiles

2. + capacités complètes

3. Les principales technologies incluent :

Java, Jquery, la réflexion des annotations sont utilisés ensemble, l'analyse XML et XML, l'analyse de dom4j, jxab, les nouvelles fonctionnalités de jdk8.0, SVN, Maven. , easyui

4. La description est la suivante :

Sur la base des deux premières étapes, transformer le statique en dynamique peut enrichir le contenu de nos pages Web. Bien sûr, si elles proviennent du marché. Au niveau du personnel, il existe des concepteurs front-end professionnels, notre objectif à cette étape de la conception est que la technologie front-end puisse exercer de manière plus intuitive les capacités de réflexion et de conception des gens. Dans le même temps, nous intégrons également les fonctionnalités avancées de la deuxième étape dans cette étape. Amener les apprenants au niveau supérieur.

Phase 4 : Cadre de développement au niveau de l'entreprise

1. Procédures difficiles et faciles : trois étoiles

3.

Hibernate, Spring, SpringMVC, intégration log4j slf4j, myBatis, struts2, Shiro, redis, activité du moteur de processus, technologie de robot d'exploration nutch, lucene, webService CXF, cluster Tomcat et veille chaude, séparation de lecture et d'écriture MySQL

La cinquième étape : Première introduction au big data

1 Niveau de difficulté : trois étoiles

2.

3. Les principales technologies incluent :

Partie 1 du Big Data (qu'est-ce que le Big Data, les scénarios d'application, comment apprendre les grandes bases de données, les concepts et l'installation des machines virtuelles, etc.), les commandes Linux courantes (fichier gestion système, gestion des disques), programmation Linux Shell (variables SHELL, contrôle de boucle, applications), prise en main de Hadoop (composition Hadoop, environnement autonome, structure de répertoires, interface HDFS, interface MR, SHELL simple, accès java à hadoop), HDFS (introduction, SHELL, utilisation des outils de développement IDEA, construction de clusters entièrement distribués), applications MapReduce (processus de calcul intermédiaire, opération Java MapReduce, exécution du programme, surveillance des journaux), applications avancées Hadoop (introduction du framework YARN, éléments de configuration et optimisation, introduction CDH, construction de l'environnement), extension (optimisation côté MAP, méthode d'utilisation COMBINER, voir TOP K, export SQOOP, instantanés d'autres machines virtuelles VM, commandes de gestion des autorisations, commandes AWK et SED)

4. La description est la suivante :

Cette étape est conçue pour permettre aux nouveaux arrivants d'avoir une notion relativement large du big data. Comment y faire face ? Après avoir étudié JAVA dans le cours préalable, vous pourrez comprendre comment le programme fonctionne sur un ordinateur autonome. Et qu’en est-il du Big Data ? Le Big Data est traité en exécutant des programmes sur un cluster de machines à grande échelle. Bien entendu, le Big Data nécessite un traitement de données. De la même manière, le stockage des données passe du stockage sur une seule machine au stockage en cluster à grande échelle sur plusieurs machines. (Vous me demandez ce qu'est une grappe ? Eh bien, j'ai un grand pot de riz. Je peux le finir tout seul, mais cela prendra beaucoup de temps. Maintenant, je demande à tout le monde de manger ensemble. Quand je suis seul, j'appelle les gens. , mais quand il y a plus de monde ? Est-ce que cela s'appelle une foule ? ) Alors le big data peut être grossièrement divisé en : stockage de big data et traitement de big data Donc à ce stade, notre cours a conçu le standard du big data : HADOOP. du big data n'est pas que nous utilisons souvent WINDOWS 7 ou W10, mais le système le plus utilisé actuellement : LINUX.

Étape six : base de données Big Data

1. Niveau de difficulté : quatre étoiles

2. >

3. Les principales technologies incluent : introduction à Hive (introduction à Hive, scénarios d'utilisation de Hive, construction de l'environnement, description de l'architecture, mécanisme de travail), programmation Hive Shell (création de tables, instructions de requête, partitionnement et regroupement, gestion d'index et vues), Hive application avancée (implémentation DISTINCT, groupby, join, principe de conversion SQL, programmation Java, configuration et optimisation), introduction à hbase, programmation Hbase SHELL (DDL, DML, création de table d'opération Java, requête, compression, filtre), description détaillée de Hbase Modules (REGION, HREGION SERVER, HMASTER, introduction ZOOKEEPER, configuration ZOOKEEPER, intégration Hbase et Zookeeper), fonctionnalités avancées HBASE (processus de lecture et d'écriture, modèles de données, conception de schémas, points d'accès de lecture et d'écriture, optimisation et configuration)

4. La description est la suivante :

Cette étape est conçue pour permettre à chacun de comprendre comment le big data gère les données à grande échelle. Simplifiez notre temps de programmation et augmentez la vitesse de lecture.

Comment le simplifier ? Dans un premier temps, si une corrélation commerciale et une exploration de données complexes sont nécessaires, il est très compliqué d'écrire des programmes MR par vous-même. C’est donc à ce stade que nous avons présenté HIVE, un entrepôt de données en big data. Il y a un mot-clé ici, entrepôt de données. Je sais que vous allez me le demander, alors permettez-moi d'abord de dire que l'entrepôt de données est utilisé pour l'exploration et l'analyse des données. Il s'agit généralement d'un très grand centre de données. Les données sont stockées dans de grandes bases de données telles que ORACLE et DB2. sont généralement utilisés comme activité en ligne en temps réel. En bref, l’analyse des données basée sur un entrepôt de données est relativement lente. Mais la commodité est que tant que vous êtes familier avec SQL, il est relativement facile à apprendre, et HIVE est un tel outil, un outil de requête SQL basé sur le big data. Cette étape inclut également HBASE, qui est une base de données en big data. . Je suis confus, n'avez-vous pas entendu parler d'un « entrepôt » de données appelé HIVE ? HIVE est basé sur MR, la requête est donc assez lente. HBASE est basée sur le Big Data et peut effectuer des requêtes de données en temps réel. L'un pour l'analyse, l'autre pour la requête.

Étape 7 : Collecte de données en temps réel

1. Procédures difficiles et faciles : quatre étoiles

2. Points de connaissances techniques + tâches du projet d'étape+ Capacités complètes

3. Les principales technologies incluent :

Collecte des journaux Flume, introduction de KAFKA (file d'attente des messages, scénarios d'application, construction de cluster), explication détaillée de KAFKA (partition, sujet, destinataire, expéditeur, intégration). avec ZOOKEEPER, développement Shell, débogage Shell), utilisation avancée de KAFKA (développement java, configuration principale, projets d'optimisation), visualisation de données (introduction aux graphiques et diagrammes, classification des outils CHARTS, histogrammes et camemberts, diagrammes et cartes 3D), STORM Getting Started (idées de conception, scénarios d'application, procédures de traitement, installation de cluster), développement STROM (développement STROM MVN, écriture de programmes locaux STORM), STORM Advanced (développement Java, configuration principale, projets d'optimisation), envoi asynchrone KAFKA et rapidité d'envoi par lots , les messages globaux KAFKA sont en ordre, optimisation multi-concurrence STORM

4. La description est la suivante :

La source de données de l'étape précédente est basée sur l'ensemble de données à grande échelle existant. . Après le traitement et l'analyse des données Il y a un certain retard dans le résultat, et généralement les données traitées sont les données de la veille. Exemples de scénarios : anti-hotlinking de sites Web, anomalies de comptes clients et rapports de crédit en temps réel. Et si ces scénarios étaient analysés sur la base des données de la veille ? Est-ce trop tard ? C'est pourquoi, à cette étape, nous avons introduit la collecte et l'analyse de données en temps réel. Il comprend principalement : la collecte de données en temps réel FLUME, qui prend en charge un large éventail de sources de collecte, la réception et la transmission de données KAFKA, le traitement des données en temps réel STORM et le traitement des données au deuxième niveau.

La huitième étape : analyse des données SPARK

1. Procédures difficiles et faciles : cinq étoiles

2. capacité

3. Les principales technologies incluent : introduction à SCALA (types de données, opérateurs, instructions de contrôle, fonctions de base), SCALA avancé (structures de données, classes, objets, traits, correspondance de modèles, expressions régulières), utilisation avancée de SCALA (fonctions d'ordre supérieur, fonctions Corey, fonctions partielles, itérations de queue, fonctions d'ordre supérieur intégrées, etc.), Introduction à SPARK (construction d'environnement, infrastructure, mode de fonctionnement), ensembles de données Spark et modèles de programmation, SPARK SQL , SPARK avancé (DATA FRAME, DATASET, principe SPARK STREAMING, source de support SPARK STREAMING, KAFKA et SOCKET intégrés, modèle de programmation), programmation avancée SPARK (Spark-GraphX, machine learning Spark-Mllib), application avancée SPARK (architecture système, principal Optimisation de la configuration et des performances, récupération des pannes et des étapes), algorithme SPARK ML KMEANS, fonctionnalités avancées de conversion implicite SCALA

4.

De même, parlons des étapes précédentes, principalement de la première étape. HADOOP est relativement lent à analyser des ensembles de données à grande échelle basés sur la RM, notamment l'apprentissage automatique, l'intelligence artificielle, etc. Et cela ne convient pas aux calculs itératifs. SPARK est analysé comme produit de substitution au MR. Comment le remplacer ? Parlons d'abord de leurs mécanismes de fonctionnement. HADOOP est basé sur l'analyse du stockage sur disque, tandis que SPARK est basé sur l'analyse de la mémoire. Vous ne comprenez peut-être pas ce que je dis, mais pour être plus descriptif, c'est comme si vous vouliez prendre un train de Pékin à Shanghai, MR est un train vert et SPARK est un train à grande vitesse ou maglev. SPARK est développé sur la base du langage SCALA. Bien entendu, il offre le meilleur support pour SCALA, c'est pourquoi nous apprenons d'abord le langage de développement SCALA dans le cours. Quoi? Vous souhaitez apprendre un autre langage de développement ? Non non non ! ! ! Permettez-moi juste de dire une chose : SCALA est basé sur JAVA. Du stockage et de l'analyse de données historiques (HADOOP, HIVE, HBASE) au stockage et à l'analyse de données en temps réel (FLUME, KAFKA) (STORM, SPARK), tout cela est interdépendant dans les projets réels.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn