Heim  >  Artikel  >  Java  >  Was Sie über Java Big Data lernen sollten

Was Sie über Java Big Data lernen sollten

(*-*)浩
(*-*)浩Original
2019-05-27 14:30:223515Durchsuche

Java Big Data-Lernprozess.

Was Sie über Java Big Data lernen sollten

Phase 1: Grundlagen statischer Webseiten (HTML+CSS)

1. Schwierigkeitsgrad: ein Stern

2. Technische Wissenspunkte + Bühnenprojektaufgaben + umfassende Funktionen

3. Zu den Haupttechnologien gehören:

Gemeinsames CSS-Layout, Stil, Positionierung usw., statisches Seitendesign und Produktionsmethoden usw.

Die zweite Stufe: JavaSE+JavaWeb

1. Schwierigkeitsgrad: zwei Sterne

2 Projektaufgaben + umfassende Fähigkeiten

3. Zu den Haupttechnologien gehören:

Java-Grundsyntax, Java-Objektorientierung (Klasse, Objekt, Kapselung, Vererbung, Polymorphismus, abstrakte Klasse, Schnittstelle, gemeinsame Klasse, interne Klassen, allgemeine Modifikatoren usw.), Ausnahmen, Sammlungen, Dateien, IO, MYSQL (grundlegende SQL-Anweisungsoperationen, Abfragen mit mehreren Tabellen, Unterabfragen, gespeicherte Prozeduren, Transaktionen, verteilte Transaktionen), JDBC, Threads, Reflexion, Socket-Programmierung, Aufzählung, Generika, Entwurfsmuster

4. Die Beschreibung lautet wie folgt:

nennt sich die Grundlagen von Java, von oberflächlichen bis hin zu tiefgreifenden technischen Punkten, realer Geschäftsprojektmodulanalyse und dem Design von mehrere Speichermethoden und Implementierung. Diese Stufe ist die wichtigste Stufe der ersten vier Stufen, da alle nachfolgenden Stufen auf dieser Stufe basieren, und es ist auch die Stufe mit der höchsten Lerndichte von Big Data. In dieser Phase entwickelt und produziert das Team zum ersten Mal echte Projekte mit Front- und Backends (Technologie der ersten Stufe + umfassende Anwendung der Technologie der zweiten Stufe).

Die dritte Stufe: Front-End-Framework

1. Schwierige und einfache Verfahren: zwei Sterne

2. Technische Wissenspunkte + Bühnenprojektaufgaben + umfassende Funktionen

3. Zu den Haupttechnologien gehören:

Java, Jquery, Annotation Reflection werden zusammen verwendet, XML und XML-Analyse, Analyse von dom4j, jxab, jdk8.0 neue Funktionen, SVN, Maven , easyui

4. Die Beschreibung lautet wie folgt:

Basierend auf den ersten beiden Stufen kann die Umwandlung von Statisch in Dynamisch den Inhalt unserer Webseiten natürlich bereichern Auf Personalebene gibt es professionelle Front-End-Designer. Unser Ziel in dieser Designphase ist es, dass die Front-End-Technologie das Denken und die Designfähigkeiten der Menschen intuitiver trainieren kann. Gleichzeitig integrieren wir auch die erweiterten Funktionen der zweiten Stufe in diese Stufe. Lernende auf die nächste Ebene bringen.

Phase 4: Entwicklungsrahmen auf Unternehmensebene

1. Schwierige und einfache Verfahren: drei Sterne

3

Hibernate, Spring, SpringMVC, log4j slf4j-Integration, myBatis, struts2, Shiro, Redis, Prozess-Engine-Aktivität, Crawler-Technologie-Nuch, Lucene, WebService CXF, Tomcat-Cluster und Hot Standby, MySQL-Lese- und Schreibtrennung

Die fünfte Stufe: Erste Einführung in Big Data

1. Schwierigkeitsgrad: drei Sterne

2. Technische Wissenspunkte + Bühnenprojektaufgaben + umfassende Fähigkeiten

3. Zu den wichtigsten Technologien gehören:

Teil 1 von Big Data (Was ist Big Data, Anwendungsszenarien, wie man große Datenbanken lernt, Konzepte und Installation virtueller Maschinen usw.), allgemeine Linux-Befehle (Datei Verwaltung, Systemverwaltung, Festplattenverwaltung), Linux-Shell-Programmierung (SHELL-Variablen, Schleifensteuerung, Anwendungen), Erste Schritte mit Hadoop (Hadoop-Komposition, eigenständige Umgebung, Verzeichnisstruktur, HDFS-Schnittstelle, MR-Schnittstelle, einfaches SHELL, Java-Zugriff auf Hadoop), HDFS (Einführung, SHELL, Verwendung von IDEA-Entwicklungstools, vollständig verteilter Clusteraufbau), MapReduce-Anwendungen (Zwischenberechnungsprozess, Java-Betrieb MapReduce, Programmausführung, Protokollüberwachung), fortgeschrittene Hadoop-Anwendungen (Einführung in das YARN-Framework, Konfigurationselemente usw.) Optimierung, CDH-Einführung, Umgebungskonstruktion), Erweiterung (MAP-seitige Optimierung, COMBINER-Nutzungsmethode, siehe TOP K, SQOOP-Export, Snapshots anderer virtueller Maschinen-VMs, Berechtigungsverwaltungsbefehle, AWK- und SED-Befehle)

4. Die Beschreibung lautet wie folgt:

Diese Phase soll Neulingen eine relativ umfassende Vorstellung von Big Data ermöglichen. Nachdem Sie JAVA im Vorkurs erlernt haben, können Sie verstehen, wie das Programm auf einem eigenständigen Computer ausgeführt wird. Was ist nun mit Big Data? Big Data wird verarbeitet, indem Programme auf einer Gruppe großer Maschinen ausgeführt werden. Natürlich erfordert Big Data eine Datenverarbeitung, daher ändert sich auch die Datenspeicherung von der Einzelmaschinenspeicherung zur groß angelegten Clusterspeicherung auf mehreren Maschinen. (Sie fragen mich, was ein Cluster ist? Nun, ich habe einen großen Topf Reis. Ich kann ihn alleine aufessen, aber es wird lange dauern. Jetzt bitte ich alle, zusammen zu essen. Wenn ich alleine bin, rufe ich Leute an , aber wenn es mehr Leute gibt? Dann kann Big Data grob in Big Data-Speicherung und Big Data-Verarbeitung unterteilt werden von Big Data ist nicht, dass wir häufig WINDOWS 7 oder W10 verwenden, sondern das derzeit am weitesten verbreitete System: LINUX.

Stufe Sechs: Big-Data-Datenbank

1. Schwierigkeitsgrad: vier Sterne

2. Technische Wissenspunkte + Bühnenprojektaufgaben+ Umfassende Fähigkeiten

3. Zu den Haupttechnologien gehören: Hive-Einführung (Hive-Einführung, Hive-Nutzungsszenarien, Umgebungsaufbau, Architekturbeschreibung, Arbeitsmechanismus), Hive-Shell-Programmierung (Tabellenerstellung, Abfrageanweisungen, Partitionierung und Bucketing, Indexverwaltung und Ansichten), Hive Erweiterte Anwendung (DISTINCT-Implementierung, Groupby, Join, SQL-Konvertierungsprinzip, Java-Programmierung, Konfiguration und Optimierung), Einführung in Hbase, Hbase SHELL-Programmierung (DDL, DML, Erstellung von Java-Operationstabellen, Abfrage, Komprimierung, Filter), detaillierte Beschreibung von Hbase Module (REGION, HREGION SERVER, HMASTER, ZOOKEEPER-Einführung, ZOOKEEPER-Konfiguration, Hbase- und Zookeeper-Integration), erweiterte HBASE-Funktionen (Lese- und Schreibprozesse, Datenmodelle, Schema-Design-Lese- und Schreib-Hotspots, Optimierung und Konfiguration)

4. Die Beschreibung lautet wie folgt:

Diese Phase soll es jedem ermöglichen, zu verstehen, wie Big Data mit großen Datenmengen umgeht. Vereinfachen Sie unsere Programmierzeit und erhöhen Sie die Lesegeschwindigkeit.

Wie kann man es vereinfachen? Wenn in der ersten Phase komplexe Geschäftskorrelationen und Data-Mining erforderlich sind, ist es sehr kompliziert, MR-Programme selbst zu schreiben. Zu diesem Zeitpunkt haben wir HIVE eingeführt, ein Data Warehouse für Big Data. Hier gibt es ein Schlüsselwort: Data Warehouse. Ich weiß, dass Sie mich fragen werden, also lassen Sie mich zunächst sagen, dass das Data Warehouse für das Data Mining und die Analyse verwendet wird. Es handelt sich normalerweise um ein sehr großes Rechenzentrum. Die Daten werden in großen Datenbanken wie ORACLE und DB2 gespeichert werden in der Regel als Echtzeit-Online-Geschäft genutzt. Kurz gesagt, die Analyse von Daten auf Basis des Data Warehouse ist relativ langsam. Der Vorteil besteht jedoch darin, dass es relativ einfach zu erlernen ist, solange Sie mit SQL vertraut sind. HIVE ist ein solches Tool, ein auf Big Data basierendes SQL-Abfragetool. Zu dieser Phase gehört auch HBASE, eine Datenbank für Big Data . Ich bin verwirrt. Haben Sie nicht von einem Daten-„Warehouse“ namens HIVE erfahren? HIVE basiert auf MR, daher ist die Abfrage recht langsam. HBASE basiert auf Big Data und kann Datenabfragen in Echtzeit durchführen. Eine für die Analyse, die andere für die Abfrage.

Stufe 7: Echtzeit-Datenerfassung

1. Schwierige und einfache Verfahren: vier Sterne

2. Technische Wissenspunkte + Bühnenprojektaufgaben+ Umfassende Funktionen

3. Zu den Haupttechnologien gehören:

Flume-Protokollerfassung, KAFKA-Einführung (Nachrichtenwarteschlange, Anwendungsszenarien, Clusteraufbau), KAFKA-Detaillierte Erklärung (Partition, Thema, Empfänger, Absender, Integration). mit ZOOKEEPER, Shell-Entwicklung, Shell-Debugging), fortgeschrittene Nutzung von KAFKA (Java-Entwicklung, Hauptkonfiguration, Optimierungsprojekte), Datenvisualisierung (Einführung in Grafiken und Diagramme, CHARTS-Tool-Klassifizierung, Balkendiagramme und Kreisdiagramme, 3D-Diagramme und Karten), STORM Erste Schritte (Designideen, Anwendungsszenarien, Verarbeitungsverfahren, Clusterinstallation), STROM-Entwicklung (STROM MVN-Entwicklung, Schreiben lokaler STORM-Programme), STORM Advanced (Java-Entwicklung, Hauptkonfiguration, Optimierungsprojekte), asynchrones Senden von KAFKA und Pünktlichkeit des Batch-Versendens , KAFKA-Globalnachrichten sind in Ordnung, STORM-Multi-Parallelitätsoptimierung

4. Die Beschreibung lautet wie folgt:

Die Datenquelle in der vorherigen Phase basiert auf dem vorhandenen umfangreichen Datensatz Nach der Datenverarbeitung und -analyse kommt es zu einer gewissen Verzögerung im Ergebnis, und in der Regel handelt es sich bei den verarbeiteten Daten um die Daten des Vortages. Beispielszenarien: Website-Anti-Hotlinking, Anomalien bei Kundenkonten und Echtzeit-Kreditauskunft. Was wäre, wenn diese Szenarien auf der Grundlage der Daten vom Vortag analysiert würden? Ist es zu spät? Daher haben wir in dieser Phase die Datenerfassung und -analyse in Echtzeit eingeführt. Es umfasst hauptsächlich: FLUME-Echtzeitdatenerfassung, die eine breite Palette von Erfassungsquellen unterstützt, KAFKA-Datenempfang und -übertragung, STORM-Echtzeitdatenverarbeitung und Datenverarbeitung auf der zweiten Ebene.

Die achte Stufe: SPARK-Datenanalyse

1. Schwierige und einfache Verfahren: fünf Sterne

2. Technische Wissenspunkte + Bühnenprojektaufgaben+ Umfassend Fähigkeit

3. Zu den wichtigsten Technologien gehören: SCALA-Einführung (Datentypen, Operatoren, Steueranweisungen, Grundfunktionen), SCALA Advanced (Datenstrukturen, Klassen, Objekte, Merkmale, Mustervergleich, reguläre Ausdrücke) , Erweiterte Verwendung von SCALA (Funktionen höherer Ordnung, Corey-Funktionen, Teilfunktionen, Tail-Iterationen, integrierte Funktionen höherer Ordnung usw.), Einführung in SPARK (Umgebungskonstruktion, Infrastruktur, Betriebsmodus), Spark-Datensätze und Programmiermodelle, SPARK SQL , SPARK Advanced (DATA FRAME, DATASET, SPARK STREAMING-Prinzip, SPARK STREAMING-Unterstützungsquelle, integriertes KAFKA und SOCKET, Programmiermodell), SPARK Advanced-Programmierung (Spark-GraphX, Spark-Mllib-Maschinenlernen), SPARK Advanced-Anwendung (Systemarchitektur, Main Konfigurations- und Leistungsoptimierung, Fehler- und Phasenwiederherstellung), SPARK ML KMEANS-Algorithmus, erweiterte SCALA-Funktionen

Die Beschreibung lautet wie folgt:

Lassen Sie uns auch über die vorherigen Phasen sprechen, hauptsächlich über die erste Phase. HADOOP ist relativ langsam bei der Analyse großer Datensätze auf Basis von MR, einschließlich maschinellem Lernen, künstlicher Intelligenz usw. Und es ist nicht für iterative Berechnungen geeignet. SPARK wird als Ersatzprodukt für MR analysiert. Wie kann man es ersetzen? Lassen Sie uns zunächst über ihre Betriebsmechanismen sprechen. HADOOP basiert auf der Festplattenspeicheranalyse, während SPARK auf der Speicheranalyse basiert. Sie verstehen vielleicht nicht, was ich sage, aber um es genauer auszudrücken: Wenn Sie einen Zug von Peking nach Shanghai nehmen möchten, ist MR ein grüner Zug und SPARK eine Hochgeschwindigkeitsbahn oder Magnetschwebebahn. SPARK wird auf Basis der SCALA-Sprache entwickelt und bietet natürlich die beste Unterstützung für SCALA, daher lernen wir im Kurs zunächst die SCALA-Entwicklungssprache. Was? Möchten Sie eine andere Entwicklungssprache lernen? Nein, nein, nein! ! ! Lassen Sie mich nur eines sagen: SCALA basiert auf JAVA. Von der historischen Datenspeicherung und -analyse (HADOOP, HIVE, HBASE) bis hin zur Echtzeit-Datenspeicherung (FLUME, KAFKA) und Analyse (STORM, SPARK) sind diese in realen Projekten alle voneinander abhängig.

Das obige ist der detaillierte Inhalt vonWas Sie über Java Big Data lernen sollten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn