Heim >häufiges Problem >Big-Data-Lernroute
Big-Data-Lernroute
Java(Java se,[mysql])
Linux (Shell, Architektur mit hoher Parallelität, Lucene, Solr)
Hadoop (Hadoop, HDFS, Mapreduce, Garn, Hive, Hbase, Sqoop, Zookeeper, Flume)
Maschinelles Lernen (R, Mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python , Spark Python) (empfohlenes Lernen: Python-Video-Tutorial)
Computerplattform (Docker, KVM, OpenStack)
Begriffserklärung
Es gibt viele Punkte, auf die Anfänger beim Erlernen von Big Data achten müssen, aber egal was passiert, da Sie sich für den Einstieg in die Big-Data-Branche entschieden haben, müssen Sie sich nur um die Höhen und Tiefen kümmern . Wie das Sprichwort sagt: Vergessen Sie nie Ihre ursprüngliche Absicht und Sie werden immer Erfolg haben. Was Sie beim Erlernen von Big Data am meisten brauchen, ist Ausdauer.
Javase-Grundlagen [einschließlich MySQL], beachten Sie, dass es sich um Javase und nicht um Javaee handelt. Javaweb-Kenntnisse sind für Big-Data-Ingenieure nicht erforderlich.
Linux
lucene: Volltext-Suchmaschinenarchitektur
solr: Das Ganze Der auf Lucene basierende Textsuchserver ist konfigurierbar, skalierbar, optimiert die Abfrageleistung und bietet eine vollständige Funktionsverwaltungsschnittstelle.
Hadoop
HDFS: Verteiltes Speichersystem, einschließlich NameNode, DataNode. NameNode: Metadaten, DataNode. DataNode: speichert Daten.
Garn: Es kann als Koordinationsmechanismus von MapReduce verstanden werden, bei dem es sich im Wesentlichen um den Verarbeitungs- und Analysemechanismus von Hadoop handelt, der in ResourceManager und NodeManager unterteilt ist.
MapReduce: Software-Framework zum Schreiben von Programmen.
Hive: Data Warehouse kann mit SQL abgefragt werden und kann Map/Reduce-Programme ausführen. Wird zur Berechnung von Trends oder Website-Protokollen verwendet und sollte nicht für Echtzeitabfragen verwendet werden, da die Rückgabe von Ergebnissen lange dauert.
HBase: Datenbank. Es eignet sich sehr gut für die Echtzeitabfrage großer Datenmengen. Facebook verwendet Hbase, um Nachrichtendaten zu speichern und Echtzeitanalysen von Nachrichten durchzuführen
ZooKeeper: Ein zuverlässiges Koordinationssystem für die Verteilung in großem Maßstab. Die verteilte Synchronisierung von Hadoop wird von Zookeeper implementiert, z. B. mehrere NameNodes und aktives Standby-Switching.
Sqoop: Datenbanken untereinander, relationale Datenbanken und HDFS untereinander übertragen
Mahout: Skalierbare Bibliothek für maschinelles Lernen und Data Mining. Wird für Empfehlungs-Mining, Aggregation, Klassifizierung und häufiges Item-Set-Mining verwendet.
Chukwa: Ein Open-Source-Sammlungssystem, das große verteilte Systeme überwacht, basierend auf HDFS- und Map/Reduce-Frameworks. Ergebnisse anzeigen, überwachen und analysieren.
Ambari: Wird zur Konfiguration, Verwaltung und Überwachung von Hadoop-Clustern verwendet, webbasiert und benutzerfreundlich.
Cloudera
Cloudera Manager: Managementüberwachung und Diagnoseintegration
Cloudera CDH: (Clouderas Distribution, einschließlich Apache Hadoop) Cloudera hat entsprechende Änderungen vorgenommen Hadoop wurde geändert, die Release-Version heißt CDH.
Cloudera Flume: Das Protokollerfassungssystem unterstützt die Anpassung verschiedener Datensender im Protokollsystem zur Datenerfassung.
Cloudera Impala: Bietet direkte Abfrage und interaktives SQL für Daten, die in HDFS und HBase von Apache Hadoop gespeichert sind.
Cloudera hue: Webmanager, einschließlich hue ui, hui server, hui db. Hue bietet Shell-Schnittstellenschnittstellen für alle CDH-Komponenten und mr kann in Hue geschrieben werden.
Machine Learning/R
R: Sprache und Betriebsumgebung für statistische Analysen und Grafiken, derzeit Hadoop-R
mahout: Bereitgestellte skalierbare Implementierung von klassische Algorithmen im Bereich des maschinellen Lernens, einschließlich Clustering, Klassifizierung, Empfehlungsfilterung, häufiges Sub-Item-Mining usw., und können über Hadoop auf die Cloud erweitert werden.
Storm
Storm: ein verteiltes, fehlertolerantes Echtzeit-Streaming-Computing-System, das für Echtzeitanalysen, maschinelles Online-Lernen und Informationsflussverarbeitung verwendet werden kann und kontinuierliches Computing, das Nachrichten verarbeitet und die Datenbank in Echtzeit aktualisiert.
Kafka: Ein verteiltes Publish-Subscribe-Messagingsystem mit hohem Durchsatz, das alle Aktions-Streaming-Daten (Browsing, Suche usw.) auf Websites im Verbrauchermaßstab verarbeiten kann. Im Vergleich zu den Protokolldaten und der Offline-Analyse von Hadoop kann eine Echtzeitverarbeitung erreicht werden. Derzeit wird der parallele Lademechanismus von Hadoop verwendet, um die Online- und Offline-Nachrichtenverarbeitung zu vereinheitlichen
Redis: In C-Sprache geschrieben, unterstützt es das Netzwerk, ist eine Protokolltyp-Schlüsselwertdatenbank, die speicherbasiert sein kann und hartnäckig.
Spark
Scala: Eine vollständig objektorientierte Programmiersprache ähnlich wie Java.
jblas: Eine schnelle lineare Algebra-Bibliothek (JAVA). Die ATLAS ART-Implementierung basiert auf BLAS und LAPACK, dem De-facto-Industriestandard für Matrixberechnungen, und nutzt eine fortschrittliche Infrastruktur für alle Berechnungsverfahren, was sie sehr schnell macht.
Spark: Spark ist ein allgemeines paralleles Framework, das in der Scala-Sprache implementiert ist. Zusätzlich zu den Vorteilen von Hadoop MapReduce unterscheidet es sich von MapReduce dadurch, dass die Zwischenausgabeergebnisse von Jobs im Speicher gespeichert werden können Daher ist es nicht erforderlich, HDFS zu lesen oder zu schreiben, sodass Spark besser für MapReduce-Algorithmen geeignet ist, die eine Iteration erfordern, wie z. B. Data Mining und maschinelles Lernen. Es kann parallel zum Hadoop-Dateisystem betrieben werden. Cluster-Frameworks von Drittanbietern, die Mesos verwenden, können dieses Verhalten unterstützen.
Spark SQL: Als Teil des Apache Spark-Big-Data-Frameworks kann es für die strukturierte Datenverarbeitung verwendet werden und SQL-ähnliche Spark-Datenabfragen durchführen.
Spark Streaming: ein darauf aufbauendes Echtzeit-Computing-Framework Spark erweitert die Fähigkeit von Spark, Big-Data-Streaming-Daten zu verarbeiten.
Spark MLlib: MLlib ist die Implementierungsbibliothek von Spark für häufig verwendete Algorithmen für maschinelles Lernen. Derzeit (2014.05) unterstützt sie binäre Klassifizierung, Regression, Clustering und kollaborative Filterung. Es enthält auch einen grundlegenden Algorithmus zur Optimierung des Gradientenabstiegs auf niedriger Ebene. MLlib basiert auf der linearen Algebra-Bibliothek jblas und jblas selbst basiert auf dem Remote-Fortran-Programm.
Spark GraphX: GraphX ist eine API für Diagramme und paralleles Diagrammrechnen in Spark. Sie kann eine Datenlösung aus einer Hand zusätzlich zu Spark bereitstellen und einen vollständigen Satz von Pipeline-Operationen für das Diagrammrechnen ausführen bequem und effizient.
Fortran: Die früheste High-Level-Computerprogrammiersprache, die in wissenschaftlichen und technischen Informatikbereichen weit verbreitet ist.
BLAS: Grundlegende Unterprogrammbibliothek für lineare Algebra mit einer großen Anzahl bereits geschriebener Programme für lineare Algebraoperationen.
LAPACK: Bekannte offene Software, einschließlich der Lösung der häufigsten Probleme der numerischen linearen Algebra in wissenschaftlichen und technischen Berechnungen, wie z. B. der Lösung linearer Gleichungen, linearer Probleme der kleinsten Quadrate, Eigenwertproblemen und Singularwertproblemen usw.
ATLAS: Eine optimierte Version der BLAS-Bibliothek für lineare Algorithmen.
Spark Python: Spark ist in der Scala-Sprache geschrieben, aber zur Förderung und Kompatibilität werden Java- und Python-Schnittstellen bereitgestellt.
Python
Python: Eine objektorientierte, interpretierte Computerprogrammiersprache.
Cloud-Computing-Plattform
Docker: Open-Source-Anwendungscontainer-Engine
kvm: (Tastatur-Video-Maus)
openstack: offen Quelle Cloud Computing Management Platform Project
Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr zu erfahren!
Das obige ist der detaillierte Inhalt vonBig-Data-Lernroute. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!