Die drei Kernkomponenten von HADOOP sind HDFS, MapReduce und YARN. Detaillierte Einführung: 1. HDFS: Verteiltes Dateisystem, das zum Speichern großer Datenmengen in Hadoop-Clustern verwendet wird. Es verfügt über eine hohe Fehlertoleranz, kann Daten über mehrere Datenknoten hinweg speichern und bietet einen Datenzugriff mit hohem Durchsatz. 2. MapReduce: wird für die parallele Verarbeitung großer Datensätze verwendet. Es zerlegt Big-Data-Aufgaben in mehrere kleine Aufgaben, verarbeitet sie parallel auf mehreren Knoten und fasst schließlich die Ergebnisse zusammen. 3. YARN: Verantwortlich für die Zuweisung und Verwaltung von Clusterressourcen.
1. HDFS: HADOOP Distributed File System
HDFS (Hadoop Distributed File System) ist hauptsächlich für die Speicherung und das Lesen von Clusterdaten verantwortlich. Slave-Architektur (Master/Slave) für verteilte Dateisysteme. HDFS unterstützt eine traditionelle hierarchische Dateiorganisationsstruktur, bei der Benutzer oder Anwendungen Verzeichnisse erstellen und dann Dateien in diesen Verzeichnissen speichern können. Die hierarchische Struktur des Dateisystem-Namespace ähnelt der der meisten vorhandenen Dateisysteme. Dateien können über Dateipfade erstellt, gelesen, aktualisiert und gelöscht werden. Aufgrund der Natur des verteilten Speichers unterscheidet er sich jedoch offensichtlich von herkömmlichen Dateisystemen.
HDFS-Vorteile:
2. MapReduce: Datenverarbeitung im großen Maßstab ) und Reduzieren (Reduktion).
Wenn eine MapReduce-Aufgabe gestartet wird, liest die Map-Seite die Daten auf HDFS, ordnet die Daten dem erforderlichen Schlüssel-Wert-Paartyp zu und überträgt sie an die Reduce-Seite. Die Reduce-Seite empfängt die von der Map-Seite übergebenen Schlüssel-Wert-Paar-Daten, gruppiert sie nach verschiedenen Schlüsseln, verarbeitet jede Datengruppe mit demselben Schlüssel, erhält neue Schlüssel-Wert-Paare und gibt sie an HDFS aus. Dies ist der Kern Idee von MapReduce. Ein vollständiger MapReduce-Prozess umfasst Dateneingabe und Sharding, Datenverarbeitung in der Kartenphase, Datenverarbeitung in der Reduzierphase, Datenausgabe und andere Phasen:Eingabedaten lesen. Daten im MapReduce-Prozess werden aus dem verteilten HDFS-Dateisystem gelesen. Wenn eine Datei auf HDFS hochgeladen wird, wird sie im Allgemeinen entsprechend 128 MB in mehrere Datenblöcke unterteilt. Wenn Sie also das MapReduce-Programm ausführen, generiert jeder Datenblock eine Karte. Sie können die Anzahl der Karten jedoch auch anpassen, indem Sie die Dateifragmentgröße zurücksetzen . Beim Ausführen von MapReduce wird die Datei entsprechend der eingestellten Fragmentgröße neu aufgeteilt (Split), und ein Datenblock der Fragmentgröße entspricht einer Map.
Hadoops MapReduce-Architektur heißt YARN (Yet Another Resource Negotiator, ein weiterer Ressourcenkoordinator) und ist der Kern eines effizienteren Ressourcenmanagements.
YARN besteht hauptsächlich aus drei Modulen: Resource Manager (RM), Node Manager (NM) und Application Master (AM):Resource Manager ist für die Überwachung, Zuweisung und Verwaltung aller Ressourcen verantwortlich;
Das obige ist der detaillierte Inhalt vonWas sind die drei Kernkomponenten von HADOOP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!