Heim > Artikel > Betrieb und Instandhaltung > Was ist Apache Hadoop?
Apache Hadoop ist ein Framework zum Ausführen von Anwendungen auf großen Clustern, die auf Allzweck-Hardware basieren. Es implementiert das Map/Reduce-Programmierparadigma, bei dem Rechenaufgaben in kleine Blöcke (mehrmals) aufgeteilt und auf verschiedenen Knoten ausgeführt werden.
Darüber hinaus stellt es auch ein verteiltes Dateisystem (HDFS) bereit, in dem Daten auf Rechenknoten gespeichert werden, um eine extrem hohe rechenzentrumsübergreifende Gesamtbandbreite bereitzustellen.
Framework-Rolle
Eine neue Wahl für den Besitz von Apache Hadoop Big Data
Physisches DAS ist immer noch der beste Speicher für Apache Hadoop Media, weil die relevanten hochrangigen Fach- und Geschäftsunternehmen die Speichermedien durch Forschung und Praxis bestimmt haben. Allerdings gibt es große Probleme mit der Apache Hadoop-Datenspeicherung auf Basis von HDFS.
Zuerst besteht die Standardlösung darin, dass alle Apache Hadoop-Daten kopiert, verschoben und dann gesichert werden. HDFS basiert auf der E/A-Optimierung großer Apache Hadoop-Datenblöcke, wodurch Zeit für die Apache Hadoop-Dateninteraktion eingespart wird. Eine spätere Nutzung bedeutet in der Regel das Herauskopieren der Apache Hadoop-Daten. Obwohl es lokale Snapshots gibt, sind diese zu diesem Zeitpunkt nicht vollständig konsistent oder vollständig wiederherstellbar.
Aus diesen und anderen Gründen sind Anbieter von Unternehmensspeichern schlau genug, Änderungen an HDFS vorzunehmen, und einige Big-Data-Experten vom Typ Geek lassen Apache Hadoop-Berechnungen auf externen Speicher zurückgreifen. Aber für viele Unternehmen bietet Apache Hadoop einen guten Kompromiss: Es ist kein wartungsintensiver Speicher oder die Anpassung neuer Methoden zur Speicherverwaltung erforderlich, was mit Kosten verbunden ist.
Viele Apache Hadoop-Anbieter bieten Remote-HDFS-Schnittstellen zu Apache Hadoop-Clustern und sind die erste Wahl für Apache Hadoop-Unternehmen mit großem Geschäftsvolumen. Da sie sich in Isilon befinden, werden alle anderen Apache Hadoop-Daten verarbeitet, um große Datenmengen zu schützen, einschließlich der Sicherheit von Apache Hadoop und anderen Problemen. Ein weiterer Vorteil besteht darin, dass auf extern gespeicherte Daten oft von anderen Apache Hadoop-Protokollspeichern aus zugegriffen werden kann, was Arbeitsabläufe unterstützt und die Übertragung von Daten und Datenkopien nach Bedarf innerhalb des Unternehmens einschränkt. Auch Apache Hadoop verarbeitet Big Data nach diesem Prinzip, einer Big-Data-Referenzarchitektur, kombiniert mit einer kombinierten Speicherlösung, direkt im Apache Hadoop-Cluster.
Erwähnenswert ist auch die virtualisierte Big-Data-Analyse von Apache Hadoop. Theoretisch können alle Rechen- und Speicherknoten virtualisiert werden. VMware und RedHat/OpenStack bieten Virtualisierungslösungen für Hadoop. Allerdings können fast alle Apache Hadoop-Hostknoten die Speicherprobleme von Unternehmen nicht lösen. Es emuliert die Rechenaspekte von Apache Hadoop und ermöglicht es Unternehmen, vorhandene Datensätze (SAN/NAS) zu beschleunigen und mit Apache Hadoop auf ihr HDFS-Overlay zu übertragen. Auf diese Weise kann Apache Hadoop Big Data Analytics alle Änderungen an den Daten in einem Rechenzentrum ohne Änderungen durchführen und dabei die neue Apache Hadoop-Speicherarchitektur und neue Datenflüsse oder Datenverwaltung nutzen.
Die meisten Apache Hadoop-Distributionen basieren auf dem Open-Source-HDFS (aktueller softwaredefinierter Speicher für Big Data) in der Nähe von Apache Hadoop. Der Unterschied besteht darin, dass Apache Hadoop einen anderen Ansatz verfolgt. Dies ist im Grunde der Speicher, den Apache Hadoop für Unternehmen benötigt, um eine eigene kompatible Speicherschicht auf Apache Hadoop HDFS aufzubauen. Die MAPR-Version beherrscht die I/O-Unterstützung für die Snapshot-Replikation vollständig und Apache Hadoop ist auch mit anderen nativ unterstützten Protokollen wie NFS kompatibel. Apache Hadoop ist außerdem sehr effektiv und hilft vor allem bei der Bereitstellung von Business-Intelligence-Anwendungen für Unternehmen, die Entscheidungsunterstützungslösungen ausführen, die auf Big Data für historische und Echtzeitinformationen basieren. Ähnlich der Idee hat IBM die High Performance Computing System Storage API für die Apache Hadoop-Distribution als Alternative zu HDFS veröffentlicht
Eine weitere interessante Lösung für Apache Hadoop, die bei der Lösung von Datenproblemen helfen kann. Eine davon ist dataguise, ein Datensicherheits-Startup, das einige eindeutige IP-Adressen der großen Datenmengen von Apache Hadoop effektiv schützen kann. Apache Hadoop kann vertrauliche Informationen in einem großen Datencluster automatisch identifizieren und global abdecken oder verschlüsseln. Horizontale Datenwissenschaft ist eine aufstrebende Technologie in diesem Bereich. Wenn Sie Ihre Datendateien mit Apache Hadoop verbinden, speichert Apache Hadoop sie automatisch, egal wo sich die Daten befinden, sogar HDFS. Die von Apache Hadoop Big Data bereitgestellte Ausgabe hilft bei der schnellen Erstellung von Geschäftsanwendungen, indem die Quelle und der Speicherort der Daten verwendet werden, um die vom Unternehmen benötigten Informationen zu sammeln.
Wenn Sie sich schon immer für Apache Hadoop-Management oder Enterprise Data Center Storage interessiert haben, ist dies ein guter Zeitpunkt, Ihr Wissen über Apache Hadoop Big Data zu aktualisieren und wenn Sie mit Apache Hadoop Big Data auf dem Laufenden bleiben möchten. Wenn Sie in die Fußstapfen treten, sollten Sie den Einsatz neuer Technologien von Apache Hadoop nicht ablehnen.
Weitere technische Artikel zu Apache finden Sie in der Spalte Apache-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonWas ist Apache Hadoop?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!