Heim >häufiges Problem >Wie viele Tools werden für die Big-Data-Analyse benötigt?
1. Hadoop-bezogene Tools
1. Hadoop-Projekt hat fast das Äquivalent zu Big Data. Es wächst weiter und hat sich zu einem vollständigen Ökosystem mit vielen Open-Source-Tools für hochskalierbares verteiltes Computing entwickelt.
Unterstützte Betriebssysteme: Windows, Linux und OSX.
2.Ambari
Als Teil des Hadoop-Ökosystems bietet dieses Apache-Projekt eine intuitive webbasierte Schnittstelle zum Konfigurieren, Verwalten und Überwachen von Hadoop-Clustern. Für Entwickler, die Ambari-Funktionalität in ihre eigenen Anwendungen integrieren möchten, stellt Ambari eine API zur Verfügung, die REST (Representational State Transfer Protocol) nutzt.
Unterstützte Betriebssysteme: Windows, Linux und OSX.
3.Avro
Dieses Apache-Projekt bietet ein Datenserialisierungssystem mit umfangreichen Datenstrukturen und kompakten Formaten. Schemata werden in JSON definiert, das problemlos in dynamische Sprachen integriert werden kann.
4.Cascading
Cascading ist eine auf Hadoop basierende Anwendungsentwicklungsplattform. Bereitstellung von Unterstützungs- und Schulungsdiensten für Unternehmen.
5.Chukwa
Chukwa basiert auf Hadoop und kann Daten von großen verteilten Systemen zur Überwachung sammeln. Es enthält auch Tools zur Analyse und Anzeige von Daten.
Unterstützte Betriebssysteme: Linux und OSX.
6. Flume
Flume kann Protokolldaten von anderen Anwendungen sammeln und die Daten dann an Hadoop senden. Auf der offiziellen Website heißt es: „Es ist leistungsstark, fehlertolerant und verfügt über einen anpassbaren und optimierbaren Zuverlässigkeitsmechanismus sowie viele Failover- und Wiederherstellungsmechanismen.“
Unterstützte Betriebssysteme: Linux und OSX.
7.HBase
HBase ist für sehr große Tabellen mit Milliarden von Zeilen und Millionen von Spalten konzipiert. Es handelt sich um eine verteilte Datenbank, die eine Randomisierung für große Datenmengen durchführen kann Zugang. Es ähnelt in gewisser Weise Bigtable von Google, basiert jedoch auf Hadoop und dem Hadoop Distributed File System (HDFS).
8. Hadoop Distributed File System (HDFS)
HDFS ist ein Dateisystem für Hadoop, kann aber auch als unabhängiges verteiltes Dateisystem verwendet werden. Es basiert auf Java und ist fehlertolerant, hoch skalierbar und hoch konfigurierbar.
Unterstützte Betriebssysteme: Windows, Linux und OSX.
9.Hive
ApacheHive ist ein Data Warehouse für das Hadoop-Ökosystem. Es ermöglicht Benutzern die Abfrage und Verwaltung großer Datenmengen mithilfe von HiveQL, einer SQL-ähnlichen Sprache.
10.Hivemall
Hivemall kombiniert eine Vielzahl von Algorithmen für maschinelles Lernen für Hive. Es umfasst viele hoch skalierbare Algorithmen für Datenklassifizierung, Rekursion, Empfehlung, k-nächste Nachbarn, Anomalieerkennung und Feature-Hashing.
11.Mahout
Laut der offiziellen Website besteht der Zweck des Mahout-Projekts darin, „eine Umgebung für den schnellen Aufbau skalierbarer, leistungsstarker Anwendungen für maschinelles Lernen zu schaffen“. HadoopMapReduce Es gibt viele Algorithmen für das Data Mining im Internet, darunter einige neuartige Algorithmen für Scala- und Spark-Umgebungen.
12.MapReduce
Als integraler Bestandteil von Hadoop bietet das MapReduce-Programmiermodell eine Methode zur Verarbeitung großer verteilter Datensätze. Es wurde ursprünglich von Google entwickelt, wird aber mittlerweile von mehreren anderen in diesem Artikel behandelten Big-Data-Tools verwendet, darunter CouchDB, MongoDB und Riak.
13.Oozie
Dieses Workflow-Planungstool wurde speziell für die Verwaltung von Hadoop-Aufgaben entwickelt. Es kann Aufgaben basierend auf Zeit oder Datenverfügbarkeit auslösen und lässt sich in MapReduce, Pig, Hive, Sqoop und viele andere verwandte Tools integrieren.
Unterstützte Betriebssysteme: Linux und OSX.
14.Pig
ApachePig ist eine Plattform für verteilte Big-Data-Analyse. Es basiert auf einer Programmiersprache namens PigLatin, die die Vorteile einer vereinfachten parallelen Programmierung, Optimierung und Skalierbarkeit bietet.
15.Sqoop
Unternehmen müssen häufig Daten zwischen relationalen Datenbanken und Hadoop übertragen, und Sqoop ist ein Tool, das diese Aufgabe erledigen kann. Es kann Daten in Hive oder HBase importieren und von Hadoop in ein relationales Datenbankverwaltungssystem (RDBMS) exportieren.
16.Spark
Als Alternative zu MapReduce ist Spark eine Datenverarbeitungs-Engine. Es soll bis zu 100-mal schneller als MapReduce sein, wenn es im Speicher verwendet wird, und bis zu 10-mal schneller als MapReduce, wenn es auf der Festplatte verwendet wird. Es kann mit Hadoop und Apache Mesos oder unabhängig davon verwendet werden.
Unterstützte Betriebssysteme: Windows, Linux und OSX.
17.Tez
Tez basiert auf Apache HadoopYARN, „einem Anwendungsframework, das den Aufbau eines komplexen gerichteten azyklischen Graphen für Aufgaben zur Datenverarbeitung ermöglicht.“ Es ermöglicht Hive und Pig, komplexe Aufgaben zu vereinfachen Andernfalls wären mehrere Schritte erforderlich.
Unterstützte Betriebssysteme: Windows, Linux und OSX.
18.Zookeeper
Dieses Big-Data-Management-Tool gibt an, „ein zentraler Dienst zu sein, der zur Verwaltung von Konfigurationsinformationen, zum Benennen, zur Bereitstellung verteilter Synchronisierung und zur Bereitstellung von Gruppendiensten verwendet werden kann“. Knoten im Hadoop-Cluster, um miteinander zu koordinieren.
Unterstützte Betriebssysteme: Linux, Windows (nur für Entwicklungsumgebung geeignet) und OSX (nur für Entwicklungsumgebung geeignet).
Verwandte Empfehlungen: „
FAQDas obige ist der detaillierte Inhalt vonWie viele Tools werden für die Big-Data-Analyse benötigt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!