Heim  >  Artikel  >  Wie viele Tools werden für die Big-Data-Analyse benötigt?

Wie viele Tools werden für die Big-Data-Analyse benötigt?

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼Original
2019-07-25 17:25:414282Durchsuche

Wie viele Tools werden für die Big-Data-Analyse benötigt?

1. Hadoop-bezogene Tools

1. Hadoop-Projekt hat fast das Äquivalent zu Big Data. Es wächst weiter und hat sich zu einem vollständigen Ökosystem mit vielen Open-Source-Tools für hochskalierbares verteiltes Computing entwickelt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

2.Ambari

Als Teil des Hadoop-Ökosystems bietet dieses Apache-Projekt eine intuitive webbasierte Schnittstelle zum Konfigurieren, Verwalten und Überwachen von Hadoop-Clustern. Für Entwickler, die Ambari-Funktionalität in ihre eigenen Anwendungen integrieren möchten, stellt Ambari eine API zur Verfügung, die REST (Representational State Transfer Protocol) nutzt.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

3.Avro

Dieses Apache-Projekt bietet ein Datenserialisierungssystem mit umfangreichen Datenstrukturen und kompakten Formaten. Schemata werden in JSON definiert, das problemlos in dynamische Sprachen integriert werden kann.

4.Cascading

Cascading ist eine auf Hadoop basierende Anwendungsentwicklungsplattform. Bereitstellung von Unterstützungs- und Schulungsdiensten für Unternehmen.

5.Chukwa

Chukwa basiert auf Hadoop und kann Daten von großen verteilten Systemen zur Überwachung sammeln. Es enthält auch Tools zur Analyse und Anzeige von Daten.

Unterstützte Betriebssysteme: Linux und OSX.

6. Flume

Flume kann Protokolldaten von anderen Anwendungen sammeln und die Daten dann an Hadoop senden. Auf der offiziellen Website heißt es: „Es ist leistungsstark, fehlertolerant und verfügt über einen anpassbaren und optimierbaren Zuverlässigkeitsmechanismus sowie viele Failover- und Wiederherstellungsmechanismen.“

Unterstützte Betriebssysteme: Linux und OSX.

7.HBase

HBase ist für sehr große Tabellen mit Milliarden von Zeilen und Millionen von Spalten konzipiert. Es handelt sich um eine verteilte Datenbank, die eine Randomisierung für große Datenmengen durchführen kann Zugang. Es ähnelt in gewisser Weise Bigtable von Google, basiert jedoch auf Hadoop und dem Hadoop Distributed File System (HDFS).

8. Hadoop Distributed File System (HDFS)

HDFS ist ein Dateisystem für Hadoop, kann aber auch als unabhängiges verteiltes Dateisystem verwendet werden. Es basiert auf Java und ist fehlertolerant, hoch skalierbar und hoch konfigurierbar.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

9.Hive

ApacheHive ist ein Data Warehouse für das Hadoop-Ökosystem. Es ermöglicht Benutzern die Abfrage und Verwaltung großer Datenmengen mithilfe von HiveQL, einer SQL-ähnlichen Sprache.

10.Hivemall

Hivemall kombiniert eine Vielzahl von Algorithmen für maschinelles Lernen für Hive. Es umfasst viele hoch skalierbare Algorithmen für Datenklassifizierung, Rekursion, Empfehlung, k-nächste Nachbarn, Anomalieerkennung und Feature-Hashing.

11.Mahout

Laut der offiziellen Website besteht der Zweck des Mahout-Projekts darin, „eine Umgebung für den schnellen Aufbau skalierbarer, leistungsstarker Anwendungen für maschinelles Lernen zu schaffen“. HadoopMapReduce Es gibt viele Algorithmen für das Data Mining im Internet, darunter einige neuartige Algorithmen für Scala- und Spark-Umgebungen.

12.MapReduce

Als integraler Bestandteil von Hadoop bietet das MapReduce-Programmiermodell eine Methode zur Verarbeitung großer verteilter Datensätze. Es wurde ursprünglich von Google entwickelt, wird aber mittlerweile von mehreren anderen in diesem Artikel behandelten Big-Data-Tools verwendet, darunter CouchDB, MongoDB und Riak.

13.Oozie

Dieses Workflow-Planungstool wurde speziell für die Verwaltung von Hadoop-Aufgaben entwickelt. Es kann Aufgaben basierend auf Zeit oder Datenverfügbarkeit auslösen und lässt sich in MapReduce, Pig, Hive, Sqoop und viele andere verwandte Tools integrieren.

Unterstützte Betriebssysteme: Linux und OSX.

14.Pig

ApachePig ist eine Plattform für verteilte Big-Data-Analyse. Es basiert auf einer Programmiersprache namens PigLatin, die die Vorteile einer vereinfachten parallelen Programmierung, Optimierung und Skalierbarkeit bietet.

15.Sqoop

Unternehmen müssen häufig Daten zwischen relationalen Datenbanken und Hadoop übertragen, und Sqoop ist ein Tool, das diese Aufgabe erledigen kann. Es kann Daten in Hive oder HBase importieren und von Hadoop in ein relationales Datenbankverwaltungssystem (RDBMS) exportieren.

16.Spark

Als Alternative zu MapReduce ist Spark eine Datenverarbeitungs-Engine. Es soll bis zu 100-mal schneller als MapReduce sein, wenn es im Speicher verwendet wird, und bis zu 10-mal schneller als MapReduce, wenn es auf der Festplatte verwendet wird. Es kann mit Hadoop und Apache Mesos oder unabhängig davon verwendet werden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

17.Tez

Tez basiert auf Apache HadoopYARN, „einem Anwendungsframework, das den Aufbau eines komplexen gerichteten azyklischen Graphen für Aufgaben zur Datenverarbeitung ermöglicht.“ Es ermöglicht Hive und Pig, komplexe Aufgaben zu vereinfachen Andernfalls wären mehrere Schritte erforderlich.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

18.Zookeeper

Dieses Big-Data-Management-Tool gibt an, „ein zentraler Dienst zu sein, der zur Verwaltung von Konfigurationsinformationen, zum Benennen, zur Bereitstellung verteilter Synchronisierung und zur Bereitstellung von Gruppendiensten verwendet werden kann“. Knoten im Hadoop-Cluster, um miteinander zu koordinieren.

Unterstützte Betriebssysteme: Linux, Windows (nur für Entwicklungsumgebung geeignet) und OSX (nur für Entwicklungsumgebung geeignet).

Verwandte Empfehlungen: „

FAQ

2. Big-Data-Analyseplattformen und -Tools

19.Disco

Disco wurde ursprünglich von Nokia entwickelt. welches ebenfalls auf MapReduce basiert. Es umfasst ein verteiltes Dateisystem und eine Datenbank, die Milliarden von Schlüsseln und Werten unterstützen.

Unterstützte Betriebssysteme: Linux und OSX.

20. HPCC

Als Alternative zu Hadoop verspricht eine Big-Data-Plattform wie HPCC sehr hohe Geschwindigkeit und super Skalierbarkeit. Neben der kostenlosen Community-Version bietet HPCC Systems auch kostenpflichtige Enterprise-Versionen, kostenpflichtige Module, Schulungen, Beratung und andere Dienstleistungen an.

Unterstützte Betriebssysteme: Linux.

21. Lumify

Lumify gehört Altamira Technologies (bekannt für seine nationale Sicherheitstechnologie) und ist eine Open-Source-Big-Data-Integrations-, Analyse- und Visualisierungsplattform. Sie können einfach die Demoversion unter Try.Lumify.io ausprobieren, um sie in Aktion zu sehen.

Unterstützte Betriebssysteme: Linux.

22.Pandas

Das Pandas-Projekt umfasst Datenstrukturen und Datenanalysetools, die auf der Programmiersprache Python basieren. Es ermöglicht Unternehmen, Python als Alternative zu R für Big-Data-Analyseprojekte zu verwenden.

Unterstützte Betriebssysteme: Windows, Linux und OSX.

23.Storm

Storm ist jetzt ein Apache-Projekt, das die Echtzeitverarbeitung von Big Data ermöglicht (im Gegensatz zu Hadoop, das nur Batch-Task-Verarbeitung bietet). Zu seinen Nutzern zählen Twitter, The Weather Channel, WebMD, Alibaba, Yelp, Yahoo Japan, Spotify, Group, Flipboard und viele andere.

Unterstützte Betriebssysteme: Linux.

3. Datenbank/Data Warehouse

24.Blazegraph

Blazegraph hieß früher „Bigdata“ und ist ein hoch skalierbares, leistungsstarkes Datenbank. Es ist sowohl mit Open-Source- als auch mit kommerziellen Lizenzen erhältlich.

25. Cassandra

Diese NoSQL-Datenbank wurde ursprünglich von Facebook entwickelt und wird mittlerweile von mehr als 1.500 Unternehmensorganisationen verwendet, darunter Apple, die Europäische Organisation für Kernforschung (CERN), Comcast und Electronic Harbor , GitHub, GoDaddy, Hulu, Instagram, Intuit, Netfilx, Reddit und andere. Es kann sehr große Cluster unterstützen; das von Apple bereitgestellte Cassandra-System umfasst beispielsweise mehr als 75.000 Knoten und speichert mehr als 10 PB an Daten.

26.CouchDB

CouchDB ist als „eine Datenbank, die das Internet vollständig umfasst“ bekannt. Sie speichert Daten in JSON-Dokumenten, die über einen Webbrowser abgefragt und zur Verarbeitung mit JavaScript verwendet werden können. Es ist einfach zu bedienen, hochverfügbar und in einem verteilten Netzwerk skalierbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Android.

27.FlockDB

FlockDB wurde von Twitter entwickelt und ist eine sehr schnelle und skalierbare Diagrammdatenbank, die sich gut zum Speichern von Daten aus sozialen Netzwerken eignet. Obwohl es weiterhin zum Download verfügbar ist, wurde die Open-Source-Version des Projekts seit einiger Zeit nicht mehr aktualisiert.

28.Hibari

Dieses auf Erlang basierende Projekt behauptet, „ein verteiltes, geordnetes Schlüsselwertspeichersystem zu sein, das eine starke Konsistenz garantiert.“ Es wurde ursprünglich von Gemini Mobile Technologies entwickelt und wird heute von mehreren Telekommunikationsbetreibern in Europa und Asien verwendet.

29.Hypertable

Hypertable ist eine mit Hadoop kompatible Big-Data-Datenbank, die eine extrem hohe Leistung verspricht. Zu ihren Nutzern gehören Electronic Harbor, Baidu, Gaopeng, Yelp und viele andere Internetunternehmen. Bereitstellung von Unterstützungsdiensten für Unternehmen.

Unterstützte Betriebssysteme: Linux und OSX.

30.Impala

Cloudera behauptet, dass die SQL-basierte Impala-Datenbank „die führende Open-Source-Analysedatenbank für Apache Hadoop“ ist. Es kann als eigenständiges Produkt heruntergeladen werden und ist Teil der kommerziellen Big-Data-Produkte von Cloudera.

Unterstützte Betriebssysteme: Linux und OSX.

31. InfoBright Community Edition

InfoBright wurde für die Datenanalyse entwickelt und ist eine spaltenorientierte Datenbank mit einem hohen Komprimierungsverhältnis. InfoBright.com bietet kostenpflichtige Produkte an, die auf demselben Code basieren, und bietet Supportdienste an.

Unterstützte Betriebssysteme: Windows und Linux.

32.MongoDB

Mit über 10 Millionen Downloads ist mongoDB eine äußerst beliebte NoSQL-Datenbank. Enterprise Edition, Support, Schulungen und zugehörige Produkte und Dienstleistungen sind auf MongoDB.com verfügbar.

Unterstützte Betriebssysteme: Windows, Linux, OSX und Solaris.

Das obige ist der detaillierte Inhalt vonWie viele Tools werden für die Big-Data-Analyse benötigt?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn