Heim  >  Artikel  >  Betrieb und Instandhaltung  >  Was ist Apache Kafka-Datenerfassung?

Was ist Apache Kafka-Datenerfassung?

藏色散人
藏色散人Original
2019-09-29 10:45:265422Durchsuche

Was ist Apache Kafka-Datenerfassung?

Was ist die Apache-Kafka-Datenerfassung?

Apache Kafka – Einführung

Apache Kafka entstand bei LinkedIn und wurde 2011 zu einem Open-Source-Apache-Projekt und dann zu einem erstklassigen Projekt in Apache im Jahr 2012. Kafka ist in Scala und Java geschrieben. Apache Kafka ist ein fehlertolerantes Nachrichtensystem, das auf Publish-and-Subscribe basiert. Es ist schnell, skalierbar und verteilt.

In diesem Tutorial werden die Prinzipien, die Installation und der Betrieb von Kafka erläutert und anschließend die Bereitstellung des Kafka-Clusters vorgestellt. Abschließend befassen wir uns mit Echtzeitanwendungen und der Integration mit Big-Data-Technologien.

Bevor Sie mit diesem Tutorial fortfahren, müssen Sie über gute Kenntnisse von Java, Scala, verteilten Messagingsystemen und der Linux-Umgebung verfügen.

Bei Big Data werden große Datenmengen verwendet. Was die Daten betrifft, stehen wir vor zwei großen Herausforderungen. Die erste Herausforderung besteht darin, große Datenmengen zu sammeln, und die zweite Herausforderung besteht in der Analyse der gesammelten Daten. Um diese Herausforderungen zu meistern, benötigen Sie ein Nachrichtensystem.

Kafka ist für verteilte Hochdurchsatzsysteme konzipiert. Kafka eignet sich tendenziell gut als Alternative zu traditionelleren Mail-Brokern. Im Vergleich zu anderen Messaging-Systemen verfügt Kafka über einen besseren Durchsatz, integrierte Partitionierung, Replikation und inhärente Fehlertoleranz, was es ideal für umfangreiche Nachrichtenverarbeitungsanwendungen macht.

Was ist ein E-Mail-System?

Das Nachrichtensystem kümmert sich um die Übertragung von Daten von einer Anwendung zu einer anderen, sodass sich Anwendungen auf die Daten konzentrieren können, sich aber keine Gedanken darüber machen müssen, wie sie diese weitergeben. Verteiltes Messaging basiert auf dem Konzept zuverlässiger Nachrichtenwarteschlangen. Nachrichten werden asynchron zwischen der Clientanwendung und dem Nachrichtensystem in die Warteschlange gestellt. Es stehen zwei Arten von Messaging-Mustern zur Verfügung: eines ist ein Punkt-zu-Punkt-Messaging-System und das andere ist ein Publish-Subscribe-Messaging-System (Pub-Sub). Die meisten Nachrichtenmuster folgen Pub-Sub.

Peer-to-Peer-Nachrichtensystem

In einem Peer-to-Peer-System bleiben Nachrichten in Warteschlangen. Ein oder mehrere Verbraucher können Nachrichten aus der Warteschlange konsumieren, eine bestimmte Nachricht kann jedoch höchstens von einem Verbraucher konsumiert werden. Sobald ein Verbraucher eine Nachricht aus einer Warteschlange liest, verschwindet sie aus dieser Warteschlange. Ein typisches Beispiel für dieses System ist ein Auftragsverarbeitungssystem, bei dem jede Bestellung von einem Auftragsbearbeiter bearbeitet wird, es jedoch auch mehrere Auftragsbearbeiter gleichzeitig arbeiten können. Das folgende Diagramm zeigt den Aufbau.

Was ist Apache Kafka-Datenerfassung?

Publish-Subscribe-Nachrichtensystem

In einem Publish-Subscribe-System bleiben Nachrichten in Themen. Im Gegensatz zu Peer-to-Peer-Systemen kann ein Verbraucher ein oder mehrere Themen abonnieren und alle Nachrichten in diesem Thema konsumieren. Im Publish-Subscribe-System wird der Nachrichtengenerator als Herausgeber und der Nachrichtenkonsument als Abonnent bezeichnet. Ein Beispiel aus der Praxis ist Dish TV, das verschiedene Kanäle wie Sport, Filme, Musik usw. veröffentlicht. Jeder kann seine eigenen Kanäle abonnieren und seine Abonnementkanäle erhalten.

Was ist Apache Kafka-Datenerfassung?

Was ist Kafka?

Apache Kafka ist ein verteiltes Publish-Subscribe-Messagingsystem und eine leistungsstarke Warteschlange, die große Datenmengen verarbeiten kann und es Ihnen ermöglicht, Nachrichten von einem Endpunkt an einen anderen zu übermitteln. Kafka eignet sich für den Offline- und Online-Nachrichtenkonsum. Kafka-Nachrichten werden auf der Festplatte gespeichert und innerhalb des Clusters repliziert, um Datenverlust zu verhindern. Kafka basiert auf dem ZooKeeper-Synchronisierungsdienst. Es lässt sich perfekt in Apache Storm und Spark integrieren, um Datenanalysen in Echtzeit zu streamen.

Vorteile Hier sind einige Vorteile von Kafka –

Zuverlässigkeit – Kafka ist verteilt, partitioniert, repliziert und fehlertolerant.

Skalierbarkeit – Das Kafka-Messaging-System lässt sich problemlos und ohne Ausfallzeiten skalieren.

Dauerhaftigkeit – Kafka verwendet ein verteiltes Commit-Protokoll, was bedeutet, dass Nachrichten so schnell wie möglich auf der Festplatte verbleiben und somit dauerhaft sind.

Leistung – Kafka bietet einen hohen Durchsatz sowohl für Veröffentlichungs- als auch für Abonnementnachrichten. Die Leistung bleibt auch dann stabil, wenn viele Terabyte an Nachrichten gespeichert werden.

Kafka ist sehr schnell und garantiert keine Ausfallzeiten und keinen Datenverlust.

Anwendungsfälle

Kafka kann für viele Anwendungsfälle verwendet werden. Einige davon sind unten aufgeführt –

Metriken – Kafka wird häufig zum Ausführen von Überwachungsdaten verwendet. Dabei werden Statistiken aus verteilten Anwendungen aggregiert, um einen zentralen Feed mit Betriebsdaten zu erstellen.

Lösung zur Protokollaggregation – Kafka kann im gesamten Unternehmen verwendet werden, um Protokolle von mehreren Diensten zu sammeln und sie in einem Standardformat an mehrere Server bereitzustellen.

Streaming – Beliebte Frameworks wie Storm und Spark

Streaming liest Daten aus einem Thema, verarbeitet sie und schreibt die verarbeiteten Daten in ein neues Thema, das von Benutzern und Anwendungen verwendet werden kann. Die starke Haltbarkeit von Kafka ist auch bei der Stream-Verarbeitung sehr nützlich.

Kafka erfordert

Kafka ist eine einheitliche Plattform zur Verarbeitung aller Echtzeit-Datenquellen. Kafka unterstützt Nachrichten mit geringer Latenz und garantiert Fehlertoleranz bei Maschinenausfällen. Es ist in der Lage, eine große Anzahl unterschiedlicher Verbraucher zu bedienen. Kafka ist sehr schnell und führt 2 Millionen Schreibvorgänge pro Sekunde durch. Kafka speichert alle Daten auf der Festplatte, was im Wesentlichen bedeutet, dass alle Schreibvorgänge in den Seitencache des Betriebssystems (RAM) gehen. Dadurch werden Daten sehr effizient vom Seitencache an den Web-Socket übertragen.

Weitere Informationen zu Apache finden Sie in der Spalte Apache-Verwendungsanleitung!

Das obige ist der detaillierte Inhalt vonWas ist Apache Kafka-Datenerfassung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn