Apache Kafka データ収集とは何ですか-Apache-php.cn

ホームページ

運用・保守

Apache

Apache Kafka データ収集とは何ですか

藏色散人

Sep 29, 2019 am 10:45 AM

apache

Apache Kafka データ収集とは何ですか?

Apache Kafka - はじめに

Apache Kafka は LinkedIn で誕生し、2011 年にオープンソースの Apache プロジェクトになり、その後 2011 年に Apache のファーストクラスプロジェクトになりました。 2012年。 Kafka は Scala と Java で書かれています。 Apache Kafka は、パブリッシュとサブスクライブに基づいたフォールトトレラントなメッセージングシステムです。高速かつスケーラブルで、設計により分散されています。

このチュートリアルでは、Kafka の原理、インストール、操作について説明し、その後、Kafka クラスターのデプロイメントについて紹介します。最後に、リアルタイムアプリケーションとビッグデータテクノロジーとの統合について説明します。

このチュートリアルに進む前に、Java、Scala、分散メッセージングシステム、および Linux 環境についてよく理解しておく必要があります。

ビッグデータでは、大量のデータが使用されます。データに関しては、主に 2 つの課題があります。 1 つ目の課題は大量のデータを収集する方法であり、2 つ目は収集したデータを分析することです。これらの課題を克服するには、メッセージングシステムが必要です。

Kafka は、分散型高スループットシステム向けに設計されています。 Kafka は、従来のメールブローカーの代替としてうまく機能する傾向があります。他のメッセージングシステムと比較して、Kafka は優れたスループット、組み込みのパーティショニング、レプリケーション、固有のフォールトトレランスを備えているため、大規模なメッセージ処理アプリケーションに最適です。

メールシステムとは何ですか?

メッセージングシステムは、あるアプリケーションから別のアプリケーションにデータを転送する役割を担うため、アプリケーションはデータに集中でき、データの共有方法については気にする必要がありません。分散メッセージングは、信頼性の高いメッセージキューの概念に基づいています。メッセージは、クライアントアプリケーションとメッセージングシステムの間で非同期的にキューに入れられます。 2 種類のメッセージングパターンが使用可能です。1 つはポイントツーポイント、もう 1 つはパブリッシュ/サブスクライブ (pub-sub) メッセージングシステムです。ほとんどのメッセージングパターンは pub-sub に従います。

ポイントツーポイントメッセージングシステム

ポイントツーポイントシステムでは、メッセージはキューに残ります。 1 つ以上のコンシューマーがキューからメッセージを消費できますが、特定のメッセージを消費できるのは最大でも 1 つのコンシューマーだけです。コンシューマがキューからメッセージを読み取ると、そのメッセージはキューから消えます。このシステムの典型的な例は注文処理システムです。このシステムでは、各注文は 1 つの注文処理装置によって処理されますが、複数の注文処理装置が同時に動作することもできます。以下の図はその構造を示しています。

Apache Kafka データ収集とは何ですか

パブリッシュ/サブスクライブメッセージングシステム

パブリッシュ/サブスクライブシステムでは、メッセージはトピック内に残ります。ピアツーピアシステムとは異なり、コンシューマは 1 つ以上のトピックをサブスクライブし、そのトピック内のすべてのメッセージを消費できます。パブリッシュ/サブスクライブシステムでは、メッセージジェネレーターはパブリッシャーと呼ばれ、メッセージコンシューマーはサブスクライバーと呼ばれます。実際の例としては、スポーツ、映画、音楽などのさまざまなチャンネルを公開している Dish TV があります。誰でも自分のチャンネルに登録してサブスクリプションチャンネルを取得できます。

Apache Kafka データ収集とは何ですか

#カフカとは何ですか?

Apache Kafka は、分散パブリッシュ/サブスクライブメッセージングシステムであり、大量のデータを処理でき、あるエンドポイントから別のエンドポイントにメッセージを配信できる強力なキューです。 Kafka は、オフラインおよびオンラインのメッセージ利用に適しています。 Kafka メッセージはディスク上に保持され、データ損失を防ぐためにクラスター内でレプリケートされます。 Kafka は、ZooKeeper 同期サービスに基づいて構築されています。 Apache Storm および Spark と完全に統合され、リアルタイムでデータ分析をストリーミングします。

利点以下に Kafka のいくつかの利点を示します。 -

信頼性 - Kafka は分散、分割、複製され、フォールトトレラントです。

スケーラビリティ - Kafka メッセージングシステムは、ダウンタイムなしで簡単に拡張できます。

耐久性 - Kafka は分散コミットログを使用します。つまり、メッセージはできるだけ早くディスク上に残るため、耐久性があります。

パフォーマンス - Kafka は、パブリッシュメッセージとサブスクライブメッセージの両方で高いスループットを備えています。数テラバイトのメッセージが保存されている場合でも、安定したパフォーマンスを維持します。

Kafka は非常に高速で、ダウンタイムとデータ損失がゼロであることを保証します。

ユースケース

Kafka は多くのユースケースに使用できます。それらの一部を以下に示します。

メトリクス - Kafka は、監視データの実行によく使用されます。これには、分散アプリケーションから統計を集約して運用データの一元化フィードを生成することが含まれます。

ログ集約ソリューション - Kafka を組織全体で使用して、複数のサービスからログを収集し、それらを標準形式で複数のサーバーに提供できます。

ストリーム処理 - Storm や Spark などの一般的なフレームワーク

ストリーミングは、トピックからデータを読み取り、処理し、処理されたデータをユーザーとアプリケーションが利用できる新しいトピックに書き込みます。 Kafka の強力な耐久性はストリーム処理でも非常に役立ちます。

Kafka には

が必要です

Kafka は、すべてのリアルタイムデータソースを処理するための統合プラットフォームです。 Kafka は、低遅延メッセージングをサポートし、マシン障害が発生した場合のフォールトトレランスを保証します。多数の異なる消費者を処理する能力があります。 Kafka は非常に高速で、1 秒あたり 200 万回の書き込みを実行します。 Kafka はすべてのデータをディスクに保存します。これは基本的に、すべての書き込みがオペレーティングシステム (RAM) ページキャッシュに送られることを意味します。これにより、データがページキャッシュから Web ソケットに非常に効率的に転送されます。

Apache 関連の知識の詳細については、Apache 使用法チュートリアル列をご覧ください。

以上がApache Kafka データ収集とは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Apacheの遺産：何が有名になったのですか？Apr 15, 2025 am 12:19 AM

apachebecamefamousdueToitsopen-sourcenature、modulardesign、andstrongcommunitysupport.1）itseopen-sourcemodemodemissiveapachelicensewidedoption.2）hemodulararchitectureallowed edizadaptability.3）avibrantcomunit.3）

Apacheの利点：パフォーマンスと柔軟性Apr 14, 2025 am 12:08 AM

Apacheのパフォーマンスと柔軟性により、Webサーバーで際立っています。 1）パフォーマンスの利点は、マルチプロセスおよびマルチスレッドモデルを通じて実装される効率的な処理とスケーラビリティに反映されます。 2）柔軟性は、モジュラー設計と構成の柔軟性に起因し、モジュールをロードし、要件に応じてサーバーの動作を調整できます。

Apache80ポートが占有されている場合はどうすればよいですかApr 13, 2025 pm 01:24 PM

Apache 80ポートが占有されている場合、ソリューションは次のとおりです。ポートを占有するプロセスを見つけて閉じます。ファイアウォールの設定を確認して、Apacheがブロックされていないことを確認してください。上記の方法が機能しない場合は、Apacheを再構成して別のポートを使用してください。 Apacheサービスを再起動します。

Apacheを開始できない問題を解決する方法Apr 13, 2025 pm 01:21 PM

Apacheは、次の理由で起動できません。構成ファイル構文エラー。他のアプリケーションポートとの競合。権限の問題。メモリから。デッドロックを処理します。デーモン障害。 Selinux許可の問題。ファイアウォールの問題。ソフトウェアの競合。

ApacheでCGIディレクトリを設定する方法Apr 13, 2025 pm 01:18 PM

ApacheでCGIディレクトリを設定するには、次の手順を実行する必要があります。「CGI-Bin」などのCGIディレクトリを作成し、Apacheの書き込み許可を付与します。 Apache構成ファイルに「Scriptalias」ディレクティブブロックを追加して、CGIディレクトリを「/cgi-bin」URLにマッピングします。 Apacheを再起動します。

Apacheバージョンを表示する方法Apr 13, 2025 pm 01:15 PM

Apacheサーバーでバージョンを表示するには3つの方法があります。コマンドライン（Apachectl -vまたはapache2ctl -v）を介して、サーバーステータスページ（http：//＆lt; server ipまたはdomain name＆gt;/server -status）を確認します。

Apacheサーバーを再起動する方法Apr 13, 2025 pm 01:12 PM

Apacheサーバーを再起動するには、次の手順に従ってください。Linux/MacOS：sudo systemctl restart apache2を実行します。 Windows：Net Stop apache2.4を実行し、ネット開始apache2.4を実行します。 Netstat -A |を実行しますサーバーのステータスを確認するには、STR 80を見つけます。

Apacheのサーバー名以上の削除方法Apr 13, 2025 pm 01:09 PM

Apacheから追加のservernameディレクティブを削除するには、次の手順を実行できます。追加のservernameディレクティブを識別して削除します。 Apacheを再起動して変更を有効にします。構成ファイルを確認して、変更を確認します。サーバーをテストして、問題が解決されていることを確認します。

See all articles