Apache Druid を 1 つの記事で詳しく説明-Apache-php.cn

ホームページ

運用・保守

Apache

Apache Druid を 1 つの記事で詳しく説明

王林

Feb 18, 2021 am 10:20 AM

apachedruid

Apache Druid を 1 つの記事で詳しく説明

前書き:

Apache ドルイドとは何ですか?

時系列データベース、データウェアハウス、全文検索システムの特徴を統合した分析データプラットフォームです。

この記事では、ドルイドの特性、使用シナリオ、技術的特徴、アーキテクチャなどを簡単に理解できます。これは、データストレージソリューションを選択し、ドルイドのストレージと時系列について深く理解するのに役立ちます。ストレージ。

概要

最新のクラウドネイティブ、ストリームネイティブの分析データベース

Druid は、高速なクエリと高速なデータ取り込みワークフロー向けに設計されています。 Druid の強みは、強力な UI、実行時の操作可能なクエリ、および高性能の同時処理にあります。 Druid は、多様なユーザーシナリオを満たすデータウェアハウスのオープンソース代替手段とみなすことができます。

既存のデータパイプラインとの簡単な統合

Druid は、メッセージバス (Kafka、Amazon Kinesis など) からデータをストリーミングしたり、データレイク (HDFS、Amazon S3 など) からファイルをバッチロードしたりできます。および他の同様のデータソース)。

従来のソリューションよりも 100 倍高速なパフォーマンス

データ取り込みとデータクエリに関する Druid のベンチマークパフォーマンステストは、従来のソリューションを大幅に上回っています。

Druid のアーキテクチャは、データウェアハウス、時系列データベース、検索システムの最良の機能を組み合わせたものです。

新しいワークフローのロックを解除

Druid は、クリックストリーム、APM (アプリケーションパフォーマンス管理システム)、サプライチェーン (サプライチェーン)、ネットワークテレメトリ、デジタルマーケティング、その他のイベント駆動型のシナリオのシナリオをロック解除します Newクエリ方法とワークフロー。 Druid は、リアルタイムデータと履歴データの高速なアドホッククエリを実行できるように構築されています。

AWS/GCP/Azure、ハイブリッドクラウド、k8s、レンタルサーバーにデプロイ

Druid はあらゆる *NIX 環境にデプロイできます。オンプレミス環境でもクラウド環境でも。 Druid のデプロイは非常に簡単です。サービスを追加または削除することでスケールアップまたはスケールダウンします。

使用シナリオ

Apache Druid は、リアルタイムのデータ抽出、高パフォーマンスのクエリ、高可用性の要件が高いシナリオに適しています。したがって、Druid は、豊富な GUI を備えた分析システムとして、または高速な集計を必要とする同時実行性の高い API のバックエンドとしてよく使用されます。 Druid はイベント指向のデータにより適しています。

一般的な使用シナリオ:

クリックストリーム分析 (Web およびモバイル分析)

リスク管理分析

ネットワークテレメトリ分析 (ネットワークパフォーマンスの監視)

サーバー指標ストレージ

サプライチェーン分析(製造指標)

アプリケーションパフォーマンス指標

ビジネスインテリジェンス/リアルタイムオンライン分析システムOLAP

これらの使用シナリオは以下で詳細に分析されます:

ユーザーのアクティビティと行動

Druid は、クリックストリーム、アクセスストリーム、およびアクティビティストリームデータでよく使用されます。具体的なシナリオには、ユーザーエンゲージメントの測定、製品発売の A/B テストデータの追跡、ユーザーの使用パターンの理解などが含まれます。 Druid は、独自のカウント指標などのユーザー指標を正確かつ近似的に計算できます。これは、毎日のアクティブユーザーなどの指標を 1 秒以内に概算値 (平均精度 98%) で計算して全体的な傾向を確認したり、正確に計算して関係者に提示したりできることを意味します。 Druid を使用すると、特定のアクションを実行し、別のアクションを実行しなかったユーザーの数を測定する「ファネル分析」を実行できます。これは、ユーザー登録を追跡する製品に役立ちます。

ネットワークフロー

Druid は、ネットワークフローデータの収集と分析によく使用されます。 Druid は、ストリーミングデータをセグメント化して任意の属性と組み合わせて管理するために使用されます。 Druid は大量のネットワークフローレコードを抽出でき、クエリ時に数十の属性をすばやく組み合わせて並べ替えることができるため、ネットワークフロー分析が容易になります。これらの属性には、IP 番号やポート番号などのコア属性に加え、場所、サービス、アプリケーション、デバイス、ASN などの追加の拡張属性が含まれます。 Druid は非固定スキーマを処理できるため、必要な属性を追加できます。

デジタルマーケティング

Druid は、オンライン広告データの保存とクエリによく使用されます。通常、このデータは広告サービスプロバイダーから提供され、広告キャンペーンのパフォーマンス、クリック浸透率、コンバージョン率 (消費率) などの指標を測定して理解することが重要です。

Druid はもともと、広告データのための強力なユーザー指向の分析アプリケーションとして設計されました。広告データの保存に関しては、Druid はすでに多くの制作実践を行っており、世界中の多数のユーザーが PB レベルのデータを数千台のサーバーに保存しています。

アプリケーションパフォーマンス管理

Druid は、アプリケーションによって生成された運用データを追跡するためによく使用されます。ユーザーアクティビティの使用シナリオと同様に、このデータはユーザーがアプリケーションとどのように対話するかに関するものである場合もあれば、アプリケーション自体によって報告される指標データである場合もあります。 Druid を使用すると、ドリルダウンしてアプリケーションのさまざまなコンポーネントがどのように実行されているかを発見し、ボトルネックを特定し、問題を特定できます。

多くの従来のソリューションとは異なり、Druid には、ストレージ容量が小さく、複雑さが小さく、データスループットが大きいという特徴があります。数千のプロパティに関するアプリケーションイベントを迅速に分析し、複雑な負荷、パフォーマンス、使用率のメトリクスを計算できます。たとえば、API エンドポイントは 95% のクエリレイテンシに基づいています。データを日ごとにセグメント化する、ユーザーのポートレートごとの統計、データセンターの場所ごとの統計など、一時的な属性によってデータを整理およびセグメント化できます。

IoT とデバイスのメトリクス

Driud は、処理サーバーおよびデバイスの指標データを保存するための時系列データベースソリューションとして使用できます。マシンによって生成されたリアルタイムデータを収集し、迅速なアドホック分析を実行して、パフォーマンスを測定し、ハードウェアリソースを最適化し、問題を特定します。

従来の多くの時系列データベースとは異なり、Druid は本質的に分析エンジンです。 Druid は、時系列データベース、列解析データベース、検索システムの概念を組み合わせたものです。単一システムで時間ベースのパーティショニング、列ストレージ、検索インデックス作成をサポートします。これは、時間ベースのクエリ、数値集計、および取得フィルタークエリが非常に高速になることを意味します。

何百万もの固有のディメンション値をメトリクスに含めることができ、任意のディメンションでグループとフィルターを自由に組み合わせることができます (Druid のディメンションは時系列データベースのタグに似ています)。タググループとランクに基づいて、多数の複雑なメトリクスを計算できます。また、タグの検索とフィルタリングは、従来の時系列データベースよりも高速になります。

OLAP とビジネスインテリジェンス

Druid は、ビジネスインテリジェンスのシナリオでよく使用されます。同社は Druid を導入してクエリを高速化し、アプリケーションを強化しています。 Hadoop ベースの SQL エンジン (Presto や Hive など) とは異なり、Druid は高い同時実行性と 1 秒未満のクエリ向けに設計されており、UI を介した対話型のデータクエリを強化します。これにより、Druid は実際の視覚的インタラクション分析により適したものになります。

テクノロジー

Apache Druid は、オープンソースの分散データストレージエンジンです。 Druid のコア設計には、OLAP/分析データベース、時系列データベース、検索システムの概念が組み込まれており、幅広いユースケースに適した統合システムを作成します。 Druid は、これら 3 つのシステムの主な機能を、Druid のインジェストレイヤー (データインジェストレイヤー)、ストレージフォーマット (ストレージフォーマットレイヤー)、クエリレイヤー (クエリレイヤー)、およびコアアーキテクチャ (コアアーキテクチャ) に統合します。

Apache Druid を 1 つの記事で詳しく説明

Druid の主な機能は次のとおりです。

列ストレージ

Druid は、データの各列を個別に保存および圧縮します。また、クエリの際には、クエリが必要な特定のデータのみがクエリされ、高速スキャン、ランキング、および groupBy がサポートされます。

ネイティブ検索インデックス

Druid は、文字列値の逆インデックスを作成して、データの高速検索とフィルタリングを実現します。

ストリーミングおよびバッチデータの取り込み

すぐに使える Apache kafka、HDFS、AWS S3 コネクタ、ストリーミングプロセッサ。

柔軟なデータスキーマ

Druid は、変化するデータスキーマやネストされたデータ型にエレガントに適応します。

時間ベースの最適化されたパーティショニング

Druid は、時間に基づいてデータをインテリジェントに分割します。したがって、Druid の時間ベースのクエリは従来のデータベースよりも大幅に高速になります。

SQL ステートメントのサポート

ネイティブ JSON ベースのクエリに加えて、Druid は HTTP および JDBC ベースの SQL もサポートします。

水平方向のスケーラビリティ

数百万/秒のデータ取り込み速度、大規模なデータストレージ、および 1 秒未満のクエリ。

運用・保守が簡単

サーバーの追加・削除により容量を拡張・削減できます。 Druid は自動リバランスとフェイルオーバーをサポートしています。

データ取り込み

Druid は、ストリーミングとバッチデータの取り込みの両方をサポートしています。 Druid は通常、Kafka などのメッセージバス (ストリーミングデータのロード) または HDFS などの分散ファイルシステム (バッチデータのロード) を介して生データソースに接続します。

Druid は、インデックス処理を通じて元のデータをセグメントの形式でデータノードに保存します。セグメントはクエリに最適化されたデータ構造です。

Apache Druid を 1 つの記事で詳しく説明

データストレージ

ほとんどの分析データベースと同様、Druid はカラム型ストレージを使用します。さまざまな列のデータ型 (文字列、数値など) に応じて、Druid はさまざまな圧縮方法とエンコード方法を使用します。 Druid は、さまざまな列タイプに対してさまざまなタイプのインデックスも構築します。

検索システムと同様に、Druid は文字列列の逆インデックスを作成して、より高速な検索とフィルタリングを実現します。時系列データベースと同様に、Druid は時間に基づいてデータをインテリジェントに分割し、時間ベースのクエリを高速化します。

従来のほとんどのシステムとは異なり、Druid はデータを取り込む前に事前にデータを集約できます。この事前集計操作はロールアップと呼ばれ、ストレージコストを大幅に節約できます。

Apache Druid を 1 つの記事で詳しく説明

Query

Druid は、JSON-over-HTTP および SQL クエリメソッドをサポートしています。標準の SQL 操作に加えて、Druid は多数の独自の操作もサポートしており、Druid が提供するアルゴリズムスイートを使用して、カウント、ランキング、分位数の計算を迅速に実行できます。

Apache Druid を 1 つの記事で詳しく説明

アーキテクチャ

Druid はマイクロサービスアーキテクチャであり、複数のサービスに分解されたデータベースとして理解できます。 Druid の各コアサービス (取り込み、クエリ、調整) は、汎用ハードウェア上に個別に展開することも、共同で展開することもできます。

Druid は、運用および保守担当者が使用状況や負荷状況に応じて対応するサービスのパラメータを調整できるように、各サービスに明確な名前を付けています。たとえば、負荷が必要な場合、オペレータはデータインジェストサービスにより多くのリソースを与え、データクエリサービスへのリソースを減らすことができます。

Druid は、他のサービスの動作に影響を与えることなく、独立して失敗する可能性があります。

Apache Druid を 1 つの記事で詳しく説明

運用とメンテナンス

Drui は、24 時間 365 日稼働する必要がある堅牢なシステムになるように設計されています。 Druid には、長期的な運用を保証し、データ損失を防ぐために次の機能があります。

データコピー

Druid は、設定されたコピー数に基づいて複数のデータコピーを作成するため、1 台のマシンに障害が発生しても Druid クエリには影響しません。

独立したサービス

Druid は各主要サービスに明確な名前を付けており、用途に応じて各サービスを調整できます。サービスは、他のサービスの通常の動作に影響を与えることなく、独立して失敗する可能性があります。たとえば、データインジェストサービスが失敗した場合、新しいデータはシステムにロードされませんが、既存のデータをクエリすることはできます。

自動データバックアップ

Druid は、すべてのインデックス付きデータをファイルシステム (HDFS などの分散ファイルシステム) に自動的にバックアップします。すべての Druid クラスターデータが失われ、バックアップデータからすぐにリロードされる可能性があります。

ローリングアップデート

ローリングアップデートにより、ダウンタイムなしで Druid クラスタを更新できるため、ユーザーには表示されません。すべての Druid バージョンには下位互換性があります。

時系列データベースと比較について知りたい場合は、別の記事に移動してください:

時系列データベース (TSDB) の最初の紹介と選択

関連する推奨事項: apache サーバー

以上がApache Druid を 1 つの記事で詳しく説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は掘金で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Apacheが知られていること：主要な機能と成果Apr 18, 2025 am 12:03 AM

Apachehttpserverは、モジュラー設計、高いスケーラビリティ、セキュリティ、パフォーマンスの最適化のために、Webサーバーの分野のリーダーになりました。 1.モジュラー設計は、さまざまなモジュールをロードすることにより、さまざまなプロトコルと関数をサポートします。 2。小規模から大規模なアプリケーションのニーズに適応するために高度にスケーラブルです。 3.セキュリティは、mod_securityと複数の認証メカニズムを通じてWebサイトを保護します。 4.パフォーマンスの最適化により、データの圧縮とキャッシュを介した速度が向上します。

Apachehttpserverは、その安定性、スケーラビリティ、豊富なエコシステムのため、最新のWeb環境で依然として重要です。 1）安定性と信頼性により、高可用性環境に適しています。 2）幅広いエコシステムは、豊富なモジュールと拡張機能を提供します。 3）構成と管理が簡単で、初心者でも迅速に開始できます。

Apacheの人気：成功の理由Apr 16, 2025 am 12:05 AM

Apacheの成功の理由には、1）強力なオープンソースのコミュニティサポート、2）柔軟性とスケーラビリティ、3）安定性と信頼性、4）幅広いアプリケーションシナリオ。 Apacheは、コミュニティの技術サポートと共有を通じて、柔軟なモジュラー設計と構成オプションを提供し、さまざまなニーズの下で適応性と安定性を確保し、個人のブログから大企業Webサイトまでさまざまなシナリオで広く使用されています。

Apacheの遺産：何が有名になったのですか？Apr 15, 2025 am 12:19 AM

apachebecamefamousdueToitsopen-sourcenature、modulardesign、andstrongcommunitysupport.1）itseopen-sourcemodemodemissiveapachelicensewidedoption.2）hemodulararchitectureallowed edizadaptability.3）avibrantcomunit.3）

Apacheの利点：パフォーマンスと柔軟性Apr 14, 2025 am 12:08 AM

Apacheのパフォーマンスと柔軟性により、Webサーバーで際立っています。 1）パフォーマンスの利点は、マルチプロセスおよびマルチスレッドモデルを通じて実装される効率的な処理とスケーラビリティに反映されます。 2）柔軟性は、モジュラー設計と構成の柔軟性に起因し、モジュールをロードし、要件に応じてサーバーの動作を調整できます。

Apache80ポートが占有されている場合はどうすればよいですかApr 13, 2025 pm 01:24 PM

Apache 80ポートが占有されている場合、ソリューションは次のとおりです。ポートを占有するプロセスを見つけて閉じます。ファイアウォールの設定を確認して、Apacheがブロックされていないことを確認してください。上記の方法が機能しない場合は、Apacheを再構成して別のポートを使用してください。 Apacheサービスを再起動します。

Apacheを開始できない問題を解決する方法Apr 13, 2025 pm 01:21 PM

Apacheは、次の理由で起動できません。構成ファイル構文エラー。他のアプリケーションポートとの競合。権限の問題。メモリから。デッドロックを処理します。デーモン障害。 Selinux許可の問題。ファイアウォールの問題。ソフトウェアの競合。

ApacheでCGIディレクトリを設定する方法Apr 13, 2025 pm 01:18 PM

ApacheでCGIディレクトリを設定するには、次の手順を実行する必要があります。「CGI-Bin」などのCGIディレクトリを作成し、Apacheの書き込み許可を付与します。 Apache構成ファイルに「Scriptalias」ディレクティブブロックを追加して、CGIディレクトリを「/cgi-bin」URLにマッピングします。 Apacheを再起動します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。