한 기사에서 Apache Druid에 대한 자세한 설명-Apache-php.cn

집

운영 및 유지보수

Apache

한 기사에서 Apache Druid에 대한 자세한 설명

王林

Feb 18, 2021 am 10:20 AM

apachedruid

한 기사에서 Apache Druid에 대한 자세한 설명

머리말:

Apache Druid란 무엇인가요?

시계열 데이터베이스, 데이터 웨어하우스, 전문 검색 시스템의 특성을 통합한 분석 데이터 플랫폼입니다.

이 글은 druid의 특성, 사용 시나리오, 기술적 특징 및 아키텍처에 대한 간략한 이해를 제공하며, 이는 데이터 스토리지 솔루션을 선택하고 druid 스토리지 및 시계열 스토리지에 대한 심층적인 이해를 얻는 데 도움이 될 것입니다.

개요

최신 클라우드 기반, 스트리밍 기반 분석 데이터베이스

Druid는 빠른 쿼리와 빠른 데이터 수집 워크플로를 위해 설계되었습니다. Druid의 강점은 강력한 UI, 런타임 시 작동 가능한 쿼리, 고성능 동시 처리에 있습니다. Druid는 다양한 사용자 시나리오를 충족하는 데이터 웨어하우스를 위한 오픈 소스 대안으로 간주될 수 있습니다.

기존 데이터 파이프라인과의 손쉬운 통합

Druid는 메시지 버스(예: Kafka, Amazon Kinesis)에서 데이터를 스트리밍하거나 데이터 레이크(예: HDFS, Amazon S3 및 기타 유사한 데이터 소스)에서 파일을 일괄 로드할 수 있습니다.

기존 솔루션보다 100배 빠른 성능

Druid의 데이터 수집 및 데이터 쿼리에 대한 벤치마크 성능 테스트는 기존 솔루션을 훨씬 능가합니다.

Druid의 아키텍처는 데이터 웨어하우스, 시계열 데이터베이스 및 검색 시스템의 최고의 기능을 결합합니다.

새로운 워크플로 잠금 해제

Druid는 Clickstream, APM(애플리케이션 성능 관리 시스템), 공급망(공급망), 네트워크 원격 측정, 디지털 마케팅 및 기타 이벤트 중심 시나리오에 대한 새로운 쿼리 방법 및 워크플로를 잠금 해제합니다. Druid는 실시간 및 기록 데이터에 대한 빠른 임시 쿼리를 위해 제작되었습니다.

AWS/GCP/Azure, 하이브리드 클라우드, k8s 및 임대 서버에 배포

Druid는 모든 *NIX 환경에 배포할 수 있습니다. 온프레미스 환경이든 클라우드 환경이든 상관없습니다. Druid 배포는 매우 쉽습니다. 서비스를 추가하거나 제거하여 확장 및 축소할 수 있습니다.

사용 시나리오

Apache Druid는 실시간 데이터 추출, 고성능 쿼리 및 고가용성에 대한 요구 사항이 높은 시나리오에 적합합니다. 따라서 Druid는 풍부한 GUI를 갖춘 분석 시스템으로 사용되거나 빠른 집계가 필요한 높은 동시성 API의 백엔드로 사용되는 경우가 많습니다. Druid는 이벤트 지향 데이터에 더 적합합니다.

일반적인 사용 시나리오:

클릭 스트림 분석(웹 및 모바일 분석)

위험 제어 분석

네트워크 원격 측정 분석(네트워크 성능 모니터링)

서버 지표 저장

공급망 분석(제조 지표)

애플리케이션 성능 지표

비즈니스 인텔리전스/실시간 온라인 분석 시스템 OLAP

이러한 사용 시나리오는 아래에서 자세히 분석됩니다.

사용자 활동 및 행동

Druid는 클릭 스트림, 방문 스트림 및 활동 스트림 데이터에 자주 사용됩니다. 특정 시나리오에는 사용자 참여 측정, 제품 출시에 대한 A/B 테스트 데이터 추적, 사용자 사용 패턴 이해가 포함됩니다. Druid는 고유 계산 지표와 같은 사용자 지표를 정확하고 대략적으로 계산할 수 있습니다. 이는 일일 활성 사용자와 같은 지표를 1초 안에 대략적인 값(평균 정확도 98%)으로 계산하여 전반적인 추세를 확인하거나 정확하게 계산하여 이해관계자에게 제시할 수 있음을 의미합니다. Druid는 얼마나 많은 사용자가 특정 행동을 취하고 다른 행동을 취하지 않았는지 측정하기 위해 "퍼널 분석"을 수행하는 데 사용될 수 있습니다. 이는 사용자 등록을 추적하는 제품에 유용합니다.

Network flow

Druid는 네트워크 흐름 데이터를 수집하고 분석하는 데 자주 사용됩니다. Druid는 분할되고 임의의 속성과 결합된 스트리밍 데이터를 관리하는 데 사용됩니다. Druid는 대량의 네트워크 흐름 기록을 추출할 수 있으며 쿼리 시 수십 개의 속성을 빠르게 결합하고 정렬할 수 있어 네트워크 흐름 분석이 용이합니다. 이러한 속성에는 IP 및 포트 번호와 같은 핵심 속성뿐만 아니라 지리적 위치, 서비스, 애플리케이션, 장치 및 ASN과 같은 추가 고급 속성이 포함됩니다. Druid는 고정되지 않은 스키마를 처리할 수 있습니다. 즉, 원하는 속성을 추가할 수 있다는 의미입니다.

디지털 마케팅

Druid는 온라인 광고 데이터를 저장하고 쿼리하는 데 자주 사용됩니다. 이러한 데이터는 일반적으로 광고 서비스 제공업체로부터 제공되며, 광고 캠페인 성과, 클릭 침투율, 전환율(소비율) 및 기타 지표를 측정하고 이해하는 것이 중요합니다.

Druid는 원래 광고 데이터를 위한 강력한 사용자 중심 분석 애플리케이션으로 설계되었습니다. 광고 데이터 저장 측면에서 Druid는 이미 많은 제작 사례를 보유하고 있으며 전 세계 수많은 사용자가 PB 수준의 데이터를 수천 대의 서버에 저장했습니다.

애플리케이션 성능 관리

Druid는 애플리케이션에서 생성된 운영 데이터를 추적하는 데 자주 사용됩니다. 사용자 활동 사용 시나리오와 유사하게 이 데이터는 사용자가 애플리케이션과 상호 작용하는 방식에 관한 것일 수 있으며 애플리케이션 자체에서 보고하는 지표 데이터일 수 있습니다. Druid를 사용하면 드릴다운하여 애플리케이션의 다양한 구성 요소가 어떻게 작동하는지 발견하고, 병목 현상을 찾고, 문제를 식별할 수 있습니다.

많은 기존 솔루션과 달리 Druid는 더 작은 저장 용량, 더 작은 복잡성, 더 큰 데이터 처리량이라는 특징을 가지고 있습니다. 수천 개의 속성에 대한 애플리케이션 이벤트를 신속하게 분석하고 복잡한 로딩, 성능 및 활용도 지표를 계산할 수 있습니다. 예를 들어 95% 쿼리 대기 시간을 기반으로 하는 API 엔드포인트입니다. 데이터 센터 위치별 통계와 같이 사용자 인물별 통계와 같이 일별 데이터 분할과 같은 임시 속성별로 데이터를 구성하고 분할할 수 있습니다.

IoT 및 장치 측정항목

Driud는 처리 서버 및 장치의 지표 데이터를 저장하는 시계열 데이터베이스 솔루션으로 사용할 수 있습니다. 기계에서 생성된 실시간 데이터를 수집하고 빠른 임시 분석을 수행하여 성능을 측정하고, 하드웨어 리소스를 최적화하고, 문제를 찾습니다.

많은 기존 시계열 데이터베이스와 달리 Druid는 본질적으로 분석 엔진입니다. Druid는 시계열 데이터베이스, 컬럼 분석 데이터베이스 및 검색 시스템의 개념을 결합합니다. 단일 시스템에서 시간 기반 파티셔닝, 열 저장 및 검색 인덱싱을 지원합니다. 이는 시간 기반 쿼리, 숫자 집계 및 검색 필터 쿼리가 매우 빠르다는 것을 의미합니다.

측정항목에 수백만 개의 고유한 차원 값을 포함할 수 있으며 모든 차원별로 그룹과 필터를 자유롭게 결합할 수 있습니다(Druid의 차원은 시계열 데이터베이스의 태그와 유사합니다). 태그 그룹 및 순위를 기반으로 다수의 복잡한 지표를 계산할 수 있습니다. 그리고 태그 검색 및 필터링은 기존 시계열 데이터베이스보다 빠릅니다.

OLAP 및 비즈니스 인텔리전스

Druid는 비즈니스 인텔리전스 시나리오에 자주 사용됩니다. 회사는 쿼리 속도를 높이고 애플리케이션을 향상시키기 위해 Druid를 배포합니다. Hadoop 기반 SQL 엔진(예: Presto 또는 Hive)과 달리 Druid는 높은 동시성 및 1초 미만 쿼리를 위해 설계되었으며 UI를 통해 대화형 데이터 쿼리를 향상합니다. 이는 Druid를 실제 시각적 상호 작용 분석에 더 적합하게 만듭니다.

Technology

Apache Druid는 오픈 소스 분산 데이터 스토리지 엔진입니다. Druid의 핵심 디자인은 OLAP/분석 데이터베이스, 시계열 데이터베이스 및 검색 시스템의 개념을 통합하여 광범위한 사용 사례에 적합한 통합 시스템을 만듭니다. Druid는 이 세 가지 시스템의 주요 기능을 Druid의 수집 레이어(Data Ingestion Layer), 스토리지 포맷(Storage Formatting Layer), 쿼리 레이어(Querying Layer), 코어 아키텍처(Core Architecture)로 통합합니다.

한 기사에서 Apache Druid에 대한 자세한 설명

Druid의 주요 기능은 다음과 같습니다:

열 저장

Druid는 각 데이터 열을 개별적으로 저장하고 압축합니다. 그리고 쿼리 시에는 쿼리가 필요한 특정 데이터만 쿼리하고, 빠른 스캐닝과 랭킹, groupBy를 지원합니다.

기본 검색 인덱스

Druid는 데이터의 빠른 검색 및 필터링을 달성하기 위해 문자열 값에 대한 반전 인덱스를 생성합니다.

스트리밍 및 일괄 데이터 수집

즉시 사용 가능한 Apache kafka, HDFS, AWS S3 커넥터, 스트리밍 프로세서.

유연한 데이터 스키마

Druid는 변화하는 데이터 스키마와 중첩 데이터 유형에 우아하게 적응합니다.

시간 기반 최적화 파티셔닝

Druid는 시간을 기준으로 데이터를 지능적으로 파티셔닝합니다. 따라서 Druid 시간 기반 쿼리는 기존 데이터베이스보다 훨씬 빠릅니다.

SQL 문 지원

Druid는 기본 JSON 기반 쿼리 외에도 HTTP 및 JDBC 기반 SQL도 지원합니다.

수평적 확장성

100만/초의 데이터 수집 속도, 대용량 데이터 저장 및 1초 미만의 쿼리.

운영 및 유지 관리가 쉽습니다.

서버를 추가하거나 제거하여 확장 및 축소할 수 있습니다. Druid는 자동 재조정 및 장애 조치를 지원합니다.

Data Ingest

Druid는 스트리밍 및 일괄 데이터 수집을 모두 지원합니다. Druid는 일반적으로 Kafka와 같은 메시지 버스(스트리밍 데이터 로드) 또는 HDFS(배치 데이터 로드)와 같은 분산 파일 시스템을 통해 원시 데이터 소스에 연결합니다.

Druid는 원본 데이터를 데이터 노드에 인덱싱 처리를 통해 세그먼트 형태로 저장합니다. 세그먼트는 쿼리에 최적화된 데이터 구조입니다.

한 기사에서 Apache Druid에 대한 자세한 설명

데이터 스토리지

대부분의 분석 데이터베이스와 마찬가지로 Druid는 컬럼형 스토리지를 사용합니다. 다양한 열(문자열, 숫자 등)의 데이터 유형에 따라 Druid는 다양한 압축 및 인코딩 방법을 사용합니다. Druid는 또한 다양한 열 유형에 대해 다양한 유형의 인덱스를 구축합니다.

검색 시스템과 유사하게 Druid는 더 빠른 검색 및 필터링을 달성하기 위해 문자열 열에 대한 반전 인덱스를 생성합니다. 시계열 데이터베이스와 유사하게 Druid는 더 빠른 시간 기반 쿼리를 달성하기 위해 시간을 기반으로 데이터를 지능적으로 분할합니다.

대부분의 기존 시스템과 달리 Druid는 데이터를 수집하기 전에 데이터를 사전 집계할 수 있습니다. 이러한 사전 집계 작업을 롤업이라고 하며, 이는 스토리지 비용을 크게 절감할 수 있습니다.

한 기사에서 Apache Druid에 대한 자세한 설명

Query

Druid는 JSON-over-HTTP 및 SQL 쿼리 방법을 모두 지원합니다. 표준 SQL 작업 외에도 Druid는 다수의 고유한 작업을 지원합니다. Druid에서 제공하는 알고리즘 제품군을 사용하면 계산, 순위 및 분위수 계산을 빠르게 수행할 수 있습니다.

한 기사에서 Apache Druid에 대한 자세한 설명

Architecture

Druid는 마이크로서비스 아키텍처로, 여러 서비스로 분해된 데이터베이스로 이해할 수 있습니다. Druid의 각 핵심 서비스(수집, 쿼리 및 조정)는 상용 하드웨어에 개별적으로 또는 공동으로 배포할 수 있습니다.

Druid는 운영 및 유지 관리 담당자가 사용 및 부하 조건에 따라 해당 서비스의 매개변수를 조정할 수 있도록 각 서비스의 이름을 명확하게 지정합니다. 예를 들어, 부하가 필요할 경우 운영자는 데이터 수집 서비스에 더 많은 리소스를 제공하고 데이터 쿼리 서비스에 대한 리소스를 줄일 수 있습니다.

Druid는 다른 서비스의 운영에 영향을 주지 않고 독립적으로 실패할 수 있습니다.

한 기사에서 Apache Druid에 대한 자세한 설명

운영 및 유지보수

Drui는 7*24시간 실행되어야 하는 강력한 시스템으로 설계되었습니다. Druid는 장기간 운영을 보장하고 데이터 손실을 방지하기 위해 다음과 같은 기능을 갖추고 있습니다.

데이터 복사본

Druid는 구성된 복사본 수에 따라 여러 데이터 복사본을 생성하므로 단일 시스템 오류가 Druid 쿼리에 영향을 미치지 않습니다.

독립적인 서비스

Druid는 각 주요 서비스를 명확하게 명명하고 있으며, 각 서비스는 사용량에 따라 적절히 조정될 수 있습니다. 서비스는 다른 서비스의 정상적인 작동에 영향을 주지 않고 독립적으로 실패할 수 있습니다. 예를 들어 데이터 수집 서비스가 실패하면 새 데이터가 시스템에 로드되지 않지만 기존 데이터는 계속 쿼리할 수 있습니다.

자동 데이터 백업

Druid는 인덱스된 모든 데이터를 HDFS와 같은 분산 파일 시스템일 수 있는 파일 시스템에 자동으로 백업합니다. 모든 Druid 클러스터 데이터를 잃어버리고 백업 데이터에서 빠르게 다시 로드할 수 있습니다.

롤링 업데이트

롤링 업데이트를 사용하면 다운타임 없이 Druid 클러스터를 업데이트할 수 있으므로 사용자에게 보이지 않습니다. 모든 Druid 버전은 이전 버전과 호환됩니다.

시계열 데이터베이스 및 비교에 대해 배우고 싶다면 다른 문서로 이동할 수 있습니다:

시계열 데이터베이스(TSDB)의 첫 소개 및 선택

관련 기사

아파치 : 많은 웹 사이트의 기초Apr 11, 2025 am 12:05 AM

Apache는 안정성, 안정성 및 구성 가능성 때문에 많은 웹 사이트의 기초입니다. 1. Apache는 Apache Software Foundation에서 개발하고 다양한 운영 체제를 지원하며 정적 및 동적 컨텐츠 서비스를 제공합니다. 2. 핵심 기능에는 HTTP 요청 처리, 가상 호스팅 및 모듈 식 설계가 포함됩니다. 3. 기본 설정에서 고급 가상 호스트 및 URL 재 작성에 이르기까지 구성 예. 4. 권한, 구문 및 모듈 로딩 문제와 같은 일반적인 오류는 해당 디버깅 기술을 통해 해결할 수 있습니다. 5. 성능 최적화에는 튜닝 매개 변수, 캐시 및로드 밸런싱 사용이 포함되며 모범 사례에 따라 서버 효율성과 보안이 향상 될 수 있습니다.

아파치의 미래 : 예측 및 트렌드Apr 10, 2025 am 09:42 AM

Apache는 클라우드 네이티브 기술, 기계 학습, 인공 지능, 블록 체인, 데이터 보안 및 성능 최적화에서 계속 발전 할 것입니다. 1) 클라우드 네이티브 및 컨테이너화 된 기술은보다 최적화 된 버전을 출시하기 위해 추가로 통합 될 것입니다. 2) 머신 러닝 및 인공 지능 분야에서 사용하기 쉬운 도구 및 프레임 워크가 출시 될 것입니다. 3) 블록 체인 및 분산 원장 기술은 표준화 및 대중화를 촉진하기 위해 더 많은 자원을 투자 할 것입니다. 4) 데이터 보안 및 개인 정보 보호가 강화되고 더 높은 보안 버전 및 도구가 시작될 것입니다. 5) 성능 최적화 및 모범 사례는 개발자가 효율성을 향상시킬 수 있도록 계속 가치가 있습니다.

고급 아파치 구성 : 마스터 링 .htaccess & Virtual HostsApr 09, 2025 am 12:08 AM

.htaccess 파일은 디렉토리 수준 구성에 사용되며 가상 호스트는 동일한 서버에서 여러 웹 사이트를 호스팅하는 데 사용됩니다. 1) .htaccess를 사용하면 서버를 다시 시작하지 않고 URL 재 작성 및 액세스 제어와 같은 디렉토리 구성을 조정할 수 있습니다. 2) Virtual Host는 VirtualHost 지침을 통해 여러 도메인 이름 및 구성을 관리하고 SSL 암호화 및로드 밸런싱을 지원합니다.

Apache Load Balancing : 고 가용성을 위해 트래픽을 배포합니다Apr 08, 2025 am 12:04 AM

Apache는 mod_proxy 및 mod_proxy_balancer 모듈을 구성하여로드 밸런싱을 달성 할 수 있습니다. 1) Apache가 mod_proxy 및 mod_proxy_balancer 모듈을 설치하고 활성화했는지 확인하십시오. 2) APACHE 구성 파일에로드 밸런싱 구성을 추가하고 요청을 백엔드 서버 클러스터로 전달하십시오. 3)로드 밸런싱 알고리즘을 조정할 수 있으며 성능 및 사용자 경험을 최적화하기 위해 필요에 따라 세션 지속성을 구성 할 수 있습니다.

Apache Security Hardening : 웹 서버를 공격으로부터 보호합니다Apr 07, 2025 am 12:20 AM

Apache 서버의 보안을 강화하는 방법은 무엇입니까? 이는 다음 단계를 통해 달성 할 수 있습니다. 민감한 디렉토리에 대한 액세스 제한 및 구성 파일을 사용하여 액세스 제어를 설정하십시오. Mod_Security 모듈을 사용하여 SQL 주입 공격 방지와 같은 고급 보안 정책을 구현하십시오. 프로파일 구문을 정기적으로 확인하고 로그 분석 도구를 사용하여 액세스 로그를 모니터링하고 침투 테스트를 수행하십시오. 보안 및 성능의 균형을 맞추고 코드 가독성 및 유지 보수 가능성을 보장하기 위해 Mod_Security 규칙을 최적화하십시오.

Apache SSL/TLS 구성 : HTTPS로 웹 사이트 보안Apr 06, 2025 am 12:07 AM

웹 사이트를 보호하기 위해 Apache 서버에서 SSL/TLS를 구성하려면 다음 단계를 따라야합니다. 1. SSL/TLS 인증서를 얻으십시오. 2. Apache 구성 파일에서 SSL/TLS를 활성화하고 인증서 및 개인 키 경로를 지정하십시오. 3. HTTP를 HTTPS 리디렉션으로 설정하십시오. 4. 연결 속도를 향상시키기 위해 OCSPStapling을 사용하는 것을 고려하십시오. 5. HTTP/2 및 세션 캐싱 활성화와 같은 성능을 최적화합니다.

Apache Module Mastery : Mod_rewrite 등으로 기능을 확장합니다Apr 05, 2025 am 12:02 AM

Apache 서버는 Mod_rewrite 모듈을 통해 기능을 확장하여 성능 및 보안을 향상시킬 수 있습니다. 1. 다시 쓰기 엔진을 켜고 리디렉션 /블로그 /기사와 같은 규칙을 정의하십시오. 2. 조건부 판단을 사용하여 특정 매개 변수를 다시 작성하십시오. 3. .html에서 .php 변환 및 모바일 장치 감지와 같은 기본 및 고급 URL 재 작성을 구현하십시오. 4. 일반적인 오류는 로그를 디버그하는 데 사용됩니다. 5. 성능을 최적화하고 규칙 수를 줄이며 주문을 최적화하며 조건을 사용하여 판단하고 명확한 규칙을 작성하십시오.

아파치 성능 튜닝 : 속도 및 효율성 최적화Apr 04, 2025 am 12:11 AM

Apache 성능을 향상시키는 방법 : 1. Keepalive 설정 조정, 2. 다중 프로세스/스레드 매개 변수 최적화, 3. 압축에 Mod_deflate 사용, 4. 캐시 및로드 밸런싱 구현, 5. 로깅 최적화. 이러한 전략을 통해 Apache 서버의 응답 속도 및 동시 처리 기능을 크게 향상시킬 수 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.