집 >운영 및 유지보수 >Apache >Apache Kafka 데이터 수집이란 무엇입니까?

Apache Kafka 데이터 수집이란 무엇입니까?

藏色散人원래의: 2019-09-29 10:45:265647검색

Apache Kafka 데이터 수집이란 무엇인가요?

Apache Kafka - 소개

Apache Kafka는 LinkedIn에서 시작되었으며 나중에 2011년에 오픈 소스 Apache 프로젝트가 되었고 이후 2012 Apache의 일류 프로젝트가 되었습니다. Kafka는 Scala와 Java로 작성되었습니다. Apache Kafka는 게시 및 구독을 기반으로 하는 내결함성 메시징 시스템입니다. 설계상 빠르고 확장 가능하며 분산됩니다.

이 튜토리얼에서는 Kafka의 원리, 설치, 작동을 살펴본 다음 Kafka 클러스터 배포를 소개합니다. 마지막으로 실시간 애플리케이션과 빅데이터 기술과의 통합으로 마무리하겠습니다.

이 튜토리얼을 진행하기 전에 Java, Scala, 분산 메시징 시스템 및 Linux 환경에 대한 충분한 이해가 있어야 합니다.

빅데이터에서는 많은 양의 데이터가 사용됩니다. 데이터와 관련하여 우리에게는 두 가지 주요 과제가 있습니다. 첫 번째 과제는 대량의 데이터를 어떻게 수집하는가이고, 두 번째 과제는 수집된 데이터를 분석하는 것입니다. 이러한 문제를 극복하려면 메시징 시스템이 필요합니다.

Kafka는 분산 처리량이 높은 시스템을 위해 설계되었습니다. Kafka는 기존 메일 브로커의 대안으로 잘 작동하는 경향이 있습니다. 다른 메시징 시스템과 비교하여 Kafka는 더 나은 처리량, 기본 제공 분할, 복제 및 고유한 내결함성을 갖추고 있어 대규모 메시지 처리 애플리케이션에 이상적입니다.

이메일 시스템이란 무엇인가요?

메시징 시스템은 한 애플리케이션에서 다른 애플리케이션으로 데이터 전송을 처리하므로 애플리케이션은 데이터에 집중할 수 있지만 공유 방법에 대해 걱정할 필요가 없습니다. 분산 메시징은 안정적인 메시지 대기열 개념을 기반으로 합니다. 메시지는 클라이언트 애플리케이션과 메시징 시스템 간에 비동기적으로 대기열에 추가됩니다. 두 가지 유형의 메시징 패턴을 사용할 수 있습니다. 하나는 지점 간 메시징이고 다른 하나는 게시-구독(pub-sub) 메시징 시스템입니다. 대부분의 메시징 패턴은 pub-sub를 따릅니다.

PEER-TO-PEER 메시지 시스템

P2P 시스템에서는 메시지가 대기열에 남아 있습니다. 한 명 이상의 소비자가 대기열의 메시지를 사용할 수 있지만 특정 메시지는 최대 한 명의 소비자만 사용할 수 있습니다. 소비자가 대기열에서 메시지를 읽으면 해당 메시지는 대기열에서 사라집니다. 이 시스템의 일반적인 예는 주문 처리 시스템으로, 각 주문은 하나의 주문 처리자에 의해 처리되지만 여러 주문 처리자가 동시에 작업할 수도 있습니다. 아래 다이어그램은 구조를 보여줍니다.