집 >Java >java지도 시간 >실시간 데이터 전송: Flume과 Kafka 중에서 선택할 수 있는 두 가지 솔루션

실시간 데이터 전송: Flume과 Kafka 중에서 선택할 수 있는 두 가지 솔루션

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-01-31 15:05:21903검색

Flume 및 Kafka: 실시간 데이터 전송을 위한 두 가지 옵션

개요

Flume과 Kafka는 모두 실시간 데이터 전송을 위한 오픈 소스 플랫폼입니다. 모두 높은 처리량, 낮은 대기 시간 및 안정성을 갖추고 있습니다. 그러나 디자인과 구현에는 약간의 차이가 있습니다.

Flume

Flume은 안정적이고 확장 가능한 분산형 로그 수집, 집계 및 전송 시스템입니다. 파일, Syslog, Taildir, Exec 및 HTTP를 포함한 여러 데이터 소스를 지원합니다. Flume은 텍스트, JSON, Avro를 포함한 다양한 데이터 형식도 지원합니다.

Flume의 아키텍처는 아래 그림과 같습니다.

[그림]

Flume의 구성 요소는 다음과 같습니다.

출처: 소스 구성 요소는 데이터 소스에서 데이터를 수집하는 역할을 담당합니다.
채널: 채널 구성 요소는 데이터 저장 및 전송을 담당합니다.
싱크: 싱크 구성 요소는 대상 시스템으로 데이터를 보내는 역할을 담당합니다.

Flume의 구성 파일은 다음과 같습니다.

# Name the agent
a1.sources = r1

# Describe the source
r1.type = exec
r1.command = tail -F /var/log/messages

# Describe the sink
s1.type = hdfs
s1.hdfs.path = hdfs://namenode:8020/flume/logs

# Use a channel which buffers events in memory
c1.type = memory
c1.capacity = 1000
c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.channels = c1
c1.sinks = s1

Kafka

Kafka는 분산되고 확장 가능하며 내결함성이 있는 메시징 시스템입니다. 텍스트, JSON, Avro를 포함한 다양한 메시지 형식을 지원합니다. Kafka는 Java, Python, C++ 및 Go를 포함한 여러 클라이언트 언어도 지원합니다.

Kafka의 아키텍처는 아래 그림과 같습니다.

[그림]

Kafka의 구성 요소는 다음과 같습니다.

Producer: 생산자 구성 요소는 Kafka 클러스터에 데이터를 보내는 역할을 담당합니다.
브로커: 브로커 구성 요소는 데이터 저장 및 전달을 담당합니다.
Consumer: 소비자 구성 요소는 Kafka 클러스터에서 데이터를 읽는 역할을 합니다.

Kafka의 구성 파일은 다음과 같습니다.

# Create a topic named "my-topic" with 3 partitions and a replication factor of 2
kafka-topics --create --topic my-topic --partitions 3 --replication-factor 2

# Start a Kafka producer
kafka-console-producer --topic my-topic

# Start a Kafka consumer
kafka-console-consumer --topic my-topic --from-beginning

Comparison

Flume과 Kafka는 모두 실시간 데이터 전송을 위한 탁월한 플랫폼입니다. 모두 높은 처리량, 낮은 대기 시간 및 안정성을 갖추고 있습니다. 그러나 디자인과 구현에는 약간의 차이가 있습니다.

Flume은 안정적이고 확장 가능한 분산형 로그 수집, 집계 및 전송 시스템입니다. 다양한 데이터 소스와 데이터 형식을 지원합니다. Flume의 구성 파일은 이해하기 쉽고 사용하기 쉽습니다.

Kafka는 분산되고 확장 가능하며 내결함성이 있는 메시징 시스템입니다. 다양한 메시지 형식과 클라이언트 언어를 지원합니다. Kafka의 구성 파일은 상대적으로 복잡하며 특정 학습 비용이 필요합니다.

결론

Flume은 로그 수집, 집계 및 전송에 더 적합합니다. Kafka는 메시징에 더 적합합니다.

코드 예제

다음은 Flume을 사용하여 로그를 수집하고 전송하는 코드 예제입니다.

# Create a Flume agent
agent = AgentBuilder.newInstance().build()

# Create a source
source = ExecSourceBuilder.newInstance().setCommand("tail -F /var/log/messages").build()

# Create a channel
channel = MemoryChannelBuilder.newInstance().setCapacity(1000).setTransactionCapacity(100).build()

# Create a sink
sink = HDFSSinkBuilder.newInstance().setBasePath("hdfs://namenode:8020/flume/logs").build()

# Add the source, channel, and sink to the agent
agent.addSource("r1", source)
agent.addChannel("c1", channel)
agent.addSink("s1", sink)

# Start the agent
agent.start()

다음은 Kafka를 사용하여 메시지를 보내고 받는 코드 예제입니다.

# Create a Kafka producer
producer = KafkaProducerBuilder.newInstance()
    .setBootstrapServers("localhost:9092")
    .setValueSerializer(StringSerializer.class)
    .build()

# Create a Kafka consumer
consumer = KafkaConsumerBuilder.newInstance()
    .setBootstrapServers("localhost:9092")
    .setValueDeserializer(StringDeserializer.class)
    .setGroupId("my-group")
    .build()

# Subscribe the consumer to the topic
consumer.subscribe(Arrays.asList("my-topic"))

# Send a message to the topic
producer.send(new ProducerRecord<>("my-topic", "Hello, world!"));

# Receive messages from the topic
while (true) {
    ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> record : records) {
        System.out.println(record.value());
    }
}

위 내용은 실시간 데이터 전송: Flume과 Kafka 중에서 선택할 수 있는 두 가지 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python Java 分布式 json kafka channel flume http

성명：

이전 기사：Guava 캐시 해독을 위한 애플리케이션 팁: 애플리케이션 성능을 향상시키는 아티팩트다음 기사：Guava 캐시 해독을 위한 애플리케이션 팁: 애플리케이션 성능을 향상시키는 아티팩트