Redis가 Spark 속도를 높이는 방법-Redis-php.cn

집

데이터 베이스

Redis

Redis가 Spark 속도를 높이는 방법

PHPz

Jun 03, 2023 am 11:45 AM

redisspark

Apache Spark는 점점 차세대 빅 데이터 처리 도구의 모델이 되고 있습니다. 오픈 소스 알고리즘을 빌려 컴퓨팅 노드 클러스터에 처리 작업을 분산함으로써 Spark 및 Hadoop 생성 프레임워크는 단일 플랫폼에서 수행할 수 있는 데이터 분석 유형과 이러한 작업을 수행할 수 있는 속도 모두에서 쉽게 뛰어납니다. 전통적인 프레임워크. Spark는 메모리를 사용하여 데이터를 처리하므로 디스크 기반 Hadoop보다 훨씬 더 빠릅니다(최대 100배 더 빠름).

하지만 약간의 도움이 있으면 Spark가 더욱 빠르게 실행될 수 있습니다. Spark를 Redis(인기 메모리 내 데이터 구조 저장 기술)와 결합하면 분석 작업 처리 성능을 다시 한 번 크게 향상시킬 수 있습니다. 이는 Redis의 최적화된 데이터 구조와 작업 수행 시 복잡성과 오버헤드를 최소화하는 능력 때문입니다. 커넥터를 사용하여 Redis 데이터 구조 및 API에 연결하면 Spark 속도를 더욱 높일 수 있습니다.

Redis와 Spark를 함께 사용하면 데이터 처리(아래 설명된 시계열 데이터 분석을 위해)가 프로세스 메모리나 오프 힙 캐시만 사용하는 Spark보다 45배 빠른 것으로 나타났습니다. 데이터 저장 - 45%가 아니라 45배 더 빠릅니다!

많은 기업에서 비즈니스 트랜잭션만큼 빠른 분석을 구현해야 하기 때문에 분석 트랜잭션 속도의 중요성이 날로 커지고 있습니다. 점점 더 많은 결정이 자동화됨에 따라 이러한 결정을 내리는 데 필요한 분석은 실시간으로 이루어져야 합니다. Apache Spark는 뛰어난 범용 데이터 처리 프레임워크입니다. 비록 완전한 실시간은 아니지만 보다 시기적절하게 데이터를 유용하게 만드는 큰 진전입니다.

Spark는 휘발성 메모리나 HDFS와 같은 영구 스토리지 시스템에 저장할 수 있는 RDD(복원력 있는 분산 데이터 세트)를 사용합니다. Spark 클러스터의 노드 전체에 분산된 모든 RDD는 변경되지 않은 상태로 유지되지만 변환 작업을 통해 다른 RDD를 생성할 수 있습니다.

Redis가 Spark 속도를 높이는 방법

Spark RDD

RDD는 Spark에서 중요한 추상 개체입니다. 이는 반복 프로세스에 데이터를 효율적으로 제공하는 내결함성 방식을 나타냅니다. 인메모리 처리를 사용한다는 것은 HDFS 및 MapReduce를 사용하는 것에 비해 처리 시간이 몇 배나 단축된다는 것을 의미합니다.

Redis는 고성능을 위해 특별히 설계되었습니다. 밀리초 미만의 대기 시간은 데이터가 저장된 위치 근처에서 작업을 수행할 수 있도록 하여 효율성을 향상시키는 최적화된 데이터 구조의 결과입니다. 이 데이터 구조는 메모리를 효율적으로 활용하고 애플리케이션 복잡성을 줄일 뿐만 아니라 네트워크 오버헤드, 대역폭 소비 및 처리 시간도 줄여줍니다. Redis는 문자열, 세트, 정렬된 세트, 해시, 비트맵, 하이퍼로그 로그 및 지리공간 인덱스를 포함한 여러 데이터 구조를 지원합니다. Redis 데이터 구조는 레고 벽돌과 같아서 개발자에게 복잡한 기능을 구현할 수 있는 간단한 채널을 제공합니다.

이 데이터 구조가 어떻게 처리 시간과 애플리케이션의 복잡성을 단순화할 수 있는지 시각적으로 보여주기 위해 정렬 세트(Sorted Set) 데이터 구조를 예로 들어볼 수도 있습니다. 순서 집합은 기본적으로 점수별로 정렬된 구성원 집합입니다.

Redis가 Spark 속도를 높이는 방법

Redis Sorted Collection

여기에는 다양한 유형의 데이터를 저장할 수 있으며 점수별로 자동 정렬됩니다. 순서가 지정된 컬렉션에 저장되는 일반적인 데이터 유형에는 품목(가격별), 제품 이름(수량별), 주가, 센서 판독값(타임스탬프 등)과 같은 시계열 데이터가 포함됩니다.

순서 있는 집합의 매력은 범위 쿼리, 여러 순서 집합의 교차, 멤버 수준 및 점수별 검색, 더 많은 트랜잭션을 매우 빠른 속도로 간단하게 실행할 수 있는 Redis의 내장 작업에 있습니다. 대규모 구현. 내장된 작업은 작성해야 하는 코드를 절약할 뿐만 아니라 메모리에서 작업을 수행하면 네트워크 대기 시간이 줄어들고 대역폭이 절약되므로 밀리초 미만의 대기 시간으로 높은 처리량이 가능합니다. 정렬된 세트를 사용하여 시계열 데이터를 분석하는 경우 다른 인메모리 키/값 스토리지 시스템 또는 디스크 기반 데이터베이스에 비해 성능 향상이 수십 배로 달성될 수 있습니다.

Spark-Redis 커넥터는 Spark의 분석 기능을 향상시키기 위해 Redis 팀에서 개발되었습니다. 이 패키지를 사용하면 Spark가 Redis를 데이터 소스 중 하나로 사용할 수 있습니다. 이 커넥터를 통해 Spark는 Redis의 데이터 구조에 직접 액세스할 수 있으므로 다양한 유형의 분석 성능이 크게 향상됩니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis Connector

Spark에 가져온 이점을 입증하기 위해 Redis 팀은 Spark의 시계열 분석을 수평적으로 비교하기 위해 여러 가지 시나리오에서 시간 조각(범위) 쿼리를 수행하기로 결정했습니다. 이러한 시나리오에는 다음이 포함됩니다. Spark는 모든 데이터를 힙 내 메모리에 저장하고, Spark는 Tachyon을 오프 힙 캐시로 사용하고, Spark는 HDFS를 사용하고, Spark와 Redis의 조합을 사용합니다.

Redis 팀은 Cloudera의 Spark 시계열 패키지를 사용하여 Redis 주문 컬렉션을 사용하여 시계열 분석 속도를 높이는 Spark-Redis 시계열 패키지를 구축했습니다. Spark가 Redis에 액세스할 수 있도록 하는 모든 데이터 구조를 제공하는 것 외에도 이 패키지는 두 가지 추가 작업도 수행합니다

Redis 노드가 Spark 클러스터와 일치하는지 자동으로 확인하여 각 Spark 노드가 로컬 Redis 데이터를 사용하도록 보장하여 대기 시간을 최적화합니다.

Spark 데이터 프레임 및 데이터 소스 API와 통합하여 Spark SQL 쿼리를 Redis의 가장 효율적인 데이터 검색 메커니즘으로 자동 변환합니다.

간단히 말하면 사용자는 Spark와 Redis 간의 운영 일관성에 대해 걱정할 필요가 없으며 계속해서 Spark SQL을 분석에 사용하는 동시에 쿼리 성능을 크게 향상시킬 수 있다는 의미입니다.

이 병렬 비교에 사용된 시계열 데이터에는 무작위로 생성된 금융 데이터와 32년 동안 매일 1024개의 주식이 포함됩니다. 각 주식은 자체 주문 세트로 표시되며 점수는 날짜이며 데이터 멤버에는 시가, 종가, 종가, 종가, 거래량 및 조정 종가가 포함됩니다. 다음 이미지는 Spark 분석에 사용되는 Redis 정렬 세트의 데이터 표현을 보여줍니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis Time Series

위의 예에서 정렬 세트 AAPL 측면에서 매일( 1989-01 -01), 하루 동안의 여러 값이 하나의 관련 행으로 표시됩니다. 이를 수행하려면 Redis에서 간단한 ZRANGEBYSCORE 명령을 사용하면 됩니다. 특정 시간 조각에 대한 모든 값을 가져오므로 지정된 날짜 범위의 모든 주가를 가져옵니다. Redis는 이러한 유형의 쿼리를 다른 키/값 스토리지 시스템보다 최대 100배 빠르게 수행할 수 있습니다.

이 수평 비교를 통해 성능 개선이 확인되었습니다. Redis를 사용하는 Spark는 HDFS를 사용하는 Spark보다 135배 더 빠르게 타임 슬라이스 쿼리를 수행할 수 있고, 온 힙(프로세스) 메모리를 사용하는 Spark나 Tachyon을 오프 힙 캐시로 사용하는 Spark보다 45배 더 빠른 것으로 나타났습니다. 아래 그림은 다양한 시나리오에 따른 평균 실행 시간을 비교한 것입니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis 수평 비교

이 가이드는 표준 Spark 클러스터 및 Spark-Redis 제품군을 설치하는 방법을 단계별로 안내합니다. 간단한 단어 계산 예제를 통해 Spark와 Redis의 사용을 통합하는 방법을 보여줍니다. Spark 및 Spark-Redis 패키지를 사용해 본 후에는 다른 Redis 데이터 구조를 활용하는 더 많은 시나리오를 더 탐색할 수 있습니다.

순서가 지정된 세트는 시계열 데이터에 적합하지만 세트, 목록, 지리공간 색인과 같은 Redis의 다른 데이터 구조는 Spark 분석을 더욱 강화할 수 있습니다. 상상해 보세요. Spark 프로세스는 출시 효과를 최적화하기 위해 군중 선호도, 도심과의 거리 등의 요소를 고려하여 신제품 출시에 적합한 지역을 파악하려고 합니다. 내장된 분석 기능을 갖춘 지리공간 색인 및 컬렉션과 같은 데이터 구조가 어떻게 이 프로세스의 속도를 크게 높일 수 있는지 상상해 보십시오. Spark-Redis 조합은 뛰어난 애플리케이션 전망을 가지고 있습니다.

Spark는 SQL, 기계 학습, 그래프 컴퓨팅, Spark Streaming을 포함한 광범위한 분석 기능을 제공합니다. Spark의 인메모리 처리 기능을 사용하면 특정 규모까지만 도달할 수 있습니다. 그러나 Redis를 사용하면 한 단계 더 나아갈 수 있습니다. Redis의 데이터 구조를 사용하여 성능을 향상시킬 수 있을 뿐만 아니라 Spark가 제공하는 공유 분산 메모리 데이터 저장 메커니즘을 최대한 활용하여 Spark를 보다 쉽게 확장할 수도 있습니다. Redis는 수십만 개의 레코드, 심지어 수십억 개의 레코드를 처리합니다.

이 시계열 예시는 시작에 불과합니다. 기계 학습 및 그래프 분석을 위해 Redis 데이터 구조를 사용하면 이러한 워크로드에 상당한 실행 시간 이점을 가져올 것으로 예상됩니다.

위 내용은 Redis가 Spark 속도를 높이는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 亿速云에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

REDIS : 키 가치 데이터 저장에 대한 안내서May 02, 2025 am 12:10 AM

Redis는 데이터베이스, 캐시 및 메시지 중개인으로 사용되는 오픈 소스 메모리 데이터 구조 스토리지로 빠른 응답 및 높은 동시성이 필요한 시나리오에 적합합니다. 1.Redis는 메모리를 사용하여 데이터를 저장하고 마이크로 초 읽기 및 쓰기 속도를 제공합니다. 2. 문자열, 목록, 컬렉션 등과 같은 다양한 데이터 구조를 지원합니다. 3. Redis는 RDB 및 AOF 메커니즘을 통한 데이터 지속성을 인식합니다. 4. 단일 스레드 모델 및 멀티플렉싱 기술을 사용하여 요청을 효율적으로 처리하십시오. 5. 성능 최적화 전략에는 LRU 알고리즘 및 클러스터 모드가 포함됩니다.

Redis : 캐싱, 세션 관리 등May 01, 2025 am 12:03 AM

Redis의 기능에는 주로 캐시, 세션 관리 및 기타 기능이 포함됩니다. 1) 캐시 함수는 메모리를 통해 데이터를 저장하여 읽기 속도를 향상시키고 전자 상거래 웹 사이트와 같은 고주파 액세스 시나리오에 적합합니다. 2) 세션 관리 기능은 분산 시스템에서 세션 데이터를 공유하고 만료 시간 메커니즘을 통해 자동으로 정리합니다. 3) 실시간 메시지 푸시 및 다중 스레드 시스템 및 기타 시나리오에 적합한 Publish-Subscribe 모드, 분산 잠금 및 카운터와 같은 기타 기능.

Redis : 핵심 기능과 이점을 탐색합니다Apr 30, 2025 am 12:22 AM

Redis의 핵심 기능에는 메모리 저장 및 지속 메커니즘이 포함됩니다. 1) 메모리 스토리지는 고성능 응용 프로그램에 적합한 매우 빠른 읽기 및 쓰기 속도를 제공합니다. 2) 지속성은 RDB 및 AOF를 통해 데이터가 손실되지 않도록하고, 선택은 응용 프로그램 요구를 기반으로합니다.

Redis의 서버 측 작업 : 제공하는 내용Apr 29, 2025 am 12:21 AM

redis 'sserver-sideoperationsofferfolinctionsandtriggerSforexecutingcomplexOperationsontheserver.1) functionsallowCustomOperationsInlua, javaScript, orredissscripttingLanguage, 2) triggerSenableAutomicalfutionone

Redis : 데이터베이스 또는 서버? 역할을 시연합니다Apr 28, 2025 am 12:06 AM

redisisbothadatabaseandaserver.1) asadatabase, itusesin-memorystorageforfestaccess, 이상적인 우림-타이어 배제 및 캐치.

REDIS : NOSQL 접근법의 장점Apr 27, 2025 am 12:09 AM

Redis는 고성능과 유연성을 제공하는 NOSQL 데이터베이스입니다. 1) 대규모 데이터 및 높은 동시성을 처리하는 데 적합한 키 가치 쌍을 통해 데이터를 저장합니다. 2) 메모리 저장 및 단일 스레드 모델은 빠른 읽기 및 쓰기 및 원자력을 보장합니다. 3) RDB 및 AOF 메커니즘을 사용하여 데이터를 지속하여 고 가용성 및 스케일 아웃을 지원합니다.

REDIS : 건축과 목적을 이해합니다Apr 26, 2025 am 12:11 AM

Redis는 주로 데이터베이스, 캐시 및 메시지 중개인으로 사용되는 메모리 데이터 구조 스토리지 시스템입니다. 핵심 기능에는 단일 스레드 모델, I/O 멀티플렉싱, 지속 메커니즘, 복제 및 클러스터링 기능이 포함됩니다. Redis는 일반적으로 캐싱, 세션 저장 및 메시지 대기열을위한 실제 응용 프로그램에 사용됩니다. 올바른 데이터 구조를 선택하고 파이프 라인 및 트랜잭션을 사용하여 모니터링 및 튜닝을 통해 성능을 크게 향상시킬 수 있습니다.

Redis vs. SQL 데이터베이스 : 주요 차이점Apr 25, 2025 am 12:02 AM

Redis와 SQL 데이터베이스의 주요 차이점은 Redis가 고성능 및 유연성 요구 사항에 적합한 메모리 데이터베이스라는 것입니다. SQL 데이터베이스는 관계형 데이터베이스로 복잡한 쿼리 및 데이터 일관성 요구 사항에 적합합니다. 구체적으로, 1) Redis는 고속 데이터 액세스 및 캐싱 서비스를 제공하고 캐싱 및 실시간 데이터 처리에 적합한 여러 데이터 유형을 지원합니다. 2) SQL 데이터베이스는 테이블 구조를 통한 데이터를 관리하고 복잡한 쿼리 및 트랜잭션 처리를 지원하며 데이터 일관성이 필요한 전자 상거래 및 금융 시스템과 같은 시나리오에 적합합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는