>일반적인 문제 >스파크의 네 가지 주요 구성 요소는 무엇입니까?

스파크의 네 가지 주요 구성 요소는 무엇입니까?

青灯夜游
青灯夜游원래의
2020-12-14 14:34:1822217검색

Spark의 네 가지 주요 구성 요소는 다음과 같습니다. 1. 실시간 데이터 스트리밍 컴퓨팅을 위한 구성 요소인 SparkStreaming 2. 구조화된 데이터를 운영하기 위한 구성 요소인 SparkSQL 3. Spark에서 그래프 컴퓨팅을 위해 제공하는 프레임워크 및 알고리즘 라이브러리 4. 기계 학습 알고리즘 라이브러리인 MLlib.

스파크의 네 가지 주요 구성 요소는 무엇입니까?

관련 권장 사항: "프로그래밍 비디오 코스"

spark의 네 가지 주요 구성 요소

1. SparkStreaming:

많은 응용 분야에서 실시간 데이터 스트리밍 컴퓨팅에 대한 수요가 높습니다. 네트워크 환경의 웹 서버 로그나 사용자가 제출한 상태 업데이트로 구성된 메시지 대기열 등은 모두 실시간 데이터 스트림입니다. Spark Streaming은 실시간 데이터에 대한 스트리밍 컴퓨팅을 수행하고 데이터 스트림 처리를 위한 풍부한 API를 제공하는 Spark 플랫폼의 구성 요소입니다. 이러한 API는 Spark Core의 기본 작업에 해당하므로 개발자는 Spark의 핵심 개념과 프로그래밍 방법에 익숙해지면 Spark Streaming 애플리케이션을 작성하는 데 더 익숙해질 것입니다. 기본 설계에서 Spark Streaming은 Spark Core와 동일한 수준의 내결함성, 처리량 및 확장성을 지원합니다.

2. SparkSQL:

Spark SQL은 Spark에서 구조화된 데이터를 작동하는 데 사용하는 구성 요소입니다. Spark SQL을 통해 사용자는 SQL 또는 SQL 언어(HQL)의 Apache Hive 버전을 사용하여 데이터를 쿼리할 수 있습니다. Spark SQL은 Hive 테이블, Parquet, JSON과 같은 여러 데이터 원본 유형을 지원합니다. Spark SQL은 Spark용 SQL 인터페이스를 제공할 뿐만 아니라 개발자가 SQL 문을 Spark 애플리케이션 개발 프로세스에 통합할 수 있도록 지원합니다. Python, Java 또는 Scala를 사용하든 사용자는 단일 애플리케이션에서 SQL 쿼리와 복잡한 쿼리를 동시에 수행할 수 있습니다. . 데이터 분석. Spark SQL은 Spark에서 제공하는 풍부한 컴퓨팅 환경과의 긴밀한 통합으로 인해 다른 오픈 소스 데이터 웨어하우스 도구보다 돋보입니다. Spark SQL은 Spark l.0에서 처음 소개되었습니다. Spark SQL 이전에 University of California, Berkeley에서는 Spark에서 실행되도록 Apache Hive를 수정하려고 시도한 후 Shark 구성 요소를 제안했습니다. 그러나 Spark SQL의 도입 및 개발로 인해 Spark 엔진 및 API와 더욱 긴밀하게 통합되어 Shark가 Spark SQL로 대체되었습니다.

3. GraphX:

GraphX ​​​​는 Spark에서 그래프 컴퓨팅을 위해 제공하는 프레임워크 및 알고리즘 라이브러리입니다. GraphX는 탄력적인 분산 속성 그래프 개념을 제안하며, 이를 기반으로 그래프 보기와 테이블 보기의 유기적인 결합 및 통합을 동시에 실현하며, 하위 그래프 연산, 하위 그래프 연산 등 그래프 데이터 처리를 위한 풍부한 연산을 제공합니다. 및 정점 속성을 작동합니다. mapVertices를 작동하고 가장자리 속성에서 mapEdge를 작동합니다. GraphX는 또한 PageRank, 삼각형 계산 등과 같은 몇 가지 일반적인 그래프 알고리즘을 직접 사용할 수 있는 Pregel과의 통합을 실현합니다.

4. MLlib:

MLlib는 Spark에서 제공하는 기계 학습 알고리즘 라이브러리로, 주로 분류, 회귀, 클러스터링, 협업 필터링 등 다양한 고전적이고 일반적인 기계 학습 알고리즘을 포함합니다. MLlib는 모델 평가 및 데이터 가져오기와 같은 추가 기능을 제공할 뿐만 아니라 일반적인 경사하강법 최적화 기본 알고리즘을 포함한 일부 하위 수준 기계 학습 기본 요소도 제공합니다. 이러한 모든 접근 방식은 클러스터에서 쉽게 확장할 수 있는 아키텍처로 설계되었습니다.

더 많은 관련 기사를 보려면 PHP 중국어 웹사이트를 방문하세요! !

위 내용은 스파크의 네 가지 주요 구성 요소는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.