>운영 및 유지보수 >Apache >아파치 스파크가 뭐야?

아파치 스파크가 뭐야?

藏色散人
藏色散人원래의
2019-06-11 13:47:004182검색

아파치 스파크가 뭐야?

Apache Spark는 원래 University of California, Berkeley의 AMPLab에서 개발한 오픈 소스 클러스터 컴퓨팅 프레임워크입니다. 작업을 실행한 후 중간 데이터를 디스크에 저장하는 Hadoop의 MapReduce와 비교하여 Spark는 데이터가 하드 디스크에 기록되기 전에 인메모리 컴퓨팅 기술을 사용하여 메모리에서 작업을 분석하고 수행합니다.

Spark는 Hadoop MapReduce보다 100배 빠르게 메모리에서 프로그램을 실행할 수 있습니다. 하드 디스크에서 프로그램을 실행하는 경우에도 Spark는 10배 더 빠르게 실행할 수 있습니다. Spark를 사용하면 사용자가 데이터를 클러스터 스토리지에 로드하고 여러 번 쿼리할 수 있으므로 기계 학습 알고리즘에 이상적입니다.

Spark를 사용하려면 클러스터 관리자와 분산 스토리지 시스템이 필요합니다. Spark는 독립형 모드(로컬 Spark 클러스터), Hadoop YARN 또는 Apache Mesos 클러스터 관리를 지원합니다.

분산 스토리지 측면에서 Spark는 HDFS, Cassandra, OpenStack Swift 및 Amazon S3와 같은 인터페이스를 탑재할 수 있습니다. Spark도 의사 분산 로컬 모드를 지원하지만 일반적으로 분산 스토리지 시스템을 로컬 파일 시스템으로 교체하기 위한 개발이나 테스트에만 사용됩니다. 이러한 경우 Spark는 프로그램을 실행하기 위해 한 시스템의 각 CPU 코어만 사용합니다.

2014년에는 465명 이상의 기여자가 Spark 개발에 투자하여 Apache Software Foundation과 수많은 빅 데이터 오픈 소스 프로젝트 중에서 가장 활발한 프로젝트가 되었습니다.

더 많은 Apache 관련 지식을 알고 싶다면 Apache 사용 튜토리얼 칼럼을 방문해 보세요!

위 내용은 아파치 스파크가 뭐야?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.