Apache Spark는 무엇을 의미하나요?
Apache Spark는 원래 Matei Zaharia가 University of California, Berkeley에서 박사 학위 논문의 일부로 개발한 강력한 오픈 소스 처리 엔진입니다. Spark의 첫 번째 버전은 2012년에 출시되었습니다.
Apache Spark는 반구조적, 구조적, 스트리밍, 기계 학습이나 데이터 과학 등 다양하고 복잡한 데이터 문제를 해결할 수 있는 빠르고 사용하기 쉬운 프레임워크입니다. 또한 250개 이상의 조직에서 1,000명 이상의 기여자가 있고 전 세계 570개 이상의 위치에 300,000명 이상의 Spark Meetup 커뮤니티 회원이 있는 빅 데이터 분야 최대 오픈 소스 커뮤니티 중 하나가 되었습니다.
아파치 스파크란 무엇인가요?
Apache Spark는 오픈 소스의 강력한 분산 쿼리 및 처리 엔진입니다. MapReduce의 유연성과 확장성을 제공하지만 훨씬 더 빠른 속도를 제공합니다. 즉, 데이터가 메모리에 저장될 때 Apache Hadoop보다 100배 빠르고 디스크에 액세스할 때 최대 10배 빠릅니다.
Apache Spark를 사용하면 사용자는 데이터를 읽고, 변환하고, 집계하고, 복잡한 통계 모델을 쉽게 훈련하고 배포할 수 있습니다. Java, Scala, Python, R 및 SQL은 모두 Spark API에 액세스할 수 있습니다.
Apache Spark를 사용하면 애플리케이션을 구축하거나 클러스터에 배포할 라이브러리로 패키징하거나 노트북(예: Jupyter, Spark-Notebook, Databricks 노트북 및 Apache Zeppelin)을 통해 대화형으로 빠른 분석을 수행할 수 있습니다.
Apache Spark는 Python의 pandas나 R 언어의 data.frame 또는 data.tables를 사용해 본 데이터 분석가, 데이터 과학자 또는 연구자에게 친숙할 많은 라이브러리를 제공합니다. Spark DataFrame이 pandas 또는 data.frame, data.tables 사용자에게 친숙하게 느껴지더라도 여전히 몇 가지 차이점이 있으므로 너무 많이 기대하지 마십시오. SQL에 대한 배경 지식이 더 많은 사용자는 언어를 사용하여 데이터를 형성할 수도 있습니다.
또한 Apache Spark는 기계 학습을 위한 MLlib 및 ML, 그래프 처리를 위한 GraphX 및 GraphFrames, Spark Streaming(DStream 및 Structured) 등 이미 구현 및 조정된 여러 가지 알고리즘, 통계 모델 및 프레임워크를 제공합니다. Spark를 사용하면 사용자는 이러한 라이브러리를 동일한 애플리케이션에 자유롭게 결합할 수 있습니다.
Apache Spark는 로컬 노트북에서 편리하게 실행되며 로컬 클러스터나 클라우드에서 YARN 또는 Apache Mesos를 통해 독립형 모드로 쉽게 배포할 수도 있습니다. HDFS, Apache Cassandra, Apache HBase 및 S3를 포함하되 이에 국한되지 않는 다양한 데이터 소스에서 읽고 쓸 수 있습니다.
위 내용은 아파치 스파크가 무슨 뜻인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!