아파치 스파크는 무엇을 의미하나요?
Apache Spark는 데이터 분석 속도를 높이는 것을 목표로 하는 메모리 컴퓨팅 기반의 오픈 소스 클러스터 컴퓨팅 시스템입니다. Spark는 매우 작고 정교하며 버클리 캘리포니아 대학교 AMP 연구소의 Matei가 이끄는 소규모 팀에 의해 개발되었습니다. 사용된 언어는 Scala이고, 프로젝트의 핵심 부분에 대한 코드는 Scala 파일이 63개뿐이어서 매우 짧고 간결합니다.
Apache Spark의 5가지 주요 장점:
1. 데이터가 클러스터 호스트의 분산 메모리에 로드되므로 성능이 향상됩니다. 이후의 빈번한 액세스 요구에 대비하여 데이터를 빠르게 반복하고 캐시할 수 있습니다. Spark에 관심이 있는 많은 친구들은 이 문장을 들어봤을 것입니다. 모든 데이터를 메모리에 로드하면 Spark는 Hadoop보다 100배 더 빠를 수 있고, 모든 데이터를 저장할 메모리가 충분하지 않을 경우 Spark는 10배 더 빠를 수 있습니다. 하둡보다 빠릅니다.
2 Java, Scala, Python, SQL(대화형 쿼리용)로 구축된 표준 API를 통해 다양한 계층에서 쉽게 사용할 수 있으며, 외부에서도 사용할 수 있는 다수의 머신러닝 라이브러리가 포함되어 있습니다. 상자.
3. 기존 Hadoop v1(SIMR) 및 2.x(YARN) 생태계와 호환되므로 조직이 원활하게 마이그레이션할 수 있습니다.
4. 다운로드 및 설치가 쉽습니다. 편리한 셸(REPL: Read-Eval-Print-Loop)을 사용하면 API를 대화형으로 학습할 수 있습니다.
5. 높은 수준의 아키텍처를 통해 생산성을 향상시켜 컴퓨팅에 집중할 수 있습니다.
동시에 Apache Spark는 Scala로 구현되며 코드가 매우 간결합니다.
위 내용은 아파치 스파크가 무슨 뜻인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!