아파치 스파크가 뭐야?-Apache-php.cn

집

운영 및 유지보수

Apache

아파치 스파크가 뭐야?

步履不停

Jun 28, 2019 pm 01:52 PM

apachespark

아파치 스파크가 뭐야?

Spark는 보다 빠른 데이터 분석을 목표로 하는 메모리 컴퓨팅 기반의 오픈 소스 클러스터 컴퓨팅 시스템입니다. Spark는 매우 작고 정교하며 버클리 캘리포니아 대학교 AMP 연구소의 Matei가 이끄는 소규모 팀에 의해 개발되었습니다. 사용된 언어는 Scala이고, 프로젝트의 핵심 부분에 대한 코드는 Scala 파일이 63개뿐이어서 매우 짧고 간결합니다.

Spark는 Hadoop과 유사한 오픈 소스 클러스터 컴퓨팅 환경이지만 둘 사이에는 몇 가지 차이점이 있습니다. 이러한 유용한 차이점으로 인해 Spark는 특정 워크로드에서 더 나은 성능을 발휘합니다. 대화형 쿼리를 제공할 수 있을 뿐만 아니라 반복적인 작업 부하도 최적화할 수 있는 메모리 분산 데이터 세트입니다.

Spark는 Scala 언어로 구현되었으며 Scala를 애플리케이션 프레임워크로 사용합니다. Hadoop과 달리 Spark와 Scala는 긴밀하게 통합되어 있으며 Scala를 사용하면 분산 데이터 세트를 로컬 컬렉션 개체만큼 쉽게 조작할 수 있습니다.

Spark는 분산 데이터 세트에서 반복 작업을 지원하기 위해 만들어졌지만 실제로는 Hadoop을 보완하며 Hadoop 파일 시스템에서 병렬로 실행될 수 있습니다. 이 동작은 Mesos라는 타사 클러스터 프레임워크를 통해 지원됩니다. UC Berkeley AMP Lab(Algorithms, Machines, and People Lab)에서 개발한 Spark는 대기 시간이 짧은 대규모 데이터 분석 애플리케이션을 구축하는 데 사용할 수 있습니다.

Spark 클러스터 컴퓨팅 아키텍처
Spark는 Hadoop과 유사하지만 유용한 차이점이 있는 새로운 클러스터 컴퓨팅 프레임워크를 제공합니다. 첫째, Spark는 클러스터 컴퓨팅의 특정 유형의 워크로드, 즉 병렬 작업 간에 작업 데이터 세트(예: 기계 학습 알고리즘)를 재사용하는 워크로드를 위해 설계되었습니다. 이러한 유형의 워크로드를 최적화하기 위해 Spark는 데이터 세트가 메모리에 캐시되어 액세스 대기 시간을 줄이는 인메모리 클러스터 컴퓨팅 개념을 도입합니다.

Spark에서는 RDD(Resilient Distributed Dataset)라는 추상화도 도입했습니다. RDD는 노드 집합에 분산된 읽기 전용 개체 모음입니다. 이러한 컬렉션은 탄력적이며 데이터 세트의 일부가 손실된 경우 재구성될 수 있습니다. 부분 데이터 세트를 재구성하는 프로세스는 "계보"(즉, 데이터 파생 프로세스를 기반으로 데이터 세트의 부분 재구성을 허용하는 정보)를 유지하는 내결함성 메커니즘에 의존합니다. RDD는 파일에서 생성될 수 있는 Scala 객체, 병렬화된 슬라이스(노드 전체에 분산), RDD의 또 다른 변환 형태, 그리고 궁극적으로 캐시된 요청과 같은 기존 RDD의 지속성에 대한 완전한 변경으로 표시됩니다. 기억 속에.

Spark의 애플리케이션을 드라이버라고 하며, 이러한 드라이버는 단일 노드에서 또는 노드 집합에서 병렬로 수행되는 작업을 구현합니다. Hadoop과 마찬가지로 Spark는 단일 노드 클러스터 또는 다중 노드 클러스터를 지원합니다. 다중 노드 작업의 경우 Spark는 Mesos 클러스터 관리자를 사용합니다. Mesos는 분산 애플리케이션의 리소스 공유 및 격리를 위한 효율적인 플랫폼을 제공합니다. 이 설정을 사용하면 Spark와 Hadoop이 공유 노드 풀에서 공존할 수 있습니다.

Apache와 관련된 더 많은 기술 기사를 보려면 Apache Tutorial 컬럼을 방문하여 알아보세요!

위 내용은 아파치 스파크가 뭐야?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Apache80 포트가 점유 된 경우해야 할 일Apr 13, 2025 pm 01:24 PM

Apache 80 포트가 점유되면 솔루션은 다음과 같습니다. 포트를 차지하고 닫는 프로세스를 찾으십시오. 방화벽 설정을 확인하여 Apache가 차단되지 않았는지 확인하십시오. 위의 방법이 작동하지 않으면 Apache를 재구성하여 다른 포트를 사용하십시오. Apache 서비스를 다시 시작하십시오.

Apache를 시작할 수없는 문제를 해결하는 방법Apr 13, 2025 pm 01:21 PM

다음과 같은 이유로 Apache가 시작할 수 없습니다. 구성 파일 구문 오류. 다른 응용 프로그램 포트와 충돌합니다. 권한 문제. 기억이 없습니다. 프로세스 교착 상태. 데몬 실패. Selinux 권한 문제. 방화벽 문제. 소프트웨어 충돌.

Apache에서 CGI 디렉토리를 설정하는 방법Apr 13, 2025 pm 01:18 PM

Apache에서 CGI 디렉토리를 설정하려면 다음 단계를 수행해야합니다. "CGI-BIN"과 같은 CGI 디렉토리를 작성하고 Apache 쓰기 권한을 부여하십시오. Apache 구성 파일에 "Scriptalias"지시록 블록을 추가하여 CGI 디렉토리를 "/cgi-bin"URL에 매핑하십시오. Apache를 다시 시작하십시오.

Apache 버전을 보는 방법Apr 13, 2025 pm 01:15 PM

APACHE 서버에서 버전을 보는 3 가지 방법이 있습니다. 명령 줄 (APACHECTL -V 또는 APACHE2CTL -V)을 통해 서버 상태 페이지 (http : // & lt; 서버 IP 또는 도메인 이름 & gt;/server -status)를 확인하거나 APACHE 구성 파일 (ServerVersion : Apache/& lt; 버전 번호 & gt;).

Apache 서버를 다시 시작하는 방법Apr 13, 2025 pm 01:12 PM

Apache 서버를 다시 시작하려면 다음 단계를 따르십시오. Linux/MacOS : Sudo SystemCTL 실행 Apache2를 다시 시작하십시오. Windows : Net Stop Apache2.4를 실행 한 다음 Net Start Apache2.4를 시작하십시오. Netstat -A |를 실행하십시오 서버 상태를 확인하려면 Findstr 80.

Apache의 서버 이름 이상을 삭제하는 방법Apr 13, 2025 pm 01:09 PM

Apache에서 추가 ServerName 지시문을 삭제하려면 다음 단계를 수행 할 수 있습니다. 추가 ServerName Directive를 식별하고 삭제하십시오. Apache를 다시 시작하여 변경 사항이 적용됩니다. 구성 파일을 확인하여 변경 사항을 확인하십시오. 서버를 테스트하여 문제가 해결되었는지 확인하십시오.

아파치를 시작하는 방법Apr 13, 2025 pm 01:06 PM

Apache를 시작하는 단계는 다음과 같습니다. Apache 설치 (명령 : Sudo apt-get Apache2를 설치하거나 공식 웹 사이트에서 다운로드) 시작 apache (linux : sudo systemctl start : windes (선택 사항, Linux : Sudo SystemCtl

Apache의 데이터베이스에 연결하는 방법Apr 13, 2025 pm 01:03 PM

Apache는 데이터베이스에 연결하여 다음 단계가 필요합니다. 데이터베이스 드라이버 설치. 연결 풀을 만들려면 Web.xml 파일을 구성하십시오. JDBC 데이터 소스를 작성하고 연결 설정을 지정하십시오. JDBC API를 사용하여 Connections, 명세서 작성, 매개 변수 바인딩, 쿼리 또는 업데이트 실행 및 처리를 포함하여 Java 코드의 데이터베이스에 액세스하십시오.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.