>  기사  >  Java  >  "spark-submit"을 사용하여 Spark JAR 파일 종속성을 어떻게 관리합니까?

"spark-submit"을 사용하여 Spark JAR 파일 종속성을 어떻게 관리합니까?

Linda Hamilton
Linda Hamilton원래의
2024-11-18 04:42:02313검색

How do I manage Spark JAR file dependencies with

"spark-submit"을 사용한 Spark JAR 파일 관리 이해

Spark 작업에 JAR 파일 추가

"spark를 사용하여 Spark 작업을 제출하는 경우 -submit", 추가 JAR 파일을 추가하기 위한 여러 옵션이 있습니다.

ClassPath

"--driver-class-path" 및 "--spark.executor.extraClassPath"와 같은 옵션이 사용됩니다. ClassPath를 수정합니다. ClassPath에 JAR을 추가하면 코드에서 해당 JAR 내의 클래스를 찾아 로드할 수 있습니다.

구분 문자

ClassPath 설정에서 여러 JAR 파일에 대한 구분 기호는 운영 체제에 따라 다릅니다. Linux에서는 콜론(':')이고 Windows에서는 세미콜론(';')입니다.

파일 배포

JAR 파일은 "--jars" 또는 "를 통해 추가됩니다. SparkContext.addJar()"는 클라이언트 모드의 모든 작업자 노드에 자동으로 배포됩니다. 클러스터 모드에서는 HDFS 또는 S3와 같은 외부 소스를 통해 모든 노드에서 JAR 파일에 액세스할 수 있는지 확인해야 합니다. "SparkContext.addFile()"은 비종속성 파일을 배포하는 데 유용합니다.

허용된 파일 URI

"spark-submit"은 로컬 파일 경로, HDFS를 비롯한 다양한 URI 체계를 사용하여 JAR 파일을 허용합니다. , HTTP, HTTPS 및 FTP.

위치 복사

추가 JAR 파일은 일반적으로 "/var/run/spark/work" 아래 작업자 노드에 있는 각 SparkContext의 작업 디렉터리에 복사됩니다. "

옵션 우선 순위

SparkConf에 직접 설정된 속성의 우선 순위가 가장 높고, "spark-submit"에 전달된 플래그, "spark-defaults.conf"의 옵션 순입니다.

특정 옵션 역할

  • --jars, SparkContext.addJar(): JAR 파일을 추가하지만 ClassPath는 수정하지 않습니다.
  • --driver-class-path, Spark.driver.extraClassPath: 드라이버의 ClassPath에 JAR 파일을 추가합니다.
  • --driver-library-path, Spark.driver. extraLibraryPath: 드라이버의 라이브러리 경로 설정을 수정합니다.
  • **--conf Spark.executor.extraClassPath`: JAR 파일을 실행기의 ClassPath에 추가합니다.
  • **--conf Spark.executor. extraLibraryPath`: 실행기의 라이브러리 경로 설정을 수정합니다.

옵션 결합

클라이언트 모드에서는 여러 옵션을 사용하여 드라이버 노드와 작업자 노드 모두에 JAR 파일을 추가하는 것이 안전합니다. 그러나 클러스터 모드에서는 모든 작업자 노드에서 JAR 파일을 사용할 수 있도록 추가 방법을 사용해야 할 수도 있습니다.

위 내용은 "spark-submit"을 사용하여 Spark JAR 파일 종속성을 어떻게 관리합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.