>백엔드 개발 >파이썬 튜토리얼 >Spark 작업 내에서 Java/Scala 함수를 호출하는 방법

Spark 작업 내에서 Java/Scala 함수를 호출하는 방법

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-21 14:56:301074검색

How to Call Java/Scala Functions from Within a Spark Task

Spark 작업 내에서 Java/Scala 함수 호출

Background

Scala를 사용할 때 DecisionTreeModel.predict를 맵의 일부로 호출 변환하면 예외가 발생할 수 있습니다. 그 이유는 JavaModelWrapper.call 메소드 호출과 관련이 있습니다.

문제 이해

JavaModelWrapper.call은 PySpark의 컨텍스트에서 실행되는 SparkContext에 대한 액세스가 필요합니다. 운전사. 그러나 맵 변환은 작업자 노드에서 실행되므로 맵 내에서 JavaModelWrapper.call을 호출하는 것은 허용되지 않습니다.

Java UDF를 사용하는 솔루션

한 가지 솔루션은 Java 코드를 사용자로 캡슐화하는 것입니다. -정의된 함수(UDF)를 생성하고 Spark SQL 내에서 사용하세요. 이렇게 하면 Python 작업 내에서 Java 코드를 호출하는 문제가 방지됩니다. 그러나 이 솔루션은 Python과 Scala 간의 데이터 변환이 필요하며 추가적인 복잡성을 초래합니다.

Java 서비스 래퍼를 사용하는 솔루션

또 다른 옵션은 Java 코드에 대한 인터페이스를 제공하는 사용자 정의 Java 서비스 래퍼를 생성하는 것입니다. 파이썬에서. 이러한 래퍼는 Py4j에 등록할 수 있으며 org.apache.spark.api.java.JavaRDD.withContext를 사용하여 액세스하여 SparkContext에 액세스할 수 있습니다.

결론

Java UDF 및 Java 서비스 래퍼는 Spark 작업 내에서 Java/Scala 함수를 호출하기 위한 해결 방법을 제공하므로 특정 사용 사례에 가장 적합한 솔루션을 선택하기 전에 각 접근 방식과 관련된 오버헤드 및 제한 사항을 고려하는 것이 중요합니다.

위 내용은 Spark 작업 내에서 Java/Scala 함수를 호출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.