집 >백엔드 개발 >파이썬 튜토리얼 >Spark 작업 내에서 Java/Scala 함수를 호출하는 방법

Spark 작업 내에서 Java/Scala 함수를 호출하는 방법

Mary-Kate Olsen원래의: 2024-10-21 14:56:301166검색

How to Call Java/Scala Functions from Within a Spark Task

Spark 작업 내에서 Java/Scala 함수 호출

Background

Scala를 사용할 때 DecisionTreeModel.predict를 맵의 일부로 호출 변환하면 예외가 발생할 수 있습니다. 그 이유는 JavaModelWrapper.call 메소드 호출과 관련이 있습니다.

문제 이해

JavaModelWrapper.call은 PySpark의 컨텍스트에서 실행되는 SparkContext에 대한 액세스가 필요합니다. 운전사. 그러나 맵 변환은 작업자 노드에서 실행되므로 맵 내에서 JavaModelWrapper.call을 호출하는 것은 허용되지 않습니다.

Java UDF를 사용하는 솔루션

한 가지 솔루션은 Java 코드를 사용자로 캡슐화하는 것입니다. -정의된 함수(UDF)를 생성하고 Spark SQL 내에서 사용하세요. 이렇게 하면 Python 작업 내에서 Java 코드를 호출하는 문제가 방지됩니다. 그러나 이 솔루션은 Python과 Scala 간의 데이터 변환이 필요하며 추가적인 복잡성을 초래합니다.

Java 서비스 래퍼를 사용하는 솔루션

또 다른 옵션은 Java 코드에 대한 인터페이스를 제공하는 사용자 정의 Java 서비스 래퍼를 생성하는 것입니다. 파이썬에서. 이러한 래퍼는 Py4j에 등록할 수 있으며 org.apache.spark.api.java.JavaRDD.withContext를 사용하여 액세스하여 SparkContext에 액세스할 수 있습니다.

결론

Java UDF 및 Java 서비스 래퍼는 Spark 작업 내에서 Java/Scala 함수를 호출하기 위한 해결 방법을 제공하므로 특정 사용 사례에 가장 적합한 솔루션을 선택하기 전에 각 접근 방식과 관련된 오버헤드 및 제한 사항을 고려하는 것이 중요합니다.

위 내용은 Spark 작업 내에서 Java/Scala 함수를 호출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python Java scala sql for using Interface map function this spark apache issue Access scala

성명：

이전 기사：정확한 계산을 위해 부동 소수점 산술의 함정을 극복하는 방법은 무엇입니까?다음 기사：정확한 계산을 위해 부동 소수점 산술의 함정을 극복하는 방법은 무엇입니까?