Scala를 사용할 때 DecisionTreeModel.predict를 맵의 일부로 호출 변환하면 예외가 발생할 수 있습니다. 그 이유는 JavaModelWrapper.call 메소드 호출과 관련이 있습니다.
JavaModelWrapper.call은 PySpark의 컨텍스트에서 실행되는 SparkContext에 대한 액세스가 필요합니다. 운전사. 그러나 맵 변환은 작업자 노드에서 실행되므로 맵 내에서 JavaModelWrapper.call을 호출하는 것은 허용되지 않습니다.
한 가지 솔루션은 Java 코드를 사용자로 캡슐화하는 것입니다. -정의된 함수(UDF)를 생성하고 Spark SQL 내에서 사용하세요. 이렇게 하면 Python 작업 내에서 Java 코드를 호출하는 문제가 방지됩니다. 그러나 이 솔루션은 Python과 Scala 간의 데이터 변환이 필요하며 추가적인 복잡성을 초래합니다.
또 다른 옵션은 Java 코드에 대한 인터페이스를 제공하는 사용자 정의 Java 서비스 래퍼를 생성하는 것입니다. 파이썬에서. 이러한 래퍼는 Py4j에 등록할 수 있으며 org.apache.spark.api.java.JavaRDD.withContext를 사용하여 액세스하여 SparkContext에 액세스할 수 있습니다.
Java UDF 및 Java 서비스 래퍼는 Spark 작업 내에서 Java/Scala 함수를 호출하기 위한 해결 방법을 제공하므로 특정 사용 사례에 가장 적합한 솔루션을 선택하기 전에 각 접근 방식과 관련된 오버헤드 및 제한 사항을 고려하는 것이 중요합니다.
위 내용은 Spark 작업 내에서 Java/Scala 함수를 호출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!