집 >데이터 베이스 >MySQL 튜토리얼 >외부 데이터베이스의 특정 쿼리 결과를 Spark DataFrame으로 가져오는 방법은 무엇입니까?
Apache Spark에서는 외부 데이터베이스에 연결하여 Spark DataFrames에 데이터를 로드할 수 있습니다. 읽기 방법을 사용합니다. 데이터베이스 테이블에서 읽을 때 기본 동작은 전체 테이블을 검색하는 것입니다. 그러나 특정 시나리오에서는 특정 쿼리의 결과만 가져오는 것이 바람직할 수 있습니다.
PySpark를 사용하면 SQL 쿼리를 " 데이터베이스에서 읽을 때 dbtable" 옵션을 사용합니다. 이를 통해 전체 테이블 대신 쿼리의 결과 집합을 가져올 수 있습니다.
from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp")\ .option("user", "username")\ .option("password", "password")\ .load()
이 예에서는 쿼리(SELECT foo, bar FROMschema.tablename)가 외부 데이터베이스에서 실행되고, 결과 세트는 Spark DataFrame df에 로드됩니다.
위 내용은 외부 데이터베이스의 특정 쿼리 결과를 Spark DataFrame으로 가져오는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!