>데이터 베이스 >MySQL 튜토리얼 >외부 데이터베이스의 특정 쿼리 결과를 Spark DataFrame으로 가져오는 방법은 무엇입니까?

외부 데이터베이스의 특정 쿼리 결과를 Spark DataFrame으로 가져오는 방법은 무엇입니까?

DDD
DDD원래의
2024-11-30 16:05:14698검색

How to Fetch Specific Query Results from an External Database into a Spark DataFrame?

Apache Spark 2.0.0의 외부 데이터베이스에서 쿼리 결과 가져오기

Apache Spark에서는 외부 데이터베이스에 연결하여 Spark DataFrames에 데이터를 로드할 수 있습니다. 읽기 방법을 사용합니다. 데이터베이스 테이블에서 읽을 때 기본 동작은 전체 테이블을 검색하는 것입니다. 그러나 특정 시나리오에서는 특정 쿼리의 결과만 가져오는 것이 바람직할 수 있습니다.

PySpark에서 외부 데이터베이스 쿼리

PySpark를 사용하면 SQL 쿼리를 " 데이터베이스에서 읽을 때 dbtable" 옵션을 사용합니다. 이를 통해 전체 테이블 대신 쿼리의 결과 집합을 가져올 수 있습니다.

from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("spark play")\
    .getOrCreate()    

df = spark.read\
    .format("jdbc")\
    .option("url", "jdbc:mysql://localhost:port")\
    .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp")\
    .option("user", "username")\
    .option("password", "password")\
    .load()

이 예에서는 쿼리(SELECT foo, bar FROMschema.tablename)가 외부 데이터베이스에서 실행되고, 결과 세트는 Spark DataFrame df에 로드됩니다.

위 내용은 외부 데이터베이스의 특정 쿼리 결과를 Spark DataFrame으로 가져오는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.