>데이터 베이스 >MySQL 튜토리얼 >IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?

IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-28 21:57:11351검색

How to Efficiently Filter PySpark DataFrames Using an IN Clause?

IN 절을 사용하여 Pyspark DataFrame 필터링 처리

SQL과 같은 IN 절을 사용하여 Pyspark DataFrame 필터링은 문자열 형식을 사용하여 수행할 수 있습니다.

주어진 예에서:

sc = SparkContext()
sqlc = SQLContext(sc)
df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')

SQLContext에 전달된 문자열은 다음과 같습니다. SQL 환경에서 평가되며 클로저를 캡처하지 않습니다. 변수를 명시적으로 전달하려면 문자열 형식을 사용하세요.

df.registerTempTable("df")
sqlContext.sql("SELECT * FROM df WHERE v IN {0}".format(("foo", "bar"))).count()

또는 DataFrame DSL이 동적 쿼리에 더 나은 옵션을 제공합니다.

from pyspark.sql.functions import col

df.where(col("v").isin({"foo", "bar"})).count()

위 내용은 IN 절을 사용하여 PySpark DataFrame을 효율적으로 필터링하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.