>데이터 베이스 >MySQL 튜토리얼 >SparkSQL에서 하위 쿼리 기능은 어떻게 발전했나요?

SparkSQL에서 하위 쿼리 기능은 어떻게 발전했나요?

Patricia Arquette
Patricia Arquette원래의
2025-01-02 20:33:43873검색

How Have Subquery Capabilities Evolved in SparkSQL?

SparkSQL의 하위 쿼리 이해

SparkSQL은 특히 WHERE 절에서 하위 쿼리를 지원하는 데 한계에 직면했습니다. 이 기사에서는 주제에 중점을 두지만 최신 버전의 Spark(2.0)가 하위 쿼리에 대한 보다 강력한 지원을 제공한다는 점에 유의하는 것이 중요합니다. 이번 답변에서는 SparkSQL의 하위 쿼리의 역사적 한계와 현재 상태를 살펴보겠습니다.

Spark 2.0 이상

Spark 2.0에서는 하위 쿼리가 크게 개선되었습니다. 손질. 이제 상관된 하위 쿼리와 상관되지 않은 하위 쿼리를 모두 지원합니다. 지원되는 시나리오의 예는 다음과 같습니다.

select * from l where exists (select * from r where l.a = r.c)

Spark 전 2.0

Spark 2.0 이전에는 하위 쿼리가 이전 Hive의 동작을 따라 FROM 절로 제한되었습니다. 버전 0.12. WHERE 절의 하위 쿼리는 지원되지 않았습니다. 이러한 제한은 JOIN 연산을 사용하여 하위 쿼리를 표현할 수 있다는 사실에서 비롯되었습니다.

예를 들어, Samplecsv 테이블의 최대 급여보다 적은 급여를 요청하는 쿼리는

sqlContext.sql(
  "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)"
).collect().foreach(println)

실패합니다. 잘못된 구문을 나타내는 오류와 함께 실행됩니다. Spark 이전 버전의 솔루션에는 JOIN을 사용하여 쿼리를 다시 작성하는 것이 포함되었습니다.

sqlContext.sql(
  "select l.sal from samplecsv l JOIN
  (select MAX(sal) as max_salary from samplecsv) r
  ON l.sal < r.max_sale"
).collect().foreach(println)

계획된 기능

앞으로 Spark는 훨씬 더 향상된 기능을 도입할 계획입니다. 하위 쿼리 지원. 여기에는 다음이 포함됩니다.

  • 단일 열 DataFrame을 Column.isin()에 대한 입력으로 허용
  • 상관 하위 쿼리 처리에 대한 포괄적인 지원

결론

SparkSQL의 하위 쿼리 기능은 상당한 발전을 거쳤습니다. Spark 2.0의 도입으로 이제 하위 쿼리가 광범위하게 지원되므로 개발자는 복잡한 쿼리를 더욱 쉽게 표현할 수 있습니다.

위 내용은 SparkSQL에서 하위 쿼리 기능은 어떻게 발전했나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.