>  기사  >  Java  >  Spark DataFrames에서 복잡한 데이터 구조를 평면화하는 방법은 무엇입니까?

Spark DataFrames에서 복잡한 데이터 구조를 평면화하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-25 08:46:28907검색

How to Flatten Complex Data Structures in Spark DataFrames?

Spark 데이터 프레임에서 복잡한 데이터 구조를 분할하는 방법

Spark 데이터 프레임에서는 구조체, 맵과 같은 복잡한 데이터 구조를 사용하여 저장할 수 있습니다. 데이터를 효율적으로 중첩했습니다. 그러나 개별 요소를 직접 사용하려면 이러한 구조를 평면화해야 할 수도 있습니다.

중첩 구조체 평면화

구조체의 중첩 필드를 추출하려면 col 함수는 * 와일드카드 기호와 결합될 수 있습니다. 예를 들어 다음 데이터 프레임 스키마를 고려해보세요.

|-- data: struct (nullable = true)
 |    |-- id: long (nullable = true)
 |    |-- keyNote: struct (nullable = true)
 |    |    |-- key: string (nullable = true)
 |    |    |-- note: string (nullable = true)
 |    |-- details: map (nullable = true)
 |    |    |-- key: string
 |    |    |-- value: string (valueContainsNull = true)

이 구조체를 평면화하고 새 데이터 프레임을 생성하려면 다음을 사용하세요.

df.select(df.col("data.*"))

이렇게 하면 다음과 같은 평면화된 구조로 데이터 프레임이 생성됩니다.

     |-- id: long (nullable = true)
     |-- keyNote: struct (nullable = true)
     |    |-- key: string (nullable = true)
     |    |-- note: string (nullable = true)
     |-- details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)

중첩 지도 평면화

마찬가지로 다음 구문을 사용하여 중첩 지도를 평면화할 수 있습니다.

df.select(df.col("data.details").as("map_details"))

이렇게 하면 데이터프레임이 생성됩니다. 평면화된 지도를 "map_details"라는 새 열로 사용합니다. 열의 구조는 다음과 같습니다.

     |-- map_details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)

위 내용은 Spark DataFrames에서 복잡한 데이터 구조를 평면화하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.