>Java >java지도 시간 >Spark 데이터 프레임에서 중첩된 구조체를 평면화하는 방법은 무엇입니까?

Spark 데이터 프레임에서 중첩된 구조체를 평면화하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-25 09:51:02829검색

How to Flatten Nested Structs in a Spark Dataframe?

Spark 데이터 프레임에서 중첩 구조체 평면화

데이터 프레임에 복잡한 중첩 구조가 포함되어 평면화가 필요한 상황이 발생할 수 있습니다. 다음 구조의 데이터 프레임을 고려해보세요.

|-- data: struct (nullable = true)
|    |-- id: long (nullable = true)
|    |-- keyNote: struct (nullable = true)
|    |    |-- key: string (nullable = true)
|    |    |-- note: string (nullable = true)
|    |-- details: map (nullable = true)
|    |    |-- key: string
|    |    |-- value: string (valueContainsNull = true)

목표는 이 구조를 평면화하고 다음과 같은 단순화된 구조로 새 데이터 프레임을 생성하는 것입니다.

|-- id: long (nullable = true)
|-- keyNote: struct (nullable = true)
|    |-- key: string (nullable = true)
|    |-- note: string (nullable = true)
|-- details: map (nullable = true)
|    |-- key: string
|    |-- value: string (valueContainsNull = true)

Spark는 명시적으로 제공하지 않습니다. 구조체에 대한 "폭발" 기능을 사용하려면 Spark 1.6 이상에서 다음 방법을 사용하여 원하는 결과를 얻을 수 있습니다.

df.select(df.col("data.*"))

또는 "데이터" 구조체의 특정 필드만 필요한 경우 다음 구문을 사용할 수 있습니다.

df.select(df.col("data.id"), df.col("data.keyNote"), df.col("data.details"))

이러한 기술을 활용하면 Spark 데이터 프레임에서 복잡하게 중첩된 구조체를 평면화하여 데이터를 추가로 분석하고 조작할 수 있습니다.

위 내용은 Spark 데이터 프레임에서 중첩된 구조체를 평면화하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.