Heim  >  Artikel  >  Java  >  Wie lassen sich komplexe Datenstrukturen in Spark DataFrames verflachen?

Wie lassen sich komplexe Datenstrukturen in Spark DataFrames verflachen?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-10-25 08:46:28907Durchsuche

How to Flatten Complex Data Structures in Spark DataFrames?

So teilen Sie komplexe Datenstrukturen in Spark-DataFrames auf

In Spark-Dataframes können komplexe Datenstrukturen wie Strukturen und Karten zum Speichern verwendet werden verschachtelte Daten effizient verarbeiten. Allerdings kann es notwendig werden, diese Strukturen zu verflachen, um direkt mit den einzelnen Elementen arbeiten zu können.

Verschachtelte Strukturen verflachen

Um die verschachtelten Felder einer Struktur zu extrahieren, muss die Spalte col Die Funktion kann mit dem Platzhalterzeichen * kombiniert werden. Betrachten Sie beispielsweise das folgende Datenrahmenschema:

|-- data: struct (nullable = true)
 |    |-- id: long (nullable = true)
 |    |-- keyNote: struct (nullable = true)
 |    |    |-- key: string (nullable = true)
 |    |    |-- note: string (nullable = true)
 |    |-- details: map (nullable = true)
 |    |    |-- key: string
 |    |    |-- value: string (valueContainsNull = true)

Um diese Struktur zu reduzieren und einen neuen Datenrahmen zu erstellen, verwenden Sie Folgendes:

df.select(df.col("data.*"))

Dadurch wird ein Datenrahmen mit der folgenden reduzierten Struktur erstellt:

     |-- id: long (nullable = true)
     |-- keyNote: struct (nullable = true)
     |    |-- key: string (nullable = true)
     |    |-- note: string (nullable = true)
     |-- details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)

Verschachtelte Karten reduzieren

In ähnlicher Weise können verschachtelte Karten mit der folgenden Syntax reduziert werden:

df.select(df.col("data.details").as("map_details"))

Dadurch wird ein Datenrahmen erstellt mit der abgeflachten Karte als neue Spalte mit dem Namen „map_details“. Die Spalte hat die folgende Struktur:

     |-- map_details: map (nullable = true)
     |    |-- key: string
     |    |-- value: string (valueContainsNull = true)

Das obige ist der detaillierte Inhalt vonWie lassen sich komplexe Datenstrukturen in Spark DataFrames verflachen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn