Heim >Datenbank >MySQL-Tutorial >Wie verkette ich Spalten in einem Apache Spark DataFrame?

Wie verkette ich Spalten in einem Apache Spark DataFrame?

Patricia Arquette
Patricia ArquetteOriginal
2025-01-18 18:42:13259Durchsuche

How to Concatenate Columns in an Apache Spark DataFrame?

Verketten von Spalten in einem Apache Spark-DataFrame

In Apache Spark können Sie Spalten in einem DataFrame verketten, indem Sie entweder Roh-SQL oder die in Spark 1.5.0 eingeführte DataFrame-API verwenden .

Verwendung von Raw SQL

Um Spalten mit Raw SQL zu verketten, verwenden Sie die CONCATFunktion:

In Python:

df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v"))
df.registerTempTable("df")
sqlContext.sql("SELECT CONCAT(k, ' ',  v) FROM df")

In Scala:

import sqlContext.implicits._

val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v")
df.registerTempTable("df")
sqlContext.sql("SELECT CONCAT(k, ' ',  v) FROM df")

Verwenden der DataFrame-API

Seit Spark 1.5.0 können Sie die verwenden concat Funktion mit der DataFrame-API:

In Python:

from pyspark.sql.functions import concat, col, lit

df.select(concat(col("k"), lit(" "), col("v")))

In Scala:

import org.apache.spark.sql.functions.{concat, lit}

df.select(concat($"k", lit(" "), $"v"))

Mit concat_ws

Es gibt auch die concat_ws-Funktion, die als erstes Argument ein Zeichenfolgentrennzeichen verwendet:

df.select(concat_ws("-", col("k"), col("v")))

Das obige ist der detaillierte Inhalt vonWie verkette ich Spalten in einem Apache Spark DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn