Heim >Datenbank >MySQL-Tutorial >Wie verkette ich Spalten in einem Apache Spark DataFrame?
In Apache Spark können Sie Spalten in einem DataFrame verketten, indem Sie entweder Roh-SQL oder die in Spark 1.5.0 eingeführte DataFrame-API verwenden .
Um Spalten mit Raw SQL zu verketten, verwenden Sie die CONCATFunktion:
In Python:
df = sqlContext.createDataFrame([("foo", 1), ("bar", 2)], ("k", "v")) df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
In Scala:
import sqlContext.implicits._ val df = sc.parallelize(Seq(("foo", 1), ("bar", 2))).toDF("k", "v") df.registerTempTable("df") sqlContext.sql("SELECT CONCAT(k, ' ', v) FROM df")
Seit Spark 1.5.0 können Sie die verwenden concat Funktion mit der DataFrame-API:
In Python:
from pyspark.sql.functions import concat, col, lit df.select(concat(col("k"), lit(" "), col("v")))
In Scala:
import org.apache.spark.sql.functions.{concat, lit} df.select(concat($"k", lit(" "), $"v"))
Es gibt auch die concat_ws-Funktion, die als erstes Argument ein Zeichenfolgentrennzeichen verwendet:
df.select(concat_ws("-", col("k"), col("v")))
Das obige ist der detaillierte Inhalt vonWie verkette ich Spalten in einem Apache Spark DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!