向 Spark DataFrame 添加常量列
使用 Spark DataFrame 时,在某些情况下可能需要添加带有每行的固定值。然而,一个常见的错误是直接使用 withColumn,它的目的是添加计算列。
withColumn 出错
如果您尝试直接使用添加常量列withColumn,你会遇到类似如下的错误:
AttributeError: 'int' object has no attribute 'alias'
这是因为 withColumn 需要一个 Column 对象作为第二个参数,它代表一个计算表达式。常量值(例如整数)不是列。
解决方案
要正确添加常量列,请使用 lit 函数创建文字值。此函数将常量值作为参数并返回 Column 对象:
from pyspark.sql.functions import lit
df.withColumn('new_column', lit(10))
复杂列
对于更复杂的常量值,例如数组或结构体,您可以使用以下函数:
示例:
from pyspark.sql.functions import array, struct, create_map df.withColumn("some_array", array(lit(1), lit(2), lit(3))) df.withColumn("some_struct", struct(lit("foo"), lit(1), lit(.3))) df.withColumn("some_map", create_map(lit("key1"), lit(1), lit("key2"), lit(2)))
替代方法
在 Spark 2.2 及更高版本中,typedLit 函数还可以用于为支持的数据类型(例如序列、映射和元组。
另一种选择是使用 UDF,尽管它比使用上面提到的内置函数慢。
以上是如何向 Spark DataFrame 添加常量列?的详细内容。更多信息请关注PHP中文网其他相关文章!