首页 >后端开发 >Python教程 >如何向 Spark DataFrame 添加常量列?

如何向 Spark DataFrame 添加常量列?

DDD
DDD原创
2024-11-08 20:22:02506浏览

How do I add constant columns to Spark DataFrames?

向 Spark DataFrame 添加常量列

使用 Spark DataFrame 时,在某些情况下可能需要添加带有每行的固定值。然而,一个常见的错误是直接使用 withColumn,它的目的是添加计算列。

withColumn 出错

如果您尝试直接使用添加常量列withColumn,你会遇到类似如下的错误:

AttributeError: 'int' object has no attribute 'alias'

这是因为 withColumn 需要一个 Column 对象作为第二个参数,它代表一个计算表达式。常量值(例如整数)不是列。

解决方案

要正确添加常量列,请使用 lit 函数创建文字值。此函数将常量值作为参数并返回 Column 对象:

from pyspark.sql.functions import lit
df.withColumn('new_column', lit(10))

复杂列

对于更复杂的常量值,例如数组或结构体,您可以使用以下函数:

  • 数组
  • struct
  • create_map

示例:

from pyspark.sql.functions import array, struct, create_map

df.withColumn("some_array", array(lit(1), lit(2), lit(3)))
df.withColumn("some_struct", struct(lit("foo"), lit(1), lit(.3)))
df.withColumn("some_map", create_map(lit("key1"), lit(1), lit("key2"), lit(2)))

替代方法

在 Spark 2.2 及更高版本中,typedLit 函数还可以用于为支持的数据类型(例如序列、映射和元组。

另一种选择是使用 UDF,尽管它比使用上面提到的内置函数慢。

以上是如何向 Spark DataFrame 添加常量列?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn