Spark 等价于 IF Then ELSE
本题深入研究基于条件规则在 Spark DataFrame 中创建新列。
何时的问题函数
提供的代码尝试使用when()函数根据“iris_class”列中的值创建一个名为“Class”的新列。但是,它会抛出一个错误,指出 when() 仅接受两个参数。
正确的语法和结构
when() 函数的正确语法是:
F.when(condition1, value1).when(condition2, value2)...otherwise(otherwiseValue)
这允许将多个 when() 子句链接在一起,并使用可选的 else() 子句来处理未涵盖的情况
此语法的等效 SQL 是带有多个 WHEN 子句的 CASE 语句,如下所示:
CASE WHEN condition1 THEN value1 WHEN condition2 THEN value2 ... ELSE otherwiseValue END
推荐解决方案
因此,创建“Class”列的正确代码应该是:
iris_spark_df = iris_spark.withColumn( "Class", F.when(iris_spark.iris_class == 'Iris-setosa', 0) .when(iris_spark.iris_class == 'Iris-versicolor', 1) .otherwise(2) )
替代语法
实现相同结果的另一个有效语法是:
iris_spark_df = iris_spark.withColumn( "Class", F.when(iris_spark.iris_class == 'Iris-setosa', 0) .otherwise( F.when(iris_spark.iris_class == 'Iris-versicolor', 1) .otherwise(2) ) )
关于 Hive 的注意事项IF
需要注意的是,Hive Spark 不支持 IF 条件,其语法为 IF(condition, if-true, if-false)。此条件只能在支持 Hive 的原始 SQL 查询中使用。
以上是如何在 Spark DataFrame 中实现 IF-THEN-ELSE 逻辑?的详细内容。更多信息请关注PHP中文网其他相关文章!