>  기사  >  백엔드 개발  >  Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?

Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-11-07 00:31:02383검색

How to Add a Constant Column to a Spark DataFrame?

Spark DataFrame에서 상수 열 생성

모든 행에 적용되는 임의의 값을 사용하여 Spark DataFrame에 상수 열을 추가하면 다음을 수행할 수 있습니다. 여러 가지 방법으로 달성됩니다. 이러한 목적으로 고안된 withColumn 메서드는 두 번째 인수로 직접 값을 제공하려고 할 때 오류가 발생할 수 있습니다.

리터럴 값 사용(Spark 1.3 )

이 문제를 해결하려면 lit를 사용하여 원하는 값의 리터럴 표현을 만듭니다.

from pyspark.sql.functions import lit

df.withColumn('new_column', lit(10))

복잡한 열 만들기(Spark 1.4 )

더 복잡한 열 유형의 경우 , 배열, 구조체 또는 맵과 같은 적절한 함수를 사용합니다.

from pyspark.sql.functions import array, struct

df.withColumn('array_column', array(lit(1), lit(2)))
df.withColumn('struct_column', struct(lit('foo'), lit(1)))

Typed Literals(Spark 2.2)

Spark 2.2에서는 typedLit을 도입하여 다음을 지원합니다. 시퀀스, 맵 및 튜플:

import org.apache.spark.sql.functions.typedLit

df.withColumn("some_array", typedLit(Seq(1, 2, 3)))

사용자 정의 함수(UDF) 사용

또는 상수 값을 반환하는 UDF를 생성합니다.

from pyspark.sql import functions as F

def constant_column(value):
    def udf(df):
        return [value for _ in range(df.count())]
    return F.udf(udf)

df.withColumn('constant_column', constant_column(10))

참고:

이러한 메소드는 UDF 또는 SQL 함수에 상수 인수를 전달하는 데에도 사용할 수 있습니다.

위 내용은 Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.