>백엔드 개발 >파이썬 튜토리얼 >PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?

PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-03 12:25:291031검색

How to Split a Vector Column into Individual Columns in PySpark?

PySpark: 벡터를 열로 분할

PySpark에서는 벡터 열이 있는 DataFrame을 접할 수 있으며 이를 여러 개로 분할해야 할 수도 있습니다. 열(각 차원당 하나씩) 이를 달성하는 방법은 다음과 같습니다.

Spark >= 3.0.0

Spark 3.0.0부터 벡터 구성 요소를 추출하는 편리한 방법은 vector_to_array 함수를 사용하는 것입니다. :

<code class="python">df = df.withColumn("xs", vector_to_array("vector"))

# Pick the first three dimensions for illustration
result = df.select(["word"] + [col("xs")[i] for i in range(3)])</code>

Spark < 3.0.0

방법 1:RDD 변환

한 가지 접근 방식은 DataFrame을 RDD로 변환하고 벡터 구성 요소를 수동으로 추출하는 것입니다.

<code class="python">rdd = df.rdd.map(lambda row: (row.word, ) + tuple(row.vector.toArray().tolist()))
result = rdd.toDF(["word"])</code>

방법 2: UDF 생성

또는 사용자 정의 함수(UDF)를 생성하여 벡터 열에 적용할 수도 있습니다.

<code class="python">@udf(ArrayType(DoubleType()))
def to_array(vector):
    return vector.toArray().tolist()

result = df.withColumn("xs", to_array(col("vector"))).select(["word"] + [col("xs")[i] for i in range(3)])</code>

위 내용은 PySpark에서 벡터 열을 개별 열로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.