Maison  >  Article  >  développement back-end  >  Comment diviser une colonne vectorielle en lignes dans PySpark ?

Comment diviser une colonne vectorielle en lignes dans PySpark ?

Patricia Arquette
Patricia Arquetteoriginal
2024-10-31 20:10:01492parcourir

How to Split a Vector Column into Rows in PySpark?

Diviser une colonne vectorielle en lignes dans PySpark

Dans PySpark, diviser une colonne contenant des valeurs vectorielles en colonnes distinctes pour chaque dimension est une pratique courante tâche. Cet article vous guidera à travers différentes approches pour y parvenir :

Spark 3.0.0 et versions ultérieures

Spark 3.0.0 a introduit la fonction vector_to_array, simplifiant ce processus :

<code class="python">from pyspark.ml.functions import vector_to_array

df = df.withColumn("xs", vector_to_array("vector"))</code>

Vous pouvez ensuite sélectionner les colonnes souhaitées :

<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>

Spark Less Than 3.0.0

Approche 1 : Conversion vers RDD

<code class="python">def extract(row):
    return (row.word, ) + tuple(row.vector.toArray().tolist())

df.rdd.map(extract).toDF(["word"])  # Vector values will be named _2, _3, ...</code>

Approche 2 : Utilisation d'un UDF

<code class="python">from pyspark.sql.functions import udf, col
from pyspark.sql.types import ArrayType, DoubleType

def to_array(col):
    def to_array_(v):
        return v.toArray().tolist()
    return udf(to_array_, ArrayType(DoubleType())).asNondeterministic()(col)

df = df.withColumn("xs", to_array(col("vector")))</code>

Sélectionnez les colonnes souhaitées :

<code class="python">df.select(["word"] + [col("xs")[i] for i in range(3)])</code>

Par en mettant en œuvre l'une de ces méthodes, vous pouvez diviser efficacement une colonne vectorielle en colonnes individuelles, ce qui facilite l'utilisation et l'analyse de vos données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn