Maison >développement back-end >Tutoriel Python >Comment diviser des chaînes séparées par des virgules dans un DataFrame Pandas en lignes distinctes ?
Diviser les entrées de chaîne séparées par des virgules dans un DataFrame Pandas pour créer des lignes séparées
Problème :
Nous avoir un Pandas DataFrame contenant des chaînes avec des valeurs séparées par des virgules dans une colonne. Nous souhaitons diviser chaque entrée CSV et créer une nouvelle ligne pour chaque valeur unique. Par exemple, "a,b,c" devrait devenir "a", "b", "c".
Solution :
Option 1 : DataFrame.explode() (Pandas 0.25.0)
La méthode DataFrame.explode() est spécifiquement conçue à cet effet. Cela nous permet de diviser une colonne de type liste (dans ce cas, nos chaînes séparées par des virgules) en lignes individuelles.
In [1]: df.explode('var1') Out[1]: var1 var2 var3 0 a 1 XX 1 b 1 XX 2 c 1 XX 3 d 2 ZZ 4 e 2 ZZ 5 f 2 ZZ 6 x 2 ZZ 7 y 2 ZZ
Option 2 : fonction vectorisée personnalisée
Si DataFrame.explode() n'est pas disponible ou si nous avons besoin de plus de personnalisation, nous pouvons créer notre propre vecteur fonction :
import numpy as np def explode(df, lst_cols, fill_value='', preserve_index=False): # Convert `lst_cols` to a list if it is a string. if isinstance(lst_cols, str): lst_cols = [lst_cols] # Calculate the lengths of each list in `lst_cols`. lens = df[lst_cols[0]].str.len() # Create a new index based on the lengths of the lists. idx = np.repeat(df.index.values, lens) # Create a new DataFrame with the exploded columns. exp_df = pd.DataFrame({ col: np.repeat(df[col].values, lens) for col in df.columns.difference(lst_cols) }, index=idx).assign(**{ col: np.concatenate(df.loc[lens > 0, col].values) for col in lst_cols }) # Append rows with empty lists if necessary. if (lens == 0).any(): exp_df = exp_df.append(df.loc[lens == 0, df.columns.difference(lst_cols)], sort=False).fillna(fill_value) # Revert the original index order and reset the index if requested. exp_df = exp_df.sort_index() if not preserve_index: exp_df = exp_df.reset_index(drop=True) return exp_df
Exemple d'utilisation :
In [2]: explode(df, 'var1') Out[2]: var1 var2 var3 0 a 1 XX 1 b 1 XX 2 c 1 XX 3 d 2 ZZ 4 e 2 ZZ 5 f 2 ZZ 6 x 2 ZZ 7 y 2 ZZ
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!