Maison >développement back-end >Tutoriel Python >Comment joindre efficacement des DataFrames en fonction des conditions de plage dans Pandas ?
Meilleure façon de rejoindre/fusionner par plage dans Pandas
Dans l'analyse des données, il est courant d'avoir besoin de joindre ou de fusionner des trames de données en fonction de une condition de portée spécifique. Une approche consiste à utiliser une jointure croisée avec une colonne factice, mais cela peut s'avérer inefficace et complexe. Une solution plus élégante et plus efficace consiste à utiliser la diffusion numpy.
numpy Broadcasting
La diffusion Numpy nous permet d'effectuer des opérations par éléments entre des tableaux de formes différentes. Cela peut être exploité pour déterminer quelles valeurs dans une trame de données satisfont à une condition de plage spécifiée.
Configuration
Considérez deux trames de données : A avec les colonnes A_id et A_value, et B avec colonnes B_id, B_low et B_high. Nous voulons joindre A et B de telle sorte que A_value soit entre B_low et B_high.
Mise en œuvre
<code class="python">import numpy as np # Convert dataframes to arrays a = A.A_value.values bh = B.B_high.values bl = B.B_low.values # Determine matching rows and columns i, j = np.where((a[:, None] >= bl) & (a[:, None] <= bh)) # Join corresponding rows from A and B joined = pd.concat([ A.loc[i, :].reset_index(drop=True), B.loc[j, :].reset_index(drop=True) ], axis=1) # Print joined dataframe print(joined)</code>
Cette méthode utilise des comparaisons par éléments et la diffusion pour identifier efficacement et joignez les lignes de A et B qui satisfont à la condition de plage. Il est à la fois élégant et efficace, évitant le recours aux boucles ou aux colonnes factices.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!