Maison >développement back-end >Tutoriel Python >Explication détaillée de l'introduction et de l'utilisation des fonctions couramment utilisées dans la bibliothèque pandas
Présentation des fonctions communes de la bibliothèque Pandas et utilisation détaillée
Introduction :
pandas est un outil d'analyse et d'exploitation de données open source, flexible et efficace, largement utilisé dans la science des données, l'apprentissage automatique, la finance, les statistiques et d'autres domaines. . Cet article présentera les fonctions couramment utilisées et leur utilisation dans la bibliothèque pandas, dans l'espoir d'aider les lecteurs à mieux comprendre et utiliser les pandas.
1. Introduction aux structures de données
La série est l'une des structures de données les plus élémentaires des pandas. Il s'agit d'un type de données unidimensionnel qui peut contenir n'importe quel type de données (entier, nombre à virgule flottante). , chaîne, etc.). La méthode de création est la suivante :
import pandas as pd data = [1, 2, 3, 4, 5] s = pd.Series(data) print(s)
Résultat de sortie :
0 1 1 2 2 3 3 4 4 5 dtype: int64
DataFrame est la structure de données la plus couramment utilisée dans les pandas. Il s'agit d'une structure de données tabulaire bidimensionnelle qui peut être considérée comme. composé de plusieurs Composé de Séries. La méthode de création est la suivante :
import pandas as pd data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'London', 'Tokyo']} df = pd.DataFrame(data) print(df)
Résultat de sortie :
name age city 0 Alice 25 New York 1 Bob 30 London 2 Charlie 35 Tokyo
2. Introduction et utilisation détaillée des fonctions communes
La fonction head() est utilisée pour afficher les premières lignes du DataFrame, et la vue par défaut est avant 5 lignes ; la fonction tail() est utilisée pour afficher les dernières lignes du DataFrame, et les 5 dernières lignes sont affichées par défaut. L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') print(df.head()) print(df.tail())
attribut shape renvoie la forme du DataFrame, c'est-à-dire le nombre de lignes et de colonnes. L'exemple de code est le suivant : La fonction
import pandas as pd df = pd.read_csv('data.csv') print(df.shape)
info() est utilisée pour afficher les informations globales du DataFrame, y compris les noms de colonnes, le nombre de valeurs non nulles, le type de données, etc. L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') print(df.info())
la fonctiondescribe() est utilisée pour compter les informations statistiques des colonnes numériques dans DataFrame, telles que le nombre, la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc. . L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') print(df.describe())
la fonction sort_values() est utilisée pour trier le DataFrame en fonction de la valeur de la colonne spécifiée. L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') df_sorted = df.sort_values(by='age', ascending=False) # 按照age列的值进行降序排序 print(df_sorted)
la fonction groupby() est utilisée pour regrouper par colonnes spécifiées et agréger les résultats groupés. L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') grouped = df.groupby('city') mean_age = grouped['age'].mean() # 计算每个城市的平均年龄 print(mean_age)
fonction merge() est utilisée pour fusionner deux DataFrames en fonction des colonnes spécifiées. L'exemple de code est le suivant : La fonction
import pandas as pd df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [2, 3, 4], 'C': ['x', 'y', 'z']}) merged = pd.merge(df1, df2, on='A') # 按照列A合并 print(merged)
apply() est utilisée pour appliquer une fonction personnalisée à chaque élément du DataFrame. L'exemple de code est le suivant :
import pandas as pd df = pd.read_csv('data.csv') # 定义一个自定义函数:将年龄加上10 def add_ten(age): return age + 10 df['age'] = df['age'].apply(add_ten) # 对age列的每个元素应用add_ten函数 print(df)
Conclusion :
Cet article présente brièvement les fonctions couramment utilisées de la bibliothèque pandas et leur utilisation, y compris les opérations de base de Series et DataFrame, les statistiques de données, le tri, le regroupement, la fusion et les applications de fonctions personnalisées. , etc. Nous espérons que l'introduction de cet article pourra aider les lecteurs à mieux comprendre et utiliser la bibliothèque pandas et à jouer un rôle plus important dans l'analyse et le traitement des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!