Maison  >  Article  >  développement back-end  >  Explication détaillée de la façon d'importer et d'utiliser la bibliothèque pandas

Explication détaillée de la façon d'importer et d'utiliser la bibliothèque pandas

WBOY
WBOYoriginal
2024-01-24 10:50:061792parcourir

Explication détaillée de la façon dimporter et dutiliser la bibliothèque pandas

La bibliothèque Pandas est l'un des outils de traitement et d'analyse de données les plus couramment utilisés en Python. Elle fournit un riche ensemble de structures de données et de fonctions capables de traiter et d'analyser efficacement des ensembles de données à grande échelle. Cet article présentera en détail comment importer et utiliser la bibliothèque Pandas, et donnera des exemples de code spécifiques.

1. Importer la bibliothèque Pandas
L'importation de la bibliothèque Pandas est très simple Il vous suffit d'ajouter une ligne d'instructions d'importation dans le code :

import pandas as pd
Cette ligne de code importera l'intégralité de la bibliothèque Pandas et son nom. it pd , qui est la manière conventionnelle d'utiliser la bibliothèque Pandas.

2. Structure de données Pandas
La bibliothèque Pandas fournit deux structures de données principales : Series et DataFrame.

  1. Series
    Les séries sont des tableaux étiquetés unidimensionnels qui peuvent accueillir n'importe quel type de données (entiers, nombres à virgule flottante, chaînes, etc.), similaires aux tableaux NumPy avec index. Une série peut être créée de la manière suivante :

data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
Ce code affichera les résultats suivants :

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 ​​​​8.0
dtype : float64
La série a l'index à gauche et la valeur à droite. Les éléments d'une série sont accessibles et manipulables à l'aide d'index.

  1. DataFrame
    DataFrame est une structure de données tabulaire bidimensionnelle, similaire aux tableaux des bases de données relationnelles. Un DataFrame peut être créé par :

data = {'name': ['Alice', 'Bob', 'Charlie'],

    'age': [25, 26, 27],
    'score': [90, 92, 85]}

df = pd.DataFrame(data)
print(df)
this Le L'extrait de code affichera les résultats suivants :

name  age  score

0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
Les noms de colonnes du DataFrame sont ci-dessus et chaque colonne peut avoir différents types de données. Les données d'un DataFrame sont accessibles et manipulables à l'aide de noms de colonnes et d'index de lignes.

3. Lecture et écriture de données
La bibliothèque Pandas prend en charge la lecture de données à partir de diverses sources de données, notamment CSV, Excel, bases de données SQL, etc. Vous pouvez utiliser les méthodes suivantes pour lire et écrire des données :

  1. Lire les fichiers CSV
    df = pd.read_csv('data.csv')
    Parmi eux, data.csv est le fichier CSV à lire, utilisez le read_csv( ) méthode Les données d'un fichier CSV peuvent être lues sous forme de DataFrame.
  2. Lire le fichier Excel
    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
    Parmi eux, data.xlsx est le fichier Excel à lire, et le paramètre sheet_name spécifie le nom de la feuille de calcul à lire. être lu.
  3. Lire la base de données SQL
    import sqlite3
    conn = sqlite3.connect('database.db')
    query = 'SELECT * FROM table_name'
    df = pd.read_sql(query, conn)
    Parmi eux, database.db est de be Le fichier de base de données SQL lu, table_name est le nom de la table à lire et la méthode read_sql() peut être utilisée pour exécuter la requête SQL et lire le résultat dans un DataFrame.
  4. Écrire des données
    df.to_csv('output.csv')
    Vous pouvez utiliser la méthode to_csv() pour écrire les données du DataFrame dans un fichier CSV.

4. Nettoyage et transformation des données
La bibliothèque Pandas fournit une multitude de fonctions et de méthodes pour le nettoyage et la transformation des données, notamment le traitement des valeurs manquantes, le filtrage des données, le tri des données, etc.

  1. Traitement des valeurs manquantes
    df.dropna() : Supprimez les lignes ou les colonnes contenant des valeurs manquantes
    df.fillna(value) : Remplissez les valeurs manquantes avec les valeurs spécifiées
    df.interpolate() : Basé sur une interpolation linéaire sur les valeurs connues Remplissage des valeurs manquantes
  2. Filtrage des données
    df[df['age'] > 25] : Filtrer les lignes dont l'âge est supérieur à 25
    df[(df['age'] > 25) & (df[' score'] > ; 90)] : Filtrer les lignes avec un âge supérieur à 25 ans et un score supérieur à 90
  3. Tri des données
    df.sort_values(by='score', ascending=False) : Trier par score par ordre décroissant
    df. sort_index() : Trier par index
    5. Analyse des données et statistiques
    La bibliothèque Pandas fournit une multitude de fonctions et de méthodes statistiques qui peuvent être utilisées pour l'analyse des données et les calculs.
  4. Statistiques descriptives
    df.describe() : Calculez les statistiques descriptives de chaque colonne, y compris la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc.
  5. Agrégation de données
    df.groupby('name').sum() :Regroupez par nom et calculez la somme de chaque groupe
  6. Calcul cumulatif
    df.cumsum() : Calculez la somme cumulée de chaque colonne
  7. Analyse de corrélation
    df.corr() : Calculez le coefficient de corrélation entre les colonnes
    df cov. () : Calculez la covariance entre les colonnes

Ce qui précède ne sont que quelques-unes des fonctions et de l'utilisation de la bibliothèque Pandas. Pour une utilisation plus détaillée, veuillez vous référer à la documentation officielle de Pandas. En utilisant de manière flexible les fonctions fournies par la bibliothèque Pandas, le traitement et l'analyse des données peuvent être effectués efficacement, et un support solide peut être fourni pour les travaux ultérieurs d'apprentissage automatique et d'exploration de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn