Maison >développement back-end >Tutoriel Python >Comment utiliser les expressions régulières Python pour la visualisation de données
Les expressions régulières Python sont un outil puissant pour traiter les données textuelles. Les expressions régulières vous aident à extraire, transformer et visualiser les données du texte. Cet article explique comment utiliser les expressions régulières Python pour la visualisation de données.
Avant de commencer, vous devez installer les bibliothèques Python nécessaires : Pandas, Matplotlib et Re. Vous pouvez l'installer en utilisant pip.
pip install pandas matplotlib re
Vous devez ensuite importer ces bibliothèques dans votre fichier Python.
import pandas as pd import matplotlib.pyplot as plt import re
Dans cet article, nous utiliserons un tableur contenant des données sur les revenus et les dépenses pendant la pandémie. Tout d'abord, vous devez utiliser la fonction read_excel de la bibliothèque pandas pour lire les données dans le fichier de feuille de calcul.
df = pd.read_excel('data.xlsx')
Avant d'utiliser des expressions régulières pour visualiser des données, vous devez effectuer certaines opérations de prétraitement des données. Cet article décrira les deux étapes de prétraitement suivantes :
Les fonctions suivantes peuvent déformater les données :
def strip_currency(val): return re.sub(r'[^d.]', '', val)
Les fonctions suivantes peuvent extraire certaines données :
def extract_number(val): return re.findall(r'd+.?d*', val)[0]
Vous pouvez utiliser la fonction appliquer pour les appliquer à chaque cellule de votre feuille de calcul. Voici le code qui applique la fonction ci-dessus :
df['income'] = df['income'].apply(strip_currency).apply(extract_number).astype(float) df['expenses'] = df['expenses'].apply(strip_currency).apply(extract_number).astype(float)
Une fois que vous avez déformaté et extrait les données de chaque cellule, vous pouvez maintenant les visualiser à l'aide de la bibliothèque Matplotlib. Dans cet article, nous utiliserons un nuage de points pour représenter la relation entre les revenus et les dépenses.
plt.scatter(df['income'], df['expenses']) plt.xlabel('Income') plt.ylabel('Expenses') plt.show()
Ce code créera un nuage de points avec les revenus sur l'axe horizontal et les dépenses sur l'axe vertical.
Ce sont les étapes de base pour utiliser les expressions régulières Python pour la visualisation de données. Vous pouvez continuer à traiter et à visualiser les données selon vos besoins pour mieux les comprendre.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!