Maison  >  Article  >  développement back-end  >  Comment utiliser les expressions régulières Python pour la visualisation de données

Comment utiliser les expressions régulières Python pour la visualisation de données

WBOY
WBOYoriginal
2023-06-23 12:22:50951parcourir

Les expressions régulières Python sont un outil puissant pour traiter les données textuelles. Les expressions régulières vous aident à extraire, transformer et visualiser les données du texte. Cet article explique comment utiliser les expressions régulières Python pour la visualisation de données.

  1. Importer les bibliothèques associées

Avant de commencer, vous devez installer les bibliothèques Python nécessaires : Pandas, Matplotlib et Re. Vous pouvez l'installer en utilisant pip.

pip install pandas matplotlib re

Vous devez ensuite importer ces bibliothèques dans votre fichier Python.

import pandas as pd
import matplotlib.pyplot as plt
import re
  1. Lecture des données

Dans cet article, nous utiliserons un tableur contenant des données sur les revenus et les dépenses pendant la pandémie. Tout d'abord, vous devez utiliser la fonction read_excel de la bibliothèque pandas pour lire les données dans le fichier de feuille de calcul.

df = pd.read_excel('data.xlsx')
  1. Prétraitement des données

Avant d'utiliser des expressions régulières pour visualiser des données, vous devez effectuer certaines opérations de prétraitement des données. Cet article décrira les deux étapes de prétraitement suivantes :

  • Déformater les données : chaque cellule d'une feuille de calcul peut contenir des données formatées, telles que des valeurs monétaires, des pourcentages, etc. Vous devez déformater ces données formatées afin de passer à l'étape suivante.
  • Extraire des données : vous devez extraire les données de chaque cellule afin de les visualiser. Vous pouvez utiliser des expressions régulières pour extraire certaines données.

Les fonctions suivantes peuvent déformater les données :

def strip_currency(val):
    return re.sub(r'[^d.]', '', val)

Les fonctions suivantes peuvent extraire certaines données :

def extract_number(val):
    return re.findall(r'd+.?d*', val)[0]

Vous pouvez utiliser la fonction appliquer pour les appliquer à chaque cellule de votre feuille de calcul. Voici le code qui applique la fonction ci-dessus :

df['income'] = df['income'].apply(strip_currency).apply(extract_number).astype(float)
df['expenses'] = df['expenses'].apply(strip_currency).apply(extract_number).astype(float)
  1. Visualisation des données

Une fois que vous avez déformaté et extrait les données de chaque cellule, vous pouvez maintenant les visualiser à l'aide de la bibliothèque Matplotlib. Dans cet article, nous utiliserons un nuage de points pour représenter la relation entre les revenus et les dépenses.

plt.scatter(df['income'], df['expenses'])
plt.xlabel('Income')
plt.ylabel('Expenses')
plt.show()

Ce code créera un nuage de points avec les revenus sur l'axe horizontal et les dépenses sur l'axe vertical.

Ce sont les étapes de base pour utiliser les expressions régulières Python pour la visualisation de données. Vous pouvez continuer à traiter et à visualiser les données selon vos besoins pour mieux les comprendre.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn