Maison >développement back-end >Tutoriel Python >Méthode d'analyse des données Pandas orientée instance : combat pratique du chargement de données et de l'ingénierie des fonctionnalités

Méthode d'analyse des données Pandas orientée instance : combat pratique du chargement de données et de l'ingénierie des fonctionnalités

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal
2024-01-13 10:26:05757parcourir

Méthode danalyse des données Pandas orientée instance : combat pratique du chargement de données et de lingénierie des fonctionnalités

Méthode d'analyse de données Pandas en pratique : du chargement des données à l'ingénierie des fonctionnalités, des exemples de code spécifiques sont nécessaires

Introduction :
Pandas est une bibliothèque d'analyse de données largement utilisée en Python, fournissant une multitude d'outils de traitement et d'analyse de données. Cet article présentera la méthode spécifique du chargement des données à l'ingénierie des fonctionnalités et fournira des exemples de code pertinents.

1. Chargement des données
Le chargement des données est la première étape de l'analyse des données. Dans Pandas, vous pouvez utiliser diverses méthodes pour charger des données, notamment la lecture de fichiers locaux, la lecture de données réseau, la lecture de bases de données, etc.

  1. Lire les fichiers locaux
    Utilisez la fonction read_csv() de Pandas pour lire facilement les fichiers CSV locaux. Voici un exemple :
import pandas as pd

data = pd.read_csv("data.csv")
  1. Lecture des données réseau
    Pandas fournit également la fonction de lecture des données réseau. Vous pouvez utiliser la fonction read_csv() et transmettre l'adresse réseau en paramètre. L'exemple est le suivant :
import pandas as pd

url = "https://www.example.com/data.csv"
data = pd.read_csv(url)
  1. Lecture de la base de données
    Si les données sont stockées dans la base de données, vous pouvez utiliser la fonction read_sql(). fourni par Pandas pour le lire. Tout d'abord, vous devez utiliser la bibliothèque SQLAlchemy de Python pour vous connecter à la base de données, puis utiliser la fonction read_sql() de Pandas pour lire les données. Voici un exemple :
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('sqlite:///database.db')
data = pd.read_sql("SELECT * FROM table", engine)

2. Aperçu et traitement des données
Après le chargement des données, vous pouvez utiliser les méthodes fournies par Pandas pour prévisualiser et traiter préliminairement les données.

  1. Aperçu des données
    Vous pouvez utiliser les méthodes head() et tail() pour prévisualiser les première et dernière lignes de données. Par exemple :
data.head()  # 预览前5行
data.tail(10)  # 预览后10行
  1. Data Cleaning
    Le nettoyage des données est l'une des étapes importantes de l'analyse des données. Pandas fournit une série de méthodes pour gérer les valeurs manquantes, les valeurs en double et les valeurs aberrantes.
  • Gestion des valeurs manquantes
    Vous pouvez utiliser la fonction isnull() pour déterminer si les données constituent une valeur manquante, puis utiliser la méthode fillna() pour remplir les valeurs manquantes. Voici un exemple :
data.isnull()  # 判断缺失值
data.fillna(0)  # 填充缺失值为0
  • Gestion des valeurs en double
    Utilisez la méthode duplicated() pour déterminer si les données sont une valeur en double, puis utilisez la méthode drop_duplicates() pour supprimer les valeurs en double. L'exemple de code est le suivant :
data.duplicated()  # 判断重复值
data.drop_duplicates()  # 去除重复值
  • Gestion des valeurs aberrantes
    Pour les valeurs aberrantes, vous pouvez utiliser un jugement conditionnel et des opérations d'indexation pour les traiter. Voici un exemple :
data[data['column'] > 100] = 100  # 将大于100的值设为100

3. Ingénierie des fonctionnalités
L'ingénierie des fonctionnalités est une étape clé de l'analyse des données. En transformant les données brutes en fonctionnalités plus adaptées à la modélisation, les performances du modèle peuvent être améliorées. Pandas fournit plusieurs méthodes pour l'ingénierie des fonctionnalités.

  1. Sélection des fonctionnalités
    Vous pouvez utiliser les opérations de colonne Pandas et le jugement conditionnel pour sélectionner des fonctionnalités spécifiques. Voici un exemple :
selected_features = data[['feature1', 'feature2']]
  1. Feature Encoding
    Avant la modélisation, les fonctionnalités doivent être transformées en une forme qui peut être traitée par des algorithmes d'apprentissage automatique. Pandas fournit la méthode get_dummies() pour un encodage à chaud. Voici un exemple :
encoded_data = pd.get_dummies(data)
  1. Feature Scaling
    Pour les fonctionnalités numériques, vous pouvez utiliser la méthode MinMaxScaler() ou StandardScaler() de Pandas pour la mise à l'échelle des fonctionnalités. L'exemple de code est le suivant :
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(data)
  1. Construction de fonctionnalités
    De nouvelles fonctionnalités peuvent être construites en effectuant des opérations et des combinaisons de base sur les fonctionnalités d'origine. L'exemple de code est le suivant :
data['new_feature'] = data['feature1'] + data['feature2']

Conclusion :
Cet article présente la méthode du chargement des données à l'ingénierie des fonctionnalités dans l'analyse des données Pandas, et démontre les opérations associées à travers des exemples de code spécifiques. Grâce aux puissantes fonctions de traitement et d'analyse des données de Pandas, nous pouvons effectuer l'analyse et l'exploration des données plus efficacement. Dans les applications pratiques, différentes opérations et méthodes peuvent être sélectionnées en fonction de besoins spécifiques pour améliorer la précision et l'effet de l'analyse des données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn