Maison  >  Article  >  développement back-end  >  Une brève analyse du traitement des données Python

Une brève analyse du traitement des données Python

不言
不言original
2018-05-02 13:46:241742parcourir

Cet article partage avec vous le contenu pertinent et les explications clés sur le traitement des données Python. Les amis intéressés par ce point de connaissance peuvent s'y référer.

Numpy et Pandas sont deux frameworks souvent utilisés dans le traitement des données Python. Ils sont tous deux écrits en langage C, la vitesse de fonctionnement est donc rapide. Matplotlib est un outil de dessin Python qui peut dessiner des données précédemment traitées à travers des images. Je n'ai vu que la syntaxe auparavant et je ne l'ai pas systématiquement étudiée et résumée. Cet article de blog résume les API de ces trois frameworks.

Ce qui suit est une brève introduction et la différence entre ces trois frameworks :

  • Numpy : souvent utilisé pour la génération de données et certaines opérations

  • Pandas : Construit sur Numpy, c'est une version améliorée de Numpy

  • Matplotlib : un puissant outil de dessin en Python

Numpy

Le tutoriel de démarrage rapide de Numpy peut faire référence à : Tutoriel Numpy

Propriétés de Numpy

ndarray.ndim : Dimension

ndarray.shape : Nombre de lignes et de colonnes, telles que (3, 5)

ndarray.size : Nombre d'éléments

ndarray.dtype : type d'élément

Numpy crée

array(object, dtype=None) : utilise la liste ou le tuple de Python pour créer des données

zeors(shape, dtype=float) : Créer des données avec tous les 0

uns(shape, dtype=None) : Créer des données avec tous les 1

vides ( shape, dtype=float) : Créer des données non initialisées

arange([start, ]stop, [step, ]dtype=None) : Créer des segments de données à intervalle fixe

linspace(start, stop, num=50, dtype=None) : Créer des données uniformément dans une plage donnée

Opération Numpy

Ajouter, Soustraire : a + b , a - b

Multiplier : b*2, 10*np.sin(a)

Puissance : b**2

Jugement : aa783ed6e0da2cc6b443454a3eb002014 0]

Pandas gérant les données manquantes

Supprimer les lignes avec des données manquantes : df.dropna(how='any')

Remplissage des données manquantes : df.fillna(value=5)

Si la valeur des données est NaN : pd.isna(df1)

Pandas a fusionné les données

pd.concat([df1, df2, df3], axis=0) : fusionner df

pd.merge(gauche, droite, on= 'key') : fusion basée sur le champ clé

df.append(s, ignore_index=True) : Ajouter des données

Importation et exportation de pandas

df.to_csv('foo. csv') : Enregistrer dans un fichier csv

pd.read_csv('foo.csv') : Lire à partir d'un fichier csv

df.to_excel('foo.xlsx ', sheet_name='Sheet1') : Enregistrer dans un fichier Excel

pd.read_excel('foo.xlsx', 'Sheet1', index_col=Aucun, na_values=['NA']) : À partir de la lecture d'un fichier Excel

Matplotlib

Ici, nous présentons uniquement la manière la plus simple de tracer :

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

Recommandations associées :

Une brève discussion sur le problème du chemin du fichier de configuration des journaux Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn