Maison > Article > développement back-end > Une brève analyse du traitement des données Python
Cet article partage avec vous le contenu pertinent et les explications clés sur le traitement des données Python. Les amis intéressés par ce point de connaissance peuvent s'y référer.
Numpy et Pandas sont deux frameworks souvent utilisés dans le traitement des données Python. Ils sont tous deux écrits en langage C, la vitesse de fonctionnement est donc rapide. Matplotlib est un outil de dessin Python qui peut dessiner des données précédemment traitées à travers des images. Je n'ai vu que la syntaxe auparavant et je ne l'ai pas systématiquement étudiée et résumée. Cet article de blog résume les API de ces trois frameworks.
Ce qui suit est une brève introduction et la différence entre ces trois frameworks :
Numpy : souvent utilisé pour la génération de données et certaines opérations
Pandas : Construit sur Numpy, c'est une version améliorée de Numpy
Matplotlib : un puissant outil de dessin en Python
Numpy
Le tutoriel de démarrage rapide de Numpy peut faire référence à : Tutoriel Numpy
Propriétés de Numpy
ndarray.ndim : Dimension
ndarray.shape : Nombre de lignes et de colonnes, telles que (3, 5)
ndarray.size : Nombre d'éléments
ndarray.dtype : type d'élément
Numpy crée
array(object, dtype=None) : utilise la liste ou le tuple de Python pour créer des données
zeors(shape, dtype=float) : Créer des données avec tous les 0
uns(shape, dtype=None) : Créer des données avec tous les 1
vides ( shape, dtype=float) : Créer des données non initialisées
arange([start, ]stop, [step, ]dtype=None) : Créer des segments de données à intervalle fixe
linspace(start, stop, num=50, dtype=None) : Créer des données uniformément dans une plage donnée
Opération Numpy
Ajouter, Soustraire : a + b , a - b
Multiplier : b*2, 10*np.sin(a)
Puissance : b**2
Jugement : aa783ed6e0da2cc6b443454a3eb002014 0]
Pandas gérant les données manquantes
Supprimer les lignes avec des données manquantes : df.dropna(how='any')
Remplissage des données manquantes : df.fillna(value=5)
Si la valeur des données est NaN : pd.isna(df1)
Pandas a fusionné les données
pd.concat([df1, df2, df3], axis=0) : fusionner df
pd.merge(gauche, droite, on= 'key') : fusion basée sur le champ clé
df.append(s, ignore_index=True) : Ajouter des données
Importation et exportation de pandas
df.to_csv('foo. csv') : Enregistrer dans un fichier csv
pd.read_csv('foo.csv') : Lire à partir d'un fichier csv
df.to_excel('foo.xlsx ', sheet_name='Sheet1') : Enregistrer dans un fichier Excel
pd.read_excel('foo.xlsx', 'Sheet1', index_col=Aucun, na_values=['NA']) : À partir de la lecture d'un fichier Excel
Matplotlib
Ici, nous présentons uniquement la manière la plus simple de tracer :
import pandas as pd import numpy as np import matplotlib.pyplot as plt # 随机生成1000个数据 data = pd.Series(np.random.randn(1000),index=np.arange(1000)) # 为了方便观看效果, 我们累加这个数据 data.cumsum() # pandas 数据可以直接观看其可视化形式 data.plot() plt.show()
Recommandations associées :
Une brève discussion sur le problème du chemin du fichier de configuration des journaux Python
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!