Maison >développement back-end >Tutoriel Python >Introduction aux méthodes de fonctionnement simples de pandas.DataFrame (créer, indexer, ajouter et supprimer) en python

Introduction aux méthodes de fonctionnement simples de pandas.DataFrame (créer, indexer, ajouter et supprimer) en python

高洛峰
高洛峰original
2018-05-29 15:23:0529475parcourir

Cet article présente les méthodes de fonctionnement simples de pandas.DataFrame (création, indexation, ajout et suppression) en python, y compris des informations connexes sur la création, l'indexation, l'ajout et la suppression. L'article le présente en détail. can Pour référence, jetons un œil ci-dessous.

Avant-propos

Récemment, j'ai recherché de nombreux modes d'emploi sur Internet pour pandas.DataFrame, qui sont toutes des opérations de base, mais la combinaison de ces opérations Il semble qu'il faille encore du temps pour faire fonctionner correctement le DataFrame, et il m'a fallu beaucoup de temps pour ajuster le bug. Je ferai ici quelques résumés pour votre commodité, pour moi et pour les autres. Amis intéressés, venez jeter un oeil.

1. Opération simple pour créer un DataFrame :

1. Créer basé sur un dictionnaire :

In [1]: import pandas as pd
In [3]: aa={'one':[1,2,3],'two':[2,3,4],'three':[3,4,5]}
In [4]: bb=pd.DataFrame(aa)
In [5]: bb
Out[5]: 
 one three two
0 1 3 2
1 2 4 3
2 3 5 4`
Les clés du dictionnaire sont les colonnes du DataFrame, mais il n'y a pas de valeur d'index, vous devez donc la définir vous-même. Si elles ne sont pas définies, la valeur par défaut est de commencer à compter à partir de zéro.

bb=pd.DataFrame(aa,index=['first','second','third'])
bb
Out[7]: 
 one three two
first 1 3 2
second 2 4 3
third 3 5 4

2. Créer à partir d'un tableau multidimensionnel

import numpy as np
In [9]: del aa
In [10]: aa=np.array([[1,2,3],[4,5,6],[7,8,9]])
In [11]: aa
Out[11]: 
array([[1, 2, 3],
 [4, 5, 6],
 [7, 8, 9]])
In [12]: bb=pd.DataFrame(aa)
In [13]: bb
Out[13]: 
 0 1 2
0 1 2 3
1 4 5 6
2 7 8 9
Pour créer à partir d'un tableau multidimensionnel, vous devez attribuer des colonnes et un index à le DataFrame, sinon c'est la valeur par défaut. Très moche.

bb=pd.DataFrame(aa,index=[22,33,44],columns=['one','two','three'])
In [15]: bb
Out[15]: 
 one two three
22 1 2 3
33 4 5 6
44 7 8 9

3. Utilisez un autre DataFrame pour créer

bb=pd.DataFrame(aa,index=[22,33,44],columns=['one','two','three'])
bb
Out[15]: 
 one two three
22 1 2 3
33 4 5 6
44 7 8 9
cc=bb[['one','three']].copy()
Cc
Out[17]: 
 one three
22 1 3
33 4 6
44 7 9
La copie ici est une copie complète. La modification de la valeur dans cc ne peut pas modifier la valeur dans bb. .

cc['three'][22]=5
bb
Out[19]: 
 one two three
22 1 2 3
33 4 5 6
44 7 8 9

cc
Out[20]: 
 one three
22 1 5
33 4 6
44 7 9

2. Opération d'indexation de DataFrame :

Pour un DataFrame, l'indexation est la plus gênante et la plus sujette aux erreurs.

1. L'indexation d'une ou plusieurs colonnes est relativement simple :

bb['one']
Out[21]: 
22 1
33 4
44 7
Name: one, dtype: int32
Pour plusieurs noms de colonnes, les noms de colonnes d'entrée doivent être stockés dans une liste pour être Variables inscriptibles, sinon une erreur sera signalée.

bb[['one','three']]
Out[29]: 
 one three
22 1 3
33 4 6
44 7 9

2. Indexer un ou plusieurs enregistrements :

bb[1:3]
Out[27]: 
 one two three
33 4 5 6
44 7 8 9
bb[:1]
Out[28]: 
 one two three
22 1 2 3

Notez ici que les deux points sont obligatoires, sinon ils le sont. Colonne d'index.

3. Indexer certains enregistrements de variables dans certaines colonnes Cela m'a longtemps torturé :

Premier type

Vous ne pouvez pas modifier la valeur ici. Vous pouvez seulement lire la valeur mais pas l'écrire. Cela peut être lié à la fonction
bb.loc[[22,33]][['one','three']]
Out[30]: 
 one three
22 1 3
33 4 6
 :

loc()

Le deuxième type : cela ne peut être que. consulté
bb.loc[[22,33]][['one','three']]=[[2,2],[3,6]]
In [32]: bb
Out[32]: 
 one two three
22 1 2 3
33 4 5 6
44 7 8 9

Si vous souhaitez modifier la valeur, une erreur sera signalée.
bb[['one','three']][:2]
Out[33]: 
 one three
22 1 3
33 4 6

Le troisième type : vous pouvez modifier la valeur des données ! ! !
In [34]: bb[['one','three']][:2]=[[2,2],[2,2]]
-c:1: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
F:\Anaconda\lib\site-packages\pandas\core\frame.py:1999: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame
 return self._setitem_slice(indexer, value)

Iloc est indexé en fonction du nombre de lignes et de colonnes de données, sans compter l'index et les colonnes

Ce qui suit en est la preuve :
bb.iloc[2:3,2:3]
Out[36]: 
 three
44 9

bb.iloc[1:3,1:3]
Out[37]: 
 two three
33 5 6
44 8 9
bb.iloc[0,0]
Out[38]: 1

bb.iloc[0:4,0:2]=[[9,9],[9,9],[9,9]]
In [45]: bb
Out[45]: 
 one two three
22 9 9 3
33 9 9 6
44 9 9 9

Trois. Créez une nouvelle colonne ou plusieurs colonnes sur le DataFrame d'origine

1. Rien n'est utilisé. Vous ne pouvez créer qu'une seule colonne. pas facile à utiliser. Test personnel Invalide : La liste attribuée par

est essentiellement attribuée dans l'ordre de la valeur d'index donnée, mais nous devons généralement attribuer l'index correspondant si vous le souhaitez. des missions plus avancées, regardez ce qui suit.
bb['new']=[2,3,4]
bb
Out[51]: 
 one two three new
22 9 9 3 2
33 9 9 6 3
44 9 9 9 4
bb[['new','new2']]=[[2,3,4],[5,3,7]]
KeyError: "['new' 'new2'] not in index"

2. Utilisez un dictionnaire pour attribuer des valeurs à plusieurs colonnes par index :

Ici, aa est un dictionnaire et une liste imbriqués, équivalents à un enregistrement. , à l'aide de clés Utilisez-le comme nom d'index au lieu du nom de colonne par défaut. L'objectif de faire correspondre plusieurs colonnes par index est atteint. Étant donné que le stockage de
aa={33:[234,44,55],44:[657,77,77],22:[33,55,457]}
In [58]: bb=bb.join(pd.DataFrame(aa.values(),columns=['hi','hello','ok'],index=aa.keys()))
In [59]: bb
Out[59]: 
 one two three new hi hello ok
22 9 9 3 2 33 55 457
33 9 9 6 3 234 44 55
44 9 9 9 4 657 77 77
est chaotique, utiliser

sans attribuer de valeur à son index entraînera une confusion dans les enregistrements. dict()dict()

4. Supprimer plusieurs colonnes ou enregistrements :

Supprimer des colonnes

bb.drop(['new','hi'],axis=1)
Out[60]: 
 one two three hello ok
22 9 9 3 55 457
33 9 9 6 44 55
44 9 9 9 77 77
Supprimer des enregistrements

Partagez avec vous un article sur la sommation des lignes et des colonnes et l'ajout de nouvelles lignes et colonnes dans pandas.DataFrame en python. Les amis intéressés peuvent y jeter un œil.
bb.drop([22,33],axis=0)
Out[61]: 
 one two three new hi hello ok
44 9 9 9 4 657 77 77

DataFrame a de nombreuses fonctions qui n'ont pas encore été couvertes. Elles le seront à l'avenir. Après avoir lu l'API sur le site officiel, je continuerai à la partager.

Articles connexes :

À propos de pandas.DataFrame en python pour additionner les lignes et les colonnes et ajouter de nouvelles lignes et colonnes, exemple de code

Détaillé explication de l'exemple de code de la méthode pandas.DataFrame d'exclusion de lignes spécifiques en python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn