Maison >développement back-end >Tutoriel Python >Introduction aux méthodes de fonctionnement simples de pandas.DataFrame (créer, indexer, ajouter et supprimer) en python
Cet article présente les méthodes de fonctionnement simples de pandas.DataFrame (création, indexation, ajout et suppression) en python, y compris des informations connexes sur la création, l'indexation, l'ajout et la suppression. L'article le présente en détail. can Pour référence, jetons un œil ci-dessous.
Avant-propos
Récemment, j'ai recherché de nombreux modes d'emploi sur Internet pour pandas.DataFrame
, qui sont toutes des opérations de base, mais la combinaison de ces opérations Il semble qu'il faille encore du temps pour faire fonctionner correctement le DataFrame, et il m'a fallu beaucoup de temps pour ajuster le bug. Je ferai ici quelques résumés pour votre commodité, pour moi et pour les autres. Amis intéressés, venez jeter un oeil.
1. Opération simple pour créer un DataFrame :
1. Créer basé sur un dictionnaire :
In [1]: import pandas as pd In [3]: aa={'one':[1,2,3],'two':[2,3,4],'three':[3,4,5]} In [4]: bb=pd.DataFrame(aa) In [5]: bb Out[5]: one three two 0 1 3 2 1 2 4 3 2 3 5 4`Les clés du dictionnaire sont les colonnes du DataFrame, mais il n'y a pas de valeur d'index, vous devez donc la définir vous-même. Si elles ne sont pas définies, la valeur par défaut est de commencer à compter à partir de zéro.
bb=pd.DataFrame(aa,index=['first','second','third']) bb Out[7]: one three two first 1 3 2 second 2 4 3 third 3 5 4
2. Créer à partir d'un tableau multidimensionnel
import numpy as np In [9]: del aa In [10]: aa=np.array([[1,2,3],[4,5,6],[7,8,9]]) In [11]: aa Out[11]: array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) In [12]: bb=pd.DataFrame(aa) In [13]: bb Out[13]: 0 1 2 0 1 2 3 1 4 5 6 2 7 8 9Pour créer à partir d'un tableau multidimensionnel, vous devez attribuer des colonnes et un index à le DataFrame, sinon c'est la valeur par défaut. Très moche.
bb=pd.DataFrame(aa,index=[22,33,44],columns=['one','two','three']) In [15]: bb Out[15]: one two three 22 1 2 3 33 4 5 6 44 7 8 9
3. Utilisez un autre DataFrame pour créer
bb=pd.DataFrame(aa,index=[22,33,44],columns=['one','two','three']) bb Out[15]: one two three 22 1 2 3 33 4 5 6 44 7 8 9 cc=bb[['one','three']].copy() Cc Out[17]: one three 22 1 3 33 4 6 44 7 9La copie ici est une copie complète. La modification de la valeur dans cc ne peut pas modifier la valeur dans bb. .
cc['three'][22]=5 bb Out[19]: one two three 22 1 2 3 33 4 5 6 44 7 8 9 cc Out[20]: one three 22 1 5 33 4 6 44 7 9
2. Opération d'indexation de DataFrame :
Pour un DataFrame, l'indexation est la plus gênante et la plus sujette aux erreurs.1. L'indexation d'une ou plusieurs colonnes est relativement simple :
bb['one'] Out[21]: 22 1 33 4 44 7 Name: one, dtype: int32Pour plusieurs noms de colonnes, les noms de colonnes d'entrée doivent être stockés dans une liste pour être Variables inscriptibles, sinon une erreur sera signalée.
bb[['one','three']] Out[29]: one three 22 1 3 33 4 6 44 7 9
2. Indexer un ou plusieurs enregistrements :
bb[1:3] Out[27]: one two three 33 4 5 6 44 7 8 9 bb[:1] Out[28]: one two three 22 1 2 3
Notez ici que les deux points sont obligatoires, sinon ils le sont. Colonne d'index.
3. Indexer certains enregistrements de variables dans certaines colonnes Cela m'a longtemps torturé :
Premier typeVous ne pouvez pas modifier la valeur ici. Vous pouvez seulement lire la valeur mais pas l'écrire. Cela peut être lié à la fonction
bb.loc[[22,33]][['one','three']] Out[30]: one three 22 1 3 33 4 6:
loc()
bb.loc[[22,33]][['one','three']]=[[2,2],[3,6]] In [32]: bb Out[32]: one two three 22 1 2 3 33 4 5 6 44 7 8 9Si vous souhaitez modifier la valeur, une erreur sera signalée.
bb[['one','three']][:2] Out[33]: one three 22 1 3 33 4 6Le troisième type : vous pouvez modifier la valeur des données ! ! !
In [34]: bb[['one','three']][:2]=[[2,2],[2,2]] -c:1: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_index,col_indexer] = value instead F:\Anaconda\lib\site-packages\pandas\core\frame.py:1999: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame return self._setitem_slice(indexer, value)
Iloc est indexé en fonction du nombre de lignes et de colonnes de données, sans compter l'index et les colonnes
Ce qui suit en est la preuve :bb.iloc[2:3,2:3] Out[36]: three 44 9 bb.iloc[1:3,1:3] Out[37]: two three 33 5 6 44 8 9 bb.iloc[0,0] Out[38]: 1
bb.iloc[0:4,0:2]=[[9,9],[9,9],[9,9]] In [45]: bb Out[45]: one two three 22 9 9 3 33 9 9 6 44 9 9 9
Trois. Créez une nouvelle colonne ou plusieurs colonnes sur le DataFrame d'origine
1. Rien n'est utilisé. Vous ne pouvez créer qu'une seule colonne. pas facile à utiliser. Test personnel Invalide : La liste attribuée parest essentiellement attribuée dans l'ordre de la valeur d'index donnée, mais nous devons généralement attribuer l'index correspondant si vous le souhaitez. des missions plus avancées, regardez ce qui suit.
bb['new']=[2,3,4] bb Out[51]: one two three new 22 9 9 3 2 33 9 9 6 3 44 9 9 9 4 bb[['new','new2']]=[[2,3,4],[5,3,7]] KeyError: "['new' 'new2'] not in index"2. Utilisez un dictionnaire pour attribuer des valeurs à plusieurs colonnes par index :
Ici, aa est un dictionnaire et une liste imbriqués, équivalents à un enregistrement. , à l'aide de clés Utilisez-le comme nom d'index au lieu du nom de colonne par défaut. L'objectif de faire correspondre plusieurs colonnes par index est atteint. Étant donné que le stockage de
aa={33:[234,44,55],44:[657,77,77],22:[33,55,457]} In [58]: bb=bb.join(pd.DataFrame(aa.values(),columns=['hi','hello','ok'],index=aa.keys())) In [59]: bb Out[59]: one two three new hi hello ok 22 9 9 3 2 33 55 457 33 9 9 6 3 234 44 55 44 9 9 9 4 657 77 77est chaotique, utiliser
sans attribuer de valeur à son index entraînera une confusion dans les enregistrements. dict()
dict()
4. Supprimer plusieurs colonnes ou enregistrements :
Supprimer des colonnes
bb.drop(['new','hi'],axis=1) Out[60]: one two three hello ok 22 9 9 3 55 457 33 9 9 6 44 55 44 9 9 9 77 77Supprimer des enregistrements
Partagez avec vous un article sur la sommation des lignes et des colonnes et l'ajout de nouvelles lignes et colonnes dans pandas.DataFrame en python. Les amis intéressés peuvent y jeter un œil.
bb.drop([22,33],axis=0) Out[61]: one two three new hi hello ok 44 9 9 9 4 657 77 77
DataFrame a de nombreuses fonctions qui n'ont pas encore été couvertes. Elles le seront à l'avenir. Après avoir lu l'API sur le site officiel, je continuerai à la partager.
Articles connexes :
À propos de pandas.DataFrame en python pour additionner les lignes et les colonnes et ajouter de nouvelles lignes et colonnes, exemple de code Détaillé explication de l'exemple de code de la méthode pandas.DataFrame d'exclusion de lignes spécifiques en pythonCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!