Maison >développement back-end >Tutoriel Python >Quelles sont les méthodes de requête Dataframe dans les pandas

Quelles sont les méthodes de requête Dataframe dans les pandas

php中世界最好的语言original: 2018-04-12 09:56:204856parcourir

Cette fois, je vais vous expliquer quelles sont les méthodes de requête de Dataframe chez les pandas, et quelles sont les précautions d'interroger Dataframe chez les pandas. Ce qui suit est un cas pratique, jetons un coup d'oeil.

Pandas nous propose une variété de méthodes de découpage, et si vous ne savez pas grand-chose sur ces méthodes, il est souvent facile de se tromper. Les exemples suivants illustrent ces méthodes de découpage.

Introduction aux données

Générez d'abord de manière aléatoire un ensemble de données :

In [5]: rnd_1 = [random.randrange(1,20) for x in xrange(1000)]
  ...: rnd_2 = [random.randrange(1,20) for x in xrange(1000)]
  ...: rnd_3 = [random.randrange(1,20) for x in xrange(1000)]
  ...: fecha = pd.date_range('2012-4-10', '2015-1-4')
  ...: 
  ...: data = pd.DataFrame({'fecha':fecha, 'rnd_1': rnd_1, 'rnd_2': rnd_2, 'rnd_3': rnd_3})
In [6]: data.describe()
Out[6]: 
       rnd_1    rnd_2    rnd_3
count 1000.000000 1000.000000 1000.000000
mean   9.946000   9.825000   9.894000
std    5.553911   5.559432   5.423484
min    1.000000   1.000000   1.000000
25%    5.000000   5.000000   5.000000
50%   10.000000  10.000000  10.000000
75%   15.000000  15.000000  14.000000
max   19.000000  19.000000  19.000000

[] Méthode de découpage

L'utilisation de crochets peut découper le DataFrame, un peu similaire au découpage de liste de python. La sélection de lignes, de colonnes ou de blocs peut être réalisée en fonction de l'index.

# 行选择
In [7]: data[1:5]
Out[7]: 
    fecha rnd_1 rnd_2 rnd_3
1 2012-04-11   1   16   3
2 2012-04-12   7   6   1
3 2012-04-13   2   16   7
4 2012-04-14   4   17   7
# 列选择
In [10]: data[['rnd_1', 'rnd_3']]
Out[10]: 
   rnd_1 rnd_3
0    8   12
1    1   3
2    7   1
3    2   7
4    4   7
5    12   8
6    2   12
7    9   8
8    13   17
9    4   7
10   14   14
11   19   16
12    2   12
13   15   18
14   13   18
15   13   11
16   17   7
17   14   10
18    9   6
19   11   15
20   16   13
21   18   9
22    1   18
23    4   3
24    6   11
25    2   13
26    7   17
27   11   8
28    3   12
29    4   2
..   ...  ...
970   8   14
971   19   5
972   13   2
973   8   10
974   8   17
975   6   16
976   3   2
977   12   6
978   12   10
979   15   13
980   8   4
981   17   3
982   1   17
983   11   5
984   7   7
985   13   14
986   6   19
987   13   9
988   3   15
989   19   6
990   7   11
991   11   7
992   19   12
993   2   15
994   10   4
995   14   13
996   12   11
997   11   15
998   17   14
999   3   8
[1000 rows x 2 columns]
# 区块选择
In [11]: data[:7][['rnd_1', 'rnd_2']]
Out[11]: 
  rnd_1 rnd_2
0   8   17
1   1   16
2   7   6
3   2   16
4   4   17
5   12   19
6   2   7

Cependant, pour la sélection multi-colonnes, vous ne pouvez pas utiliser la méthode 1:5 comme lors de la sélection de lignes.

In [12]: data[['rnd_1':'rnd_3']]
 File "<ipython-input-13-6291b6a83eb0>", line 1
  data[['rnd_1':'rnd_3']]
         ^
SyntaxError: invalid syntax

loc

loc vous permet de sélectionner des lignes et des colonnes en fonction de l'index.

In [13]: data.loc[1:5]
Out[13]: 
    fecha rnd_1 rnd_2 rnd_3
1 2012-04-11   1   16   3
2 2012-04-12   7   6   1
3 2012-04-13   2   16   7
4 2012-04-14   4   17   7
5 2012-04-15   12   19   8

Il convient de noter ici que la différence entre loc et la première méthode est qu'elle sélectionnera également la 5ème ligne, tandis que la première méthode ne sélectionnera que la 4ème ligne.

data.loc[2:4, ['rnd_2', 'fecha']]
Out[14]: 
  rnd_2   fecha
2   6 2012-04-12
3   16 2012-04-13
4   17 2012-04-14

loc peut sélectionner des données entre deux dates spécifiques. Il est à noter que les deux dates doivent être dans l'index.

In [15]: data_fecha = data.set_index('fecha')
  ...: data_fecha.head()
Out[15]: 
      rnd_1 rnd_2 rnd_3
fecha             
2012-04-10   8   17   12
2012-04-11   1   16   3
2012-04-12   7   6   1
2012-04-13   2   16   7
2012-04-14   4   17   7
In [16]: # 生成两个特定日期
  ...: fecha_1 = dt.datetime(2013, 4, 14)
  ...: fecha_2 = dt.datetime(2013, 4, 18)
  ...: 
  ...: # 生成切片数据
  ...: data_fecha.loc[fecha_1: fecha_2]
Out[16]: 
      rnd_1 rnd_2 rnd_3
fecha             
2013-04-14   17   10   5
2013-04-15   14   4   9
2013-04-16   1   2   18
2013-04-17   9   15   1
2013-04-18   16   7   17

Mise à jour : S'il n'y a pas de besoins particuliers, il est fortement recommandé d'utiliser loc et d'utiliser [] aussi peu que possible, car loc est utilisé dans DataFrame Chained, les problèmes d'indexation seront évités lors de la réaffectation, et le compilateur est susceptible de donner un avertissement concernant SettingWithCopy lors de l'utilisation de [].

Pour plus de détails, veuillez vous référer à la documentation officielle : http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

iloc

Si loc est sélectionné en fonction de la valeur de l'index, alors iloc est sélectionné en fonction de la position de l'index. iloc ne se soucie pas de la valeur spécifique de l'index, il ne se soucie que de la position, donc seules les valeurs numériques peuvent être utilisées entre crochets lors de l'utilisation d'iloc.

# 行选择
In [17]: data_fecha[10: 15]
Out[17]: 
      rnd_1 rnd_2 rnd_3
fecha             
2012-04-20   14   6   14
2012-04-21   19   14   16
2012-04-22   2   6   12
2012-04-23   15   8   18
2012-04-24   13   8   18
# 列选择
In [18]: data_fecha.iloc[:,[1,2]].head()
Out[18]: 
      rnd_2 rnd_3
fecha          
2012-04-10   17   12
2012-04-11   16   3
2012-04-12   6   1
2012-04-13   16   7
2012-04-14   17   7
# 切片选择
In [19]: data_fecha.iloc[[1,12,34],[0,2]]
Out[19]: 
      rnd_1 rnd_3
fecha          
2012-04-11   1   3
2012-04-22   2   12
2012-05-14   17   10

at est similaire à loc, mais a une vitesse d'accès aux données plus rapide que loc, et seul un seul élément peut être accessible, mais plusieurs éléments ne sont pas accessibles.

In [20]: timeit data_fecha.at[fecha_1,'rnd_1']
The slowest run took 3783.11 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 11.3 µs per loop
In [21]: timeit data_fecha.loc[fecha_1,'rnd_1']
The slowest run took 121.24 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 192 µs per loop
In [22]: data_fecha.at[fecha_1,'rnd_1']
Out[22]: 17

iat

La relation de iat avec iloc est comme la relation d'at avec loc, qui est une position basée sur l'index plus rapide La méthode de sélection , comme at, ne peut accéder qu'à un seul élément.

In [23]: data_fecha.iat[1,0]
Out[23]: 1
In [24]: timeit data_fecha.iat[1,0]
The slowest run took 6.23 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 8.77 µs per loop
In [25]: timeit data_fecha.iloc[1,0]
10000 loops, best of 3: 158 µs per loop

Les méthodes évoquées ci-dessus nécessitent toutes que le rang de la requête soit dans l'index, ou que la position n'y soit pas dépasser la plage de longueur, tandis que ix vous permet d'obtenir des données qui ne figurent pas dans l'index DataFrame.

In [28]: date_1 = dt.datetime(2013, 1, 10, 8, 30)
  ...: date_2 = dt.datetime(2013, 1, 13, 4, 20)
  ...: 
  ...: # 生成切片数据
  ...: data_fecha.ix[date_1: date_2]
Out[28]: 
      rnd_1 rnd_2 rnd_3
fecha             
2013-01-11   19   17   19
2013-01-12   10   9   17
2013-01-13   15   3   10

Comme le montre l'exemple ci-dessus, le 10 janvier 2013 n'a pas été sélectionné car ce moment précis est considéré comme 0h00, ce qui est antérieur à 8h30.

Je pense que vous maîtrisez la méthode après avoir lu le cas dans cet article. Pour des informations plus intéressantes, veuillez prêter attention aux autres articles connexes sur le site Web chinois de php !

Lecture recommandée :

Explication détaillée de la façon dont Python implémente l'API de reconnaissance vocale Baidu

Comment Python appelle l'API pour atteindre l'intelligence Fonction de réponse

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python php html pandas 切片 http

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Selenium+cookie ignore les étapes de mise en œuvre de la connexion au code de vérification, explication détailléeArticle suivant：Selenium+cookie ignore les étapes de mise en œuvre de la connexion au code de vérification, explication détaillée

Articles Liés

Voir plus