Heim >Backend-Entwicklung >Python-Tutorial >Welche Methoden gibt es für die Dataframe-Abfrage in Pandas?

Welche Methoden gibt es für die Dataframe-Abfrage in Pandas?

php中世界最好的语言Original: 2018-04-12 09:56:204856Durchsuche

Dieses Mal werde ich Ihnen die Methoden zur Abfrage von Dataframe in Pandas und die Vorsichtsmaßnahmen für die Abfrage von Dataframe in Pandas vorstellen. Das Folgende ist ein praktischer Fall: Werfen wir einen Blick darauf.

Pandas stellt uns eine Vielzahl von Slicing-Methoden zur Verfügung, und wenn Sie nicht viel über diese Methoden wissen, ist es oft leicht, verwirrt zu werden. Die folgenden Beispiele veranschaulichen diese Slicing-Methoden.

Dateneinführung

Generieren Sie zunächst zufällig einen Datensatz:

In [5]: rnd_1 = [random.randrange(1,20) for x in xrange(1000)]
  ...: rnd_2 = [random.randrange(1,20) for x in xrange(1000)]
  ...: rnd_3 = [random.randrange(1,20) for x in xrange(1000)]
  ...: fecha = pd.date_range('2012-4-10', '2015-1-4')
  ...: 
  ...: data = pd.DataFrame({'fecha':fecha, 'rnd_1': rnd_1, 'rnd_2': rnd_2, 'rnd_3': rnd_3})
In [6]: data.describe()
Out[6]: 
       rnd_1    rnd_2    rnd_3
count 1000.000000 1000.000000 1000.000000
mean   9.946000   9.825000   9.894000
std    5.553911   5.559432   5.423484
min    1.000000   1.000000   1.000000
25%    5.000000   5.000000   5.000000
50%   10.000000  10.000000  10.000000
75%   15.000000  15.000000  14.000000
max   19.000000  19.000000  19.000000

[] Slicing-Methode

Durch die Verwendung von eckigen Klammern kann der DataFrame segmentiert werden, ähnlich wie beim List-Slicing von Python. Je nach Index kann eine Zeilenauswahl, eine Spaltenauswahl oder eine Blockauswahl erreicht werden.

# 行选择
In [7]: data[1:5]
Out[7]: 
    fecha rnd_1 rnd_2 rnd_3
1 2012-04-11   1   16   3
2 2012-04-12   7   6   1
3 2012-04-13   2   16   7
4 2012-04-14   4   17   7
# 列选择
In [10]: data[['rnd_1', 'rnd_3']]
Out[10]: 
   rnd_1 rnd_3
0    8   12
1    1   3
2    7   1
3    2   7
4    4   7
5    12   8
6    2   12
7    9   8
8    13   17
9    4   7
10   14   14
11   19   16
12    2   12
13   15   18
14   13   18
15   13   11
16   17   7
17   14   10
18    9   6
19   11   15
20   16   13
21   18   9
22    1   18
23    4   3
24    6   11
25    2   13
26    7   17
27   11   8
28    3   12
29    4   2
..   ...  ...
970   8   14
971   19   5
972   13   2
973   8   10
974   8   17
975   6   16
976   3   2
977   12   6
978   12   10
979   15   13
980   8   4
981   17   3
982   1   17
983   11   5
984   7   7
985   13   14
986   6   19
987   13   9
988   3   15
989   19   6
990   7   11
991   11   7
992   19   12
993   2   15
994   10   4
995   14   13
996   12   11
997   11   15
998   17   14
999   3   8
[1000 rows x 2 columns]
# 区块选择
In [11]: data[:7][['rnd_1', 'rnd_2']]
Out[11]: 
  rnd_1 rnd_2
0   8   17
1   1   16
2   7   6
3   2   16
4   4   17
5   12   19
6   2   7

Für die Auswahl mehrerer Spalten können Sie jedoch nicht die 1:5-Methode wie bei der Auswahl von Zeilen verwenden.

In [12]: data[['rnd_1':'rnd_3']]
 File "<ipython-input-13-6291b6a83eb0>", line 1
  data[['rnd_1':'rnd_3']]
         ^
SyntaxError: invalid syntax

loc

loc ermöglicht Ihnen die Auswahl von Zeilen und Spalten basierend auf dem Index.

In [13]: data.loc[1:5]
Out[13]: 
    fecha rnd_1 rnd_2 rnd_3
1 2012-04-11   1   16   3
2 2012-04-12   7   6   1
3 2012-04-13   2   16   7
4 2012-04-14   4   17   7
5 2012-04-15   12   19   8

Hier ist zu beachten, dass der Unterschied zwischen loc und der ersten Methode darin besteht, dass auch die 5. Zeile ausgewählt wird, während die erste Methode nur die 4. Zeile auswählt.

data.loc[2:4, ['rnd_2', 'fecha']]
Out[14]: 
  rnd_2   fecha
2   6 2012-04-12
3   16 2012-04-13
4   17 2012-04-14

loc kann Daten zwischen zwei bestimmten Daten auswählen. Es ist zu beachten, dass beide Daten im Index enthalten sein müssen.

In [15]: data_fecha = data.set_index('fecha')
  ...: data_fecha.head()
Out[15]: 
      rnd_1 rnd_2 rnd_3
fecha             
2012-04-10   8   17   12
2012-04-11   1   16   3
2012-04-12   7   6   1
2012-04-13   2   16   7
2012-04-14   4   17   7
In [16]: # 生成两个特定日期
  ...: fecha_1 = dt.datetime(2013, 4, 14)
  ...: fecha_2 = dt.datetime(2013, 4, 18)
  ...: 
  ...: # 生成切片数据
  ...: data_fecha.loc[fecha_1: fecha_2]
Out[16]: 
      rnd_1 rnd_2 rnd_3
fecha             
2013-04-14   17   10   5
2013-04-15   14   4   9
2013-04-16   1   2   18
2013-04-17   9   15   1
2013-04-18   16   7   17

Update : Wenn keine besonderen Anforderungen bestehen, wird dringend empfohlen, loc zu verwenden und [] so wenig wie möglich zu verwenden möglich, da loc in DataFrame verwendet wird. Probleme mit der verketteten Indizierung werden bei der Neuzuweisung vermieden, und der Compiler gibt wahrscheinlich eine Warnung zu SettingWithCopy aus, wenn er [] verwendet.

Einzelheiten finden Sie in der offiziellen Dokumentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

iloc

Wenn loc entsprechend dem Wert des Index ausgewählt wird, dann wird iloc entsprechend der Position des Index ausgewählt. iloc kümmert sich nicht um den spezifischen Wert des Index, sondern nur um die Position. Daher können bei Verwendung von iloc nur numerische Werte in eckigen Klammern verwendet werden.

# 行选择
In [17]: data_fecha[10: 15]
Out[17]: 
      rnd_1 rnd_2 rnd_3
fecha             
2012-04-20   14   6   14
2012-04-21   19   14   16
2012-04-22   2   6   12
2012-04-23   15   8   18
2012-04-24   13   8   18
# 列选择
In [18]: data_fecha.iloc[:,[1,2]].head()
Out[18]: 
      rnd_2 rnd_3
fecha          
2012-04-10   17   12
2012-04-11   16   3
2012-04-12   6   1
2012-04-13   16   7
2012-04-14   17   7
# 切片选择
In [19]: data_fecha.iloc[[1,12,34],[0,2]]
Out[19]: 
      rnd_1 rnd_3
fecha          
2012-04-11   1   3
2012-04-22   2   12
2012-05-14   17   10

at ähnelt loc, hat aber eine schnellere Datenzugriffsgeschwindigkeit als loc und nur ein einzelnes Element kann auf mehrere Elemente zugegriffen werden kann, auf mehrere Elemente kann jedoch nicht zugegriffen werden.

In [20]: timeit data_fecha.at[fecha_1,'rnd_1']
The slowest run took 3783.11 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 11.3 µs per loop
In [21]: timeit data_fecha.loc[fecha_1,'rnd_1']
The slowest run took 121.24 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 192 µs per loop
In [22]: data_fecha.at[fecha_1,'rnd_1']
Out[22]: 17

iat

iats Beziehung zu iloc ist wie die Beziehung von at zu loc, was eine schnellere indexbasierte Positionsauswahlmethode ist , wie at, kann nur auf ein einzelnes Element zugreifen.

In [23]: data_fecha.iat[1,0]
Out[23]: 1
In [24]: timeit data_fecha.iat[1,0]
The slowest run took 6.23 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 8.77 µs per loop
In [25]: timeit data_fecha.iloc[1,0]
10000 loops, best of 3: 158 µs per loop

Die oben genannten Methoden erfordern alle, dass der Rang der Abfrage im Index steht, oder die Position nicht den Längenbereich überschreiten, während ix es Ihnen ermöglicht, Daten abzurufen, die nicht im DataFrame-Index enthalten sind.

In [28]: date_1 = dt.datetime(2013, 1, 10, 8, 30)
  ...: date_2 = dt.datetime(2013, 1, 13, 4, 20)
  ...: 
  ...: # 生成切片数据
  ...: data_fecha.ix[date_1: date_2]
Out[28]: 
      rnd_1 rnd_2 rnd_3
fecha             
2013-01-11   19   17   19
2013-01-12   10   9   17
2013-01-13   15   3   10

Wie im obigen Beispiel gezeigt, wurde der 10. Januar 2013 nicht ausgewählt, da dieser Zeitpunkt als 0:00 Uhr angesehen wird, was vor 8:30 Uhr liegt.

Ich glaube, dass Sie die Methode beherrschen, nachdem Sie den Fall in diesem Artikel gelesen haben. Weitere spannende Informationen finden Sie in anderen verwandten Artikeln auf der chinesischen PHP-Website.

Empfohlene Lektüre:

Detaillierte Erklärung, wie Python die Baidu-Spracherkennungs-API implementiert

Wie Python die API aufruft, um Intelligenz zu erreichen Antwortfunktion

Das obige ist der detaillierte Inhalt vonWelche Methoden gibt es für die Dataframe-Abfrage in Pandas?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python php html pandas 切片 http

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Selenium + Cookie überspringt die Implementierungsschritte für die Anmeldung mit dem Bestätigungscode. Detaillierte ErklärungNächster Artikel：Selenium + Cookie überspringt die Implementierungsschritte für die Anmeldung mit dem Bestätigungscode. Detaillierte Erklärung

In Verbindung stehende Artikel

Mehr sehen