搜尋
首頁後端開發Python教學pandas妙招之 在DataFrame中透過索引高效取得數據

pandas妙招之 在DataFrame中透過索引高效取得數據

相關學習推薦:python教學

#今天是pandas資料處理專題的第三篇文章,我們一起來聊聊DataFrame中的索引。

上一篇文章當中我們介紹了DataFrame資料結構當中一些常用的索引的使用方法,例如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFrame的一些基本運算

資料對齊

我們可以計算兩個DataFrame的加和,pandas會自動將此兩個DataFrame進行資料對齊,如果對不上的資料會被置為Nan(not a number)。

首先我們來建立兩個DataFrame:

import numpy as npimport pandas as pddf1 = pd.DataFrame(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])df2 = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])复制代码

得到的結果和我們設想的一致,其實只是透過numpy陣列建立DataFrame#,然後指定index和columns而已,這應該算是很基礎的用法了。

然後我們將兩個DataFrame相加,會得到:

我們發現pandas將兩個DataFrame加起來合併了之後,凡是沒有在兩個DataFrame都出現的位置就會被置為Nan。這其實是很合理的,其實不只加法,我們可以計算兩個DataFrame的加減乘除的四則運算都是可以的。如果是計算兩個DataFrame相除的話,那麼除了對應不上的資料會被置為Nan之外,除零這個行為也會導致異常值的發生(可能不一定是Nan,而是inf)。

fill_value

#如果我們要對兩個DataFrame進行運算,那麼我們當然不會希望出現空值。這時候就需要對空值進行填充了,我們直接使用運算子進行運算是沒辦法傳遞參數進行填充的,這時候我們需要使用DataFrame當中為我們提供的算術方法

DataFrame當中常用的運算子有這麼多種:

add、sub、p這些我們都很好理解,那麼這裡的radd、rsub方法又是什麼意思呢,為什麼前面要加上一個r呢?

看起來很費解,但是說白了一文不值,radd是用來翻轉參數的。舉個例子,比如說我們希望得到DataFrame當中所有元素的倒數,我們可以寫成1 / df。由於1本身並不是一個DataFrame,所以我們不能用1來呼叫DataFrame當中的方法,也就不能傳遞參數,為了解決這種情況,我們可以把1 / df寫成df.rp(1),這樣我們就可以在其中傳遞參數了。

由於在算除法的過程當中發生了除零,所以我們得到了一個inf,它表示無窮大。

我們可以在add、p這些方法當中傳入一個fill_value的參數,這個參數可以在計算之前對於一邊出現缺失值的情況進行填入。也就是說對於只在一個DataFrame中缺少的位置會被替換成我們指定的值,如果在兩個DataFrame都缺失,那麼依然還會是Nan

我們對比下結果就能發現了,相加之後的(1, d), (4, c)以及(5, c)的位置都是Nan ,因為df1和df2兩個DataFrame當中這些位置都是空值,所以沒有被填滿。

fill_value這個參數在很多api當中都有出現,例如reindex等,用法都是一樣的,我們在查閱api文檔的時候可以注意一下。

那麼對於這種填充了之後還會出現的空值我們該怎麼辦呢?難道只能手動找到這些位置進行填充嗎?當然是不切實際的,pandas當中也為我們提供了專門解決空值的api。

空值api

#在填入空值之前,我們首先要做的是發現空值。針對這個問題,我們有isna這個api,它會傳回一個bool型的DataFrame,DataFrame當中的每一個位置表示了原DataFrame對應的位置是否是空值。

dropna

#當然只是發現是否是空值肯定是不夠的,我們有時候會希望不要空值的出現,這個時候我們可以選擇drop掉空值。針對這種情況,我們可以使用DataFrame當中的dropna方法。

我們發現使用了dropna之後,出現了空值的行都被拋棄了。只保留了沒有空值的行,有時候我們希望拋棄是的列而不是行,這個時候我們可以透過傳入axis參數來控制。

這樣我們得到的就是不含空值的列,除了可以控制行列之外,我們還可以控制執行drop的嚴格程度。我們可以透過how這個參數來判斷,how支援兩種值傳入,一種是'all',一種是'any'。 all表示只有在某一行或是某一列全為空值的時候才會拋棄,any與之對應就是只要出現了空值就會拋棄。預設不填的話認為是any,一般情況下我們也用不到這個參數,大概有個印象就可以了。

fillna

#pandas除了可以drop含有空值的資料之外,當然也可以用來填入空值,事實上這也是最常用的方法。

我們可以很簡單地傳入一個具體的值用來填入:

#fillna會傳回一個新的DataFrame,其中所有的Nan值會被替換成我們指定的值。如果我們不希望它回傳一個新的DataFrame,而是直接在原始資料進行修改的話,我們可以使用inplace參數,表示這是一個inplace的操作,那麼pandas將會在原DataFrame上進行修改。

df3.fillna(3, inplace=True)复制代码

除了填充具体的值以外,我们也可以和一些计算结合起来算出来应该填充的值。比如说我们可以计算出某一列的均值、最大值、最小值等各种计算来填充。fillna这个函数不仅可以使用在DataFrame上,也可以使用在Series上,所以我们可以针对DataFrame中的某一列或者是某些列进行填充:

除了可以计算出均值、最大最小值等各种值来进行填充之外,还可以指定使用缺失值的前一行或者是后一行的值来填充。实现这个功能需要用到method这个参数,它有两个接收值,ffill表示用前一行的值来进行填充,bfill表示使用后一行的值填充。

我们可以看到,当我们使用ffill填充的时候,对于第一行的数据来说由于它没有前一行了,所以它的Nan会被保留。同样当我们使用bfill的时候,最后一行也无法填充。

总结

今天的文章当中我们主要介绍了DataFrame的一些基本运算,比如最基础的四则运算。在进行四则运算的时候由于DataFrame之间可能存在行列索引不能对齐的情况,这样计算得到的结果会出现空值,所以我们需要对空值进行处理。我们可以在进行计算的时候通过传入fill_value进行填充,也可以在计算之后对结果进行fillna填充。

在实际的运用当中,我们一般很少会直接对两个DataFrame进行加减运算,但是DataFrame中出现空置是家常便饭的事情。因此对于空值的填充和处理非常重要,可以说是学习中的重点,大家千万注意。

想了解更多编程学习,敬请关注php培训栏目!

以上是pandas妙招之 在DataFrame中透過索引高效取得數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:juejin。如有侵權,請聯絡admin@php.cn刪除
Python:遊戲,Guis等Python:遊戲,Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame,提供繪圖、音頻等功能,適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt,Tkinter簡單易用,PyQt功能豐富,適合專業開發。

Python vs.C:申請和用例Python vs.C:申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称,C 则以高性能和底层控制能力闻名。

2小時的Python計劃:一種現實的方法2小時的Python計劃:一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型,2.掌握控制流(條件語句和循環),3.理解函數的定義和使用,4.通過簡單示例和代碼片段快速上手Python編程。

Python:探索其主要應用程序Python:探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

您可以在2小時內學到多少python?您可以在2小時內學到多少python?Apr 09, 2025 pm 04:33 PM

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?如何在10小時內通過項目和問題驅動的方式教計算機小白編程基礎?Apr 02, 2025 am 07:18 AM

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?如何在使用 Fiddler Everywhere 進行中間人讀取時避免被瀏覽器檢測到?Apr 02, 2025 am 07:15 AM

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Python 3.6加載Pickle文件報錯"__builtin__"模塊未找到怎麼辦?Apr 02, 2025 am 07:12 AM

Python3.6環境下加載Pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具