相關學習推薦:python教學
上一篇文章當中我們介紹了DataFrame資料結構當中一些常用的索引的使用方法,例如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFrame的一些基本運算。
我們可以計算兩個DataFrame的加和,pandas會自動將此兩個DataFrame進行資料對齊,如果對不上的資料會被置為Nan(not a number)。
首先我們來建立兩個DataFrame:
import numpy as npimport pandas as pddf1 = pd.DataFrame(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])df2 = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])复制代码
得到的結果和我們設想的一致,其實只是透過numpy陣列建立DataFrame#,然後指定index和columns而已,這應該算是很基礎的用法了。
然後我們將兩個DataFrame相加,會得到:
我們發現pandas將兩個DataFrame加起來合併了之後,凡是沒有在兩個DataFrame都出現的位置就會被置為Nan。這其實是很合理的,其實不只加法,我們可以計算兩個DataFrame的加減乘除的四則運算都是可以的。如果是計算兩個DataFrame相除的話,那麼除了對應不上的資料會被置為Nan之外,除零這個行為也會導致異常值的發生(可能不一定是Nan,而是inf)。
#如果我們要對兩個DataFrame進行運算,那麼我們當然不會希望出現空值。這時候就需要對空值進行填充了,我們直接使用運算子進行運算是沒辦法傳遞參數進行填充的,這時候我們需要使用DataFrame當中為我們提供的算術方法。
DataFrame當中常用的運算子有這麼多種:
add、sub、p這些我們都很好理解,那麼這裡的radd、rsub方法又是什麼意思呢,為什麼前面要加上一個r呢?
看起來很費解,但是說白了一文不值,radd是用來翻轉參數的。舉個例子,比如說我們希望得到DataFrame當中所有元素的倒數,我們可以寫成1 / df。由於1本身並不是一個DataFrame,所以我們不能用1來呼叫DataFrame當中的方法,也就不能傳遞參數,為了解決這種情況,我們可以把1 / df寫成df.rp(1),這樣我們就可以在其中傳遞參數了。
由於在算除法的過程當中發生了除零,所以我們得到了一個inf,它表示無窮大。
我們可以在add、p這些方法當中傳入一個fill_value的參數,這個參數可以在計算之前對於一邊出現缺失值的情況進行填入。也就是說對於只在一個DataFrame中缺少的位置會被替換成我們指定的值,如果在兩個DataFrame都缺失,那麼依然還會是Nan。
我們對比下結果就能發現了,相加之後的(1, d), (4, c)以及(5, c)的位置都是Nan ,因為df1和df2兩個DataFrame當中這些位置都是空值,所以沒有被填滿。
fill_value這個參數在很多api當中都有出現,例如reindex等,用法都是一樣的,我們在查閱api文檔的時候可以注意一下。
那麼對於這種填充了之後還會出現的空值我們該怎麼辦呢?難道只能手動找到這些位置進行填充嗎?當然是不切實際的,pandas當中也為我們提供了專門解決空值的api。
#在填入空值之前,我們首先要做的是發現空值。針對這個問題,我們有isna這個api,它會傳回一個bool型的DataFrame,DataFrame當中的每一個位置表示了原DataFrame對應的位置是否是空值。
#當然只是發現是否是空值肯定是不夠的,我們有時候會希望不要空值的出現,這個時候我們可以選擇drop掉空值。針對這種情況,我們可以使用DataFrame當中的dropna方法。
我們發現使用了dropna之後,出現了空值的行都被拋棄了。只保留了沒有空值的行,有時候我們希望拋棄是的列而不是行,這個時候我們可以透過傳入axis參數來控制。
這樣我們得到的就是不含空值的列,除了可以控制行列之外,我們還可以控制執行drop的嚴格程度。我們可以透過how這個參數來判斷,how支援兩種值傳入,一種是'all',一種是'any'。 all表示只有在某一行或是某一列全為空值的時候才會拋棄,any與之對應就是只要出現了空值就會拋棄。預設不填的話認為是any,一般情況下我們也用不到這個參數,大概有個印象就可以了。
#pandas除了可以drop含有空值的資料之外,當然也可以用來填入空值,事實上這也是最常用的方法。
我們可以很簡單地傳入一個具體的值用來填入:
#fillna會傳回一個新的DataFrame,其中所有的Nan值會被替換成我們指定的值。如果我們不希望它回傳一個新的DataFrame,而是直接在原始資料進行修改的話,我們可以使用inplace參數,表示這是一個inplace的操作,那麼pandas將會在原DataFrame上進行修改。
df3.fillna(3, inplace=True)复制代码
除了填充具体的值以外,我们也可以和一些计算结合起来算出来应该填充的值。比如说我们可以计算出某一列的均值、最大值、最小值等各种计算来填充。fillna这个函数不仅可以使用在DataFrame上,也可以使用在Series上,所以我们可以针对DataFrame中的某一列或者是某些列进行填充:
除了可以计算出均值、最大最小值等各种值来进行填充之外,还可以指定使用缺失值的前一行或者是后一行的值来填充。实现这个功能需要用到method这个参数,它有两个接收值,ffill表示用前一行的值来进行填充,bfill表示使用后一行的值填充。
我们可以看到,当我们使用ffill填充的时候,对于第一行的数据来说由于它没有前一行了,所以它的Nan会被保留。同样当我们使用bfill的时候,最后一行也无法填充。
今天的文章当中我们主要介绍了DataFrame的一些基本运算,比如最基础的四则运算。在进行四则运算的时候由于DataFrame之间可能存在行列索引不能对齐的情况,这样计算得到的结果会出现空值,所以我们需要对空值进行处理。我们可以在进行计算的时候通过传入fill_value进行填充,也可以在计算之后对结果进行fillna填充。
在实际的运用当中,我们一般很少会直接对两个DataFrame进行加减运算,但是DataFrame中出现空置是家常便饭的事情。因此对于空值的填充和处理非常重要,可以说是学习中的重点,大家千万注意。
想了解更多编程学习,敬请关注php培训栏目!
以上是pandas妙招之 在DataFrame中透過索引高效取得數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!