Pandas實現資料類型轉換的一些技巧-Python教學-PHP中文網

首頁

後端開發

Python教學

Pandas實現資料類型轉換的一些技巧

不言

May 07, 2018 am 11:44 AM

pandas類型轉換

這篇文章主要介紹了關於Pandas實現資料類型轉換的一些技巧，有著一定的參考價值，現在分享給大家，有需要的朋友可以參考一下

前言

Pandas是Python當中重要的資料分析工具，利用Pandas進行資料分析時，確保使用正確的資料類型是非常重要的，否則可能會導致一些不可預測的錯誤發生。

Pandas 的資料類型：資料類型本質上是程式語言用來理解如何儲存和操作資料的內部結構。例如，一個程式需要理解你可以將兩個數字加起來，例如 5 10 得到 15。或者，如果是兩個字串，例如“cat”和“hat”，你可以將它們連接（加）起來得到“cathat”。尚學堂•百戰程式設計師陳老師指出有關 Pandas 資料類型的一個可能令人困惑的地方是，Pandas、Python 和 numpy 的資料類型之間有一些重疊。

大多數情況下，你不必擔心是否應該明確地將熊貓類型強制轉換為對應的 NumPy 類型。一般來說使用 Pandas 的預設 int64 和 float64 就可以。我列出此表的唯一原因是，有時你可能會在程式碼行間或自己的分析過程中看到 Numpy 的類型。
資料類型是在你遇到錯誤或意外結果之前並不會關心的事情之一。不過當你將新資料載入到 Pandas 進行進一步分析時，這也是你應該檢查的第一件事情。

筆者使用Pandas已經有一段時間了，但是還是會在一些小問題上犯錯誤，追根溯源發現在對資料進行操作時某些特徵列並不是Pandas所能處理的類型。因此本文將討論一些小技巧如何將Python的基本資料類型轉化為Pandas所能處理的資料類型。

Pandas、Numpy、Python各自支援的資料型別

從上述表格中可以看出Pandas支援的資料類型最為豐富，在某種情形下Numpy的資料類型可以和Pandas的資料類型相互轉化，畢竟Pandas函式庫是在Numpy的基礎之上開發的。

引入實際資料進行分析

資料類型是你平常可能不太關心，直到得到了錯誤的結果才映像深刻的東西，因此在這裡引入一個實際數據分析的例子來加深理解。

import numpy as np
import pandas as pd

data = pd.read_csv(&#39;data.csv&#39;, encoding=&#39;gbk&#39;) #因为数据中含有中文数据
data

#資料載入完畢，如果現在想要在該資料上進行一些操作，例如把數據列2016、2017對應項相加。

data['2016'] data['2017'] #想當然的做法

從結果來看並沒有像想像中那樣數值對應相加，這是因為在Pandas中object型別相加等價於Python中的字串相加。

data.info() #在對資料進行處理之前應該先查看載入資料的相關資訊

在看到載入資料的相關資訊後可以發現以下幾個問題：

客戶編號的資料型別是int64而不是object型別

#使用astype()函數進行型別轉換

#對資料列進行資料型別轉換最簡單的方法就是使用astype()函數

data[&#39;客户编号&#39;].astype(&#39;object&#39;)

data[&#39;客户编号&#39;] = data[&#39;客户编号&#39;].astype(&#39;object&#39;) #对原始数据进行转换并覆盖原始数据列

上面的結果來看起來很不錯，接下來給幾個astype()函數作用於列資料但失效的範例

data[&#39;2017&#39;].astype(&#39;float&#39;)

data[&#39;所属组&#39;].astype(&#39;int&#39;)

###

从上面两个例子可以看出，当待转换列中含有不能转换的特殊值时(例子中￥,ErrorValue等)astype()函数将失效。有些时候astype()函数执行成功了也并不一定代表着执行结果符合预期(神坑!）

data[&#39;状态&#39;].astype(&#39;bool&#39;)

乍一看，结果看起来不错，但仔细观察后，会发现一个大问题。那就是所有的值都被替换为True了，但是该列中包含好几个N标志，所以astype()函数在该列也是失效的。

总结一下astype()函数有效的情形：

数据列中的每一个单位都能简单的解释为数字(2, 2.12等）
数据列中的每一个单位都是数值类型且向字符串object类型转换

如果数据中含有缺失值、特殊字符astype()函数可能失效。

使用自定义函数进行数据类型转换

该方法特别适用于待转换数据列的数据较为复杂的情形，可以通过构建一个函数应用于数据列的每一个数据，并将其转换为适合的数据类型。

对于上述数据中的货币，需要将它转换为float类型，因此可以写一个转换函数：

def convert_currency(value):
 """
 转换字符串数字为float类型
 - 移除 ￥ ,
 - 转化为float类型
 """
 new_value = value.replace(&#39;,&#39;, &#39;&#39;).replace(&#39;￥&#39;, &#39;&#39;)
 return np.float(new_value)

现在可以使用Pandas的apply函数通过covert_currency函数应用于2016列中的所有数据中。

data[&#39;2016&#39;].apply(convert_currency)

该列所有的数据都转换成对应的数值类型了，因此可以对该列数据进行常见的数学操作了。如果利用lambda表达式改写一下代码，可能会比较简洁但是对新手不太友好。

data[&#39;2016&#39;].apply(lambda x: x.replace(&#39;￥&#39;, &#39;&#39;).replace(&#39;,&#39;, &#39;&#39;)).astype(&#39;float&#39;)

当函数需要重复应用于多个列时，个人推荐使用第一种方法，先定义函数还有一个好处就是可以搭配read_csv()函数使用(后面介绍)。

#2016、2017列完整的转换代码
data['2016'] = data[&#39;2016&#39;].apply(convert_currency)
data['2017'] = data['2017'].apply(convert_currency)

同样的方法运用于增长率，首先构建自定义函数

def convert_percent(value):
 """
 转换字符串百分数为float类型小数
 - 移除 %
 - 除以100转换为小数
 """
 new_value = value.replace(&#39;%&#39;, &#39;&#39;)
 return float(new_value) / 100

使用Pandas的apply函数通过covert_percent函数应用于增长率列中的所有数据中。

data[&#39;增长率&#39;].apply(convert_percent)

使用lambda表达式:

data[&#39;增长率&#39;].apply(lambda x: x.replace(&#39;%&#39;, &#39;&#39;)).astype(&#39;float&#39;) / 100

结果都相同：

为了转换状态列，可以使用Numpy中的where函数，把值为Y的映射成True,其他值全部映射成False。

data[&#39;状态&#39;] = np.where(data[&#39;状态&#39;] == &#39;Y&#39;, True, False)

同样的你也可以使用自定义函数或者使用lambda表达式，这些方法都可以完美的解决这个问题，这里只是多提供一种思路。

利用Pandas的一些辅助函数进行类型转换

Pandas的astype()函数和复杂的自定函数之间有一个中间段，那就是Pandas的一些辅助函数。这些辅助函数对于某些特定数据类型的转换非常有用(如to_numeric()、to_datetime())。所属组数据列中包含一个非数值，用astype()转换出现了错误，然而用to_numeric()函数处理就优雅很多。

pd.to_numeric(data[&#39;所属组&#39;], errors=&#39;coerce&#39;).fillna(0)

可以看到，非数值被替换成0.0了，当然这个填充值是可以选择的，具体文档见
pandas.to_numeric - pandas 0.22.0 documentation

Pandas中的to_datetime()函数可以把单独的year、month、day三列合并成一个单独的时间戳。

pd.to_datetime(data[[&#39;day&#39;, &#39;month&#39;, &#39;year&#39;]])

完成数据列的替换

data['new_date'] = pd.to_datetime(data[[&#39;day&#39;, &#39;month&#39;, &#39;year&#39;]]) #新产生的一列数据
data['所属组'] = pd.to_numeric(data[&#39;所属组&#39;], errors=&#39;coerce&#39;).fillna(0)

到这里所有的数据列都转换完毕，最终的数据显示：

在读取数据时就对数据类型进行转换，一步到位

data2 = pd.read_csv("data.csv",
   converters={
    &#39;客户编号&#39;: str,
    &#39;2016&#39;: convert_currency,
    &#39;2017&#39;: convert_currency,
    &#39;增长率&#39;: convert_percent,
    &#39;所属组&#39;: lambda x: pd.to_numeric(x, errors=&#39;coerce&#39;),
    &#39;状态&#39;: lambda x: np.where(x == "Y", True, False)
    },
   encoding=&#39;gbk&#39;)

在这里也体现了使用自定义函数比lambda表达式要方便很多。(大部分情况下lambda还是很简洁的，笔者自己也很喜欢使用）

總結

對資料集進行操作的第一步是確保設定正確的資料類型，然後才能進行資料的分析、視覺化等操作，Pandas提供了很多非常方便的函數，有了這些函數那麼對資料進行分析將會是很方便的。

相關推薦：

pandas實作選取特定索引的行

以上是Pandas實現資料類型轉換的一些技巧的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

在Python陣列上可以執行哪些常見操作？Apr 26, 2025 am 12:22 AM

Pythonarrayssupportvariousoperations:1)Slicingextractssubsets,2)Appending/Extendingaddselements,3)Insertingplaceselementsatspecificpositions,4)Removingdeleteselements,5)Sorting/Reversingchangesorder,and6)Listcomprehensionscreatenewlistsbasedonexistin

在哪些類型的應用程序中，Numpy數組常用？Apr 26, 2025 am 12:13 AM

NumPyarraysareessentialforapplicationsrequiringefficientnumericalcomputationsanddatamanipulation.Theyarecrucialindatascience,machinelearning,physics,engineering,andfinanceduetotheirabilitytohandlelarge-scaledataefficiently.Forexample,infinancialanaly

您什麼時候選擇在Python中的列表上使用數組？Apr 26, 2025 am 12:12 AM

useanArray.ArarayoveralistinpythonwhendeAlingwithHomoGeneData，performance-Caliticalcode，orinterfacingwithccode.1）同質性data：arraysSaveMemorywithTypedElements.2）績效code-performance-calitialcode-calliginal-clitical-clitical-calligation-Critical-Code：Arraysofferferbetterperbetterperperformanceformanceformancefornallancefornalumericalical.3）

所有列表操作是否由數組支持，反之亦然？為什麼或為什麼不呢？Apr 26, 2025 am 12:05 AM

不，notalllistoperationsareSupportedByArrays，andviceversa.1）arraysdonotsupportdynamicoperationslikeappendorinsertwithoutresizing，wheremactsperformance.2）listssdonotguaranteeconecontanttanttanttanttanttanttanttanttanttimecomplecomecomplecomecomecomecomecomecomplecomectacccesslectaccesslecrectaccesslerikearraysodo。

您如何在python列表中訪問元素？Apr 26, 2025 am 12:03 AM

toAccesselementsInapythonlist，useIndIndexing，負索引，切片，口頭化。 1）indexingStartSat0.2）否定indexingAccessesessessessesfomtheend.3）slicingextractsportions.4）iterationerationUsistorationUsisturessoreTionsforloopsoreNumeratorseforeporloopsorenumerate.alwaysCheckListListListListlentePtotoVoidToavoIndexIndexIndexIndexIndexIndExerror。

Python的科學計算中如何使用陣列？Apr 25, 2025 am 12:28 AM

Arraysinpython，尤其是Vianumpy，ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1）Heasuedfornumerericalicerationalation，dataAnalysis和Machinelearning.2）Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3）inthanypythonlists.3）andAreseNableAblequick

您如何處理同一系統上的不同Python版本？Apr 25, 2025 am 12:24 AM

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1）使用pyenv管理多個Python版本：安裝pyenv，設置全局和本地版本。 2）使用venv創建虛擬環境以隔離項目依賴。 3）使用Anaconda管理數據科學項目中的Python版本。 4）保留系統Python用於系統級任務。通過這些工具和策略，你可以有效地管理不同版本的Python，確保項目順利運行。

與標準Python陣列相比，使用Numpy數組的一些優點是什麼？Apr 25, 2025 am 12:21 AM

numpyarrayshaveseveraladagesoverandastardandpythonarrays：1）基於基於duetoc的iMplation，2）2）他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory，尤其是WithlargedAtasets和3）效率化，效率化，矢量化函數函數函數函數構成和穩定性構成和穩定性的操作，製造

See all articles