處理Pandas read_csv 中的非常規分隔符號
在pandas 中使用read_csv 方法從檔案中讀取資料時,您可能會遇到不同的分隔符號在您的專欄中。某些欄位可能由製表符分隔,而其他欄位則具有不一致的空格分隔(例如 2-3 個空格,或混合空格和製表符)。
pandas 可以有效地導航這種不規則性嗎?
與 Python 不同line.split() 方法,pandas 的 read_csv() 可能很難適應這種不均勻的分隔符號。不過,有一些解決方案可以解決此問題:
使用正規表示式分隔符號:
read_csv() 中的分隔符號參數可以接受正規表示式。使用“s”,您可以指示pandas 將任何空白字元(包括空格和製表符)視為分隔符:
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
使用delim_whitespace:
對於情況如果分隔符號嚴格是空白(空格或製表符),您可以使用delim_whitespace 參數簡化代碼:
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
以上是Pandas 能否有效處理 CSV 輸入中的非均勻分隔符號?的詳細內容。更多資訊請關注PHP中文網其他相關文章!