使CSV 分隔符更靈活地處理Pandas 中的不規則空白
當使用pandas.read_csv() 從具有不規則列分隔符號的檔案建立資料幀時,遇到挑戰是常事。某些列可能由製表符分隔,而其他列則由不同數量的空格甚至空格和製表符的混合分隔。這種不規則性可能會導致解析問題。
為了解決這個問題,pandas 提供了兩個選項:使用正規表示式 (regex) 或設定 delim_whitespace。
使用正規表示式
正規表示式選項可讓您指定分隔符號的模式。例如:
這裡,r"s " 符合一個或多個空白字元(包括空格和製表符)。
使用delim_whitespace
delim_whitespace=True 選項自動偵測空格(空格和製表符)作為分隔符號:
與Python 的split() 方法比較
您在Python 中提到過,您可以使用line.split() 來處理變數空白而不會出現問題。 pandas.read_csv() 透過 delim_whitespace 和 regex 選項提供類似的靈活性。
範例
使用下列輸入檔(whitespace.csv):
以下程式碼將建立一個具有正確列分隔的資料框,無論分隔符號類型為何:
以上是Pandas 如何處理 CSV 分隔中的不規則空格?的詳細內容。更多資訊請關注PHP中文網其他相關文章!