ホームページ >バックエンド開発 >Python チュートリアル >パンダは CSV 入力の不均一な区切り文字を効果的に処理できますか?
パンダの read_csv での非正規の区切り文字の処理
パンダの read_csv メソッドを使用してファイルからデータを読み取るときに、さまざまな区切り文字が発生する可能性があります列内で。一部のフィールドはタブで区切られていますが、他のフィールドは一貫性のない空白区切りになっています (例: 2 ~ 3 個のスペース、またはスペースとタブの混合)。
パンダはこの不規則性を効果的にナビゲートできますか?
Python とは異なりますline.split() メソッド、pandas の read_csv() は、このような不均一な区切り文字に対応するのに苦労する可能性があります。ただし、この問題に対処する解決策はあります。
正規表現区切り文字の使用:
read_csv() の区切り文字パラメータは正規表現を受け入れることができます。 「s 」を使用すると、任意の空白文字 (スペースやタブを含む) を区切り文字として扱うようにパンダに指示できます:
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
delim_whitespace の使用:
ケースの場合区切り文字が厳密に空白 (スペースまたはタブ) である場合、delim_whitespace パラメーターを使用してコードを簡素化できます:
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
以上がパンダは CSV 入力の不均一な区切り文字を効果的に処理できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。