处理 Pandas read_csv 中的非常规分隔符
在 pandas 中使用 read_csv 方法从文件中读取数据时,您可能会遇到不同的分隔符在您的专栏中。某些字段可能由制表符分隔,而其他字段则具有不一致的空格分隔(例如 2-3 个空格,或混合空格和制表符)。
pandas 可以有效地导航这种不规则性吗?
与 Python 不同line.split() 方法,pandas 的 read_csv() 可能很难适应这种不均匀的分隔符。不过,有一些解决方案可以解决此问题:
使用正则表达式分隔符:
read_csv() 中的分隔符参数可以接受正则表达式。使用“s”,您可以指示 pandas 将任何空白字符(包括空格和制表符)视为分隔符:
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
使用 delim_whitespace:
对于情况如果分隔符严格是空白(空格或制表符),您可以使用 delim_whitespace 参数简化代码:
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
以上是Pandas 能否有效处理 CSV 输入中的非均匀分隔符?的详细内容。更多信息请关注PHP中文网其他相关文章!