python - pandas读取中文的时候乱码要如何解决?

Question

下载了一份新浪微博的数据,但是原始数据是用csv的,在mac上没办法直接打开,读取的时候,也会错误,会出现 {代码...} 然后自己google,发现read_csv('file', encoding = "ISO-8859-1") 这样的时候读取不会有错 但是读...

伊谢尔伦 · Answer

给代码和原数据

你写点能代码+有代表性的数据即可，别搞几G的大数据阿~

谁看啊？

大家讲道理 · Answer

跟你一样的情况，试了很多编码仍然没有用，但是看数据用UTF8编码的话，有的数据能转换成功，所以我暂时能想到的办法就是用open去按行读取，如果出现编码转换错误就丢掉，这样下来数据量其实也不少

高洛峰 · Answer

你也可以试试用cp1252。最好的方法是先通过chardet包（https://pypi.python.org/pypi/...）看文件具体上用什么encoding。

天蓬老师 · Answer

试过了没有问题呀，我猜想应该是你环境编码问题吧，可以尝试一下以下代码

#coding=utf-8

import pandas as pd
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

df = pd.read_csv('week1.csv', encoding='utf-8', nrows=10)

print df

python - pandas读取中文的时候乱码 要如何解决?

全部回复(4)我来回复

python - pandas读取中文的时候乱码要如何解决?