python - pandas读取中文的时候乱码要如何解决?

Question

下载了一份新浪微博的数据,但是原始数据是用csv的,在mac上没办法直接打开,读取的时候,也会错误,会出现 {代码...} 然后自己google,发现read_csv('file', encoding = "ISO-8859-1") 这样的时候读取不会有错 但是读...

伊谢尔伦 · Answer

給代碼和原始資料

你寫點能程式碼+有代表性的資料即可，別搞幾G的大數據阿~

誰看啊？

大家讲道理 · Answer

跟你一樣的情況，試了很多編碼還是沒有用，但是看資料用UTF8編碼的話，有的資料能轉換成功，所以我暫時能想到的辦法就是用open去按行讀取，如果出現編碼轉換錯誤就丟掉，這樣下來資料量其實也不少

高洛峰 · Answer

你也可以試試用cp1252。最好的方法是先透過chardet套件（https://pypi.python.org/pypi/...）看檔案具體上用什麼encoding。

天蓬老师 · Answer

試過了沒有問題呀，我猜想應該是你環境編碼問題吧，可以試試看以下程式碼

#coding=utf-8

import pandas as pd
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

df = pd.read_csv('week1.csv', encoding='utf-8', nrows=10)

print df

python - pandas读取中文的时候乱码 要如何解决?

全部回覆(4)我來回復

python - pandas读取中文的时候乱码要如何解决?