python - beautifulsoup解析中文网页的编码问题

Question

对于同一个页面，几乎同样的代码，在Python3，windows8环境下能够正常解析运行。但是把代码移植到Ubuntu，Python2.7下面之后，会出现获取的网页不能被beautifulsoup解析，find_all('table')返回空节点的情况。
出问题的代码的一部分（可以运行）：

阿神 · Answer

有沒有嘗試過換一個解析器。
python2.7的html解析器容錯率很差。
推薦lxml。

大家讲道理 · Answer

呃，這主要是程式設計問題。。。 python的encoding問題沒搞懂絕對是個大坑。
我看到這幾句話，好像都有點問題：

1. mybytes = fp.read().decode('gbk').encode('utf-8')
2. soup = BeautifulSoup(mybytes,from_coding="uft-8")
3. print soup.original_encoding
4. print soup.prettify()

其中，

不需要編碼轉換，bs可以接受任何編碼，unicode更好。所以即使編碼轉換也應該只到decode就夠了
bs實例建構用法是BeautifulSoup(html, 'html5lib')，第二個參數是解釋器，而不是編碼。
直接print soup就能出結果啦，顯不顯示中文主要和編碼有關，bs的編碼轉換能力其實還是不那麼強的，所以明文調用也會出問題
soup.prettify('utf-8')這樣的才能保證輸出的編碼正確。

python - beautifulsoup解析中文网页的编码问题

全部回覆(2)我來回復