python - 使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？

Question

保存的html文档中出现中文乱码：&lt;meta name="keywords" content="鈽呯敤閽㈢惔璇犻噴鍛ㄦ澃浼︹櫔鏃犱笌浼︽瘮涓嶉€濈粡鍏革紝姊︽兂瀹禯eDragon锛岄挗鐞达紝缁忓吀锛岃交闊充箰"&gt; 代码： {代码...} 1.使用...

黄舟 · Answer

試試這樣:

print(browser.page_source.encode('utf-8').decode(), file=open("xxx.html","w", encoding='utf-8'))

高洛峰 · Answer

雷雷

高洛峰 · Answer

好吧，我的需求是抓取歌曲的評論&歌曲名稱，原本計劃將網頁爬下來慢慢正則，後來發現爬下來的網頁先是第奇數中文正常，偶數中文亂碼，（我要爬取50個網頁），後來就反過來了。如此說來就是win7有bug，linux沒裝。根據需求使用xpath分析，
eg:
ele_com = browser.find_element_by_xpath("//p[@class='cnt f-brk']")
回傳資料正常。還是在cmd上運行。
所以要是爬個數據就直接用模組上的工具就好了，不要瞎折騰

python - 使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？

全部回覆(3)我來回復