python - 使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？

Question

保存的html文档中出现中文乱码：&lt;meta name="keywords" content="鈽呯敤閽㈢惔璇犻噴鍛ㄦ澃浼︹櫔鏃犱笌浼︽瘮涓嶉€濈粡鍏革紝姊︽兂瀹禯eDragon锛岄挗鐞达紝缁忓吀锛岃交闊充箰"&gt; 代码： {代码...} 1.使用...

黄舟 · Answer

试试这样:

print(browser.page_source.encode('utf-8').decode(), file=open("xxx.html","w", encoding='utf-8'))

高洛峰 · Answer

print(browser.page_source,file=open('C:/Users/welwel/Desktop/source.html','w'))

高洛峰 · Answer

好吧，我的需求是抓取歌曲的评论&歌曲名称，原本计划将网页爬下来慢慢正则，后来发现爬下来的网页先是第奇数中文正常，偶数中文乱码，（我要爬取50个网页），后来就反过来了。如此说来就是在win7上有bug，linux没装。根据需求使用xpath分析，
eg:
ele_com = browser.find_element_by_xpath("//p[@class='cnt f-brk']")
返回数据正常。还是在cmd上运行。
所以要是爬个数据就直接用模块上的工具就好了，不要瞎折腾

python - 使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？

Antworte allen(3)Ich werde antworten