搜尋

首頁  >  問答  >  主體

python - 爬虫获取网站数据,出现乱码怎么解决。

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser

class WALLSTREET:
    def __init__(self, baseUrl):
        self.url = baseUrl
    def get_html_content(self):
        url = self.url
        response = urllib2.urlopen(url)
        str = response.read()
        print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

迷茫迷茫2787 天前617

全部回覆(4)我來回復

  • PHP中文网

    PHP中文网2017-04-18 10:34:43

    str = response.read()這句有兩個問題:
    1、str是內建關鍵字必須改為其他變數名稱
    2、檢視網頁原始碼的編碼方式,如果為utf-8在read()後加.decode('utf-8'),若為其他可以對應解碼

    小建議這種小程式寫個函數會比用類別來更方便,無論是使用還是實作

    回覆
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:34:43

    推測用的是sublime text?
    參考這個

    回覆
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:34:43

    這兒應該是encode不是decode,而且你的變數名居然是跟內建關鍵字名字一樣

    回覆
    0
  • 怪我咯

    怪我咯2017-04-18 10:34:43

    應該是encode吧

    回覆
    0
  • 取消回覆