Rumah  >  Soal Jawab  >  teks badan

python - 爬虫获取网站数据,出现乱码怎么解决。

#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
import HTMLParser

class WALLSTREET:
    def __init__(self, baseUrl):
        self.url = baseUrl
    def get_html_content(self):
        url = self.url
        response = urllib2.urlopen(url)
        str = response.read()
        print str
baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url
ws = WALLSTREET(baseUrl)
ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码
尝试了 print str.decode(“utf-8“”)
但是报错
UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

迷茫迷茫2741 hari yang lalu589

membalas semua(4)saya akan balas

  • PHP中文网

    PHP中文网2017-04-18 10:34:43

    str = response.read() mempunyai dua masalah:
    1 str ialah kata kunci terbina dalam dan mesti ditukar kepada nama pembolehubah lain
    2. Jika ia utf- 8Add .decode('utf-8') selepas read(), jika ia lain, ia boleh dinyahkodkan dengan sewajarnya

    Satu cadangan kecil ialah menulis fungsi untuk program kecil jenis ini akan lebih mudah daripada menggunakan kelas, sama ada ia menggunakan atau melaksanakannya

    balas
    0
  • 巴扎黑

    巴扎黑2017-04-18 10:34:43

    Saya rasa anda menggunakan teks yang luhur?
    Rujuk ini

    balas
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:34:43

    Ia harus dikodkan dan bukannya nyahkod, dan nama pembolehubah anda sebenarnya sama dengan nama kata kunci terbina dalam

    balas
    0
  • 怪我咯

    怪我咯2017-04-18 10:34:43

    Ia harus dikodkan

    balas
    0
  • Batalbalas