首頁  >  問答  >  主體

python - pythoh3 下 '<abc>' 遇到這樣的html轉義符如何自動轉義呢?

初學python,在使用scray 爬蟲時,遇到html的特殊字符,於是百度搜看了下文檔:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
s = html_parser.unescape(s )

執行階段提示:
import markupbase
ImportError: No module named 'markupbase'


借助翻譯軟體,看HTMLParser官方文件找了第二種方法

from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_data(self, data):
    print(data)
    return data

parser = MyHTMLParser()
s = '&l t;abc&g t;&nbs p;' #避免網頁轉義留了個空格
ss=parser.feed(s)

第二種方法測試成功,遇到的問題是,return data 這一句,回傳資料是無效的?


請問,有沒有就幾句程式碼解決轉義的,如果沒有第二種方法裡如何才有回傳值?

typechotypecho2686 天前977

全部回覆(1)我來回復

  • 某草草

    某草草2017-06-12 09:29:01

    雷雷

    回覆
    0
  • 取消回覆