ホームページ  >  に質問  >  本文

python3.x - python lxml解析gbk

单刀直入,请问怎么用lxml解析gbk文件,可以直接传入gbk编码的xml不会报错,可是解析出来的文本也全是乱码没有用啊,求教

自用自答,不好好看官网文档真害人,文档中的解决方法贴一下:

parser = etree.XMLParser(encoding='gbk') #这里还可以传入很多参数来定制你的parser
tree = etree.parser(file, parser=parser)

可以解决读gbk的问题,lxml功能确实很强大,建议大家使用前先大致看看文档吧,能省很多时间的,谢谢大家的作答!希望上面的代码可以帮到大家

PHP中文网PHP中文网2741日前471

全員に返信(2)返信します

  • 阿神

    阿神2017-04-18 09:59:26

    テキスト .decode(encoding="gbk") を出力してみます

    返事
    0
  • 迷茫

    迷茫2017-04-18 09:59:26

    ビューティフルスープと lxml をパーサーとして使用している場合は、ビューティフルスープを設定できます

    soup = BeautifulSoup(html, from_encoding="gbk")

    BeautifulSoup エンコーディング部分のドキュメント

    Web ページの解析には bs4 がとても便利です orz

    bs を使用して XML を解析します: http://www.cnblogs.com/liulix...

    これを見つけました: https://segmentfault.com/a/11...
    試してみることができます

    返事
    0
  • キャンセル返事