ホームページ  >  に質問  >  本文

Python lxml の中国語解析に関する問題

lxml を使用して漢字をキャプチャすると、結果は非常に苦痛になります。対処方法がわかりません...

リーリー

結果は次のようにキャプチャされます [u'\xe6\x80\xa7\xe8\xb4\xa8']
unicode ですが、内容は str エンコードです。これを中国語に変換するにはどうすればよいですか?
通常、 '\xe6\x80\xa7\xe8\xb4\xa8' または u'\u6027\u8d28'

にする必要があります
高洛峰高洛峰2712日前564

全員に返信(2)返信します

  • 淡淡烟草味

    淡淡烟草味2017-05-18 10:46:31

    リーリー

    返事
    0
  • 滿天的星座

    滿天的星座2017-05-18 10:46:31

    これが発生する場合、通常はリクエストが Web ページの間違ったエンコーディングを推測したことが原因です
    そのため、リクエストのエンコーディングを指定するだけです。
    res.encoding ='utf-8'

    リーリー

    返事
    0
  • キャンセル返事