cari

Rumah  >  Soal Jawab  >  teks badan

scrapy - Python如何将Unicode转换为HTML

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</p></p>

格式为unicode
如何将它转为html格式,然后进行提取?

PHPzPHPz2889 hari yang lalu465

membalas semua(1)saya akan balas

  • 伊谢尔伦

    伊谢尔伦2017-04-17 17:45:17

    Anda mungkin telah mengelirukan beberapa konsep...(。・`ω´・)

    • Nama penuh HTML ialah How To Make Love, oh... tidak, itu HyperText Markup Language (HyperText Markup Language)

    • Unicode ialah pengekodan rentetan dan rentetan juga termasuk GBK, GB2312, dsb.

    Kedua-duanya bukan perkara yang sama dan tidak boleh ditukar menjadi satu sama lain. Seperti yang saya boleh katakan, bolehkah saya menukar python kepada unicode? Jelas sekali itu tidak boleh dikatakan. Anda hanya boleh mengatakan bahawa anda menukar pengekodan lalai kod python kepada unicode.

    Jika anda perlu menukar rentetan python kepada unicode, kelas Unicode disediakan dalam py2 Dalam py3, pengekodan lalai rentetan ialah unikod dan tiada penukaran diperlukan.

    Tetapi perihalan tajuk anda ditukar kepada format HTML, jadi perenggan yang anda siarkan sekarang ialah HTML...ヾ(o◕∀◕)ノ

    balas
    0
  • Batalbalas