现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:
<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏 界面设计</strong>
</a>
<p></p>
<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>
</p></p>
格式为unicode
如何将它转为html格式,然后进行提取?
伊谢尔伦2017-04-17 17:45:17
개념이 헷갈리셨을 수도 있겠네요...(。・`Ω´・)
HTML의 전체 이름은 How To Make Love, 아... 아니, HyperText Markup Language(HyperText Markup Language)
유니코드는 문자열 인코딩이며 문자열에는 GBK, GB2312 등도 포함됩니다.
이 둘은 동일한 것이 아니며 서로 변환될 수 없습니다. 내가 말했듯이, 파이썬을 유니코드로 변환할 수 있나요? 분명히 그것은 말할 수 없습니다. 파이썬 코드의 기본 인코딩을 유니코드로 변환한다고만 말할 수 있습니다.
파이썬 문자열을 유니코드로 변환해야 하는 경우 py2에서 유니코드 클래스가 제공됩니다. py3에서는 문자열의 기본 인코딩이 유니코드이며 변환이 필요하지 않습니다.
그런데 제목 설명이 HTML 형식으로 변환되어 지금 게시한 문단이 HTML이군요...ヾ(o◕∀◕)ノ