python爬虫 - Python 爬虫提取网页信息

Question

爬取网址是：http://www.xici.net.co/nn/1以上是HTML网页内容，需获取IP地址，端口号，地方，是否高匿，两个时间 一下是我写的Python，但只能实现部分，请各位大神指点下谢谢。。。。 {代码...} 结果是类似下面的...

高洛峰 · Answer

次のコードで問題を解決できます。ご回答ありがとうございます。。。

リーリー

大家讲道理 · Answer

xpath を使用して見つけます。。 lxml 解析

伊谢尔伦 · Answer

正規表現に何か問題があるような気がします。

まずドキュメント構造を見てください:

各 ... タグにはコンテンツの完全なリストが含まれますが、... タグには単一のコンテンツ項目が含まれます。

タグから始まる各タグを解析するには、正規表現を使用することをお勧めします。

おそらく次のようになります: r'(.*?(.*?).......)'

ここで (.*?) は解決された IP アドレスであり、後で同様になります。

書くのは少し面倒ですが、間違ってはいないはずです。

実際、BeautifulSoup を使用する方がはるかに簡単です。

大家讲道理 · Answer

reを使ってhtmlを操作するのもつまらないので、xpathを使いましょう。

大家讲道理 · Answer

BeautifulSoupの使用を推奨します

大家讲道理 · Answer

BeautifulSoup は良い選択ですが、正規表現コードを自分で書くのは十分エレガントではありません。

PHPz · Answer

……くどい

迷茫 · Answer

ひどい...

python爬虫 - Python 爬虫 提取网页信息