ホームページ  >  に質問  >  本文

python爬虫 - Python 爬虫 提取网页信息


爬取网址是:http://www.xici.net.co/nn/1
以上是HTML网页内容,
需获取IP地址,端口号,地方,是否高匿,两个时间

一下是我写的Python,但只能实现部分,请各位大神指点下
谢谢。。。。

import re
import urllib

a = raw_input('input url:')

s = urllib.urlopen(a)
s1 = s.read()


def getinfo(aaa):
    #reg = re.compile(r'(?<![\.\d])(?:\d{1,3}\.){3}\d{1,3}(?![\.\d])')
    #reg = re.compile(r'<td>(\d+)\.(\d+)\.(\d+)\.(\d+)</td>\s*<td>(\d+)</td>\s*<td>([/u4e00-/u9fa5]+)</td>')
    reg = re.compile(r'<td>(\w+)</td>\s*<td>([\u4e00-\u9fa5]+)</td>')
    l = re.findall(reg, aaa)
    print l
getinfo(s1)

结果是类似下面的,不一定是表格

|ip|端口号|位置|是否高匿|类型|速度|连接时间|验证时间|
|-|-|-|-|-|-|-|-|-|
|122.89.9.70|80|台湾|高匿|HTTP|1.27秒|0.325秒|15-08-28 16:30|
|123.69.48.45|8080|江苏南京|高匿|HTTPS|1.07秒|0.5秒|15-08-28 17:30|

黄舟黄舟2764日前421

全員に返信(8)返信します

  • 高洛峰

    高洛峰2017-04-17 15:50:25

    次のコードで問題を解決できます。ご回答ありがとうございます。 。 。

    リーリー

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 15:50:25

    xpath を使用して見つけます。 。 lxml 解析

    返事
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-17 15:50:25

    正規表現に何か問題があるような気がします。

    まずドキュメント構造を見てください:

    <tr>...</tr> タグにはコンテンツの完全なリストが含まれますが、<td>...</td> タグには単一のコンテンツ項目が含まれます。

    <tr> タグから始まる各 <td> タグを解析するには、正規表現を使用することをお勧めします。

    おそらく次のようになります: r'(<tr class.*?>.*?<td.*?<td.*?<td>(.*?)</td>.......</tr>)'

    ここで (.*?) は解決された IP アドレスであり、後で同様になります。

    書くのは少し面倒ですが、間違ってはいないはずです。

    実際、BeautifulSoup を使用する方がはるかに簡単です。

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 15:50:25

    reを使ってhtmlを操作するのもつまらないので、xpathを使いましょう。

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 15:50:25

    BeautifulSoupの使用を推奨します

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 15:50:25

    BeautifulSoup は良い選択ですが、正規表現コードを自分で書くのは十分エレガントではありません。

    返事
    0
  • PHPz

    PHPz2017-04-17 15:50:25

    ……くどい

    返事
    0
  • 迷茫

    迷茫2017-04-17 15:50:25

    ひどい...

    返事
    0
  • キャンセル返事