python爬虫 - Python 爬虫提取网页信息

Question

爬取网址是：http://www.xici.net.co/nn/1以上是HTML网页内容，需获取IP地址，端口号，地方，是否高匿，两个时间 一下是我写的Python，但只能实现部分，请各位大神指点下谢谢。。。。 {代码...} 结果是类似下面的...

高洛峰 · Answer

以下程式碼可以解決了，謝謝各位的解答。。。

import requests
from bs4 import BeautifulSoup


def getInfo(url):
    proxy_info = []
    page_code = requests.get(url).text
    soup = BeautifulSoup(page_code)
    table_soup = soup.find('table')
    proxy_list = table_soup.findAll('tr')[1:]
    for tr in proxy_list:
        td_list = tr.findAll('td')
        ip = td_list[2].string
        port = td_list[3].string
        location = td_list[4].string or td_list[4].find('a').string
        anonymity = td_list[5].string
        proxy_type = td_list[6].string
        speed = td_list[7].find('p', {'class': 'bar'})['title']
        connect_time = td_list[8].find('p', {'class': 'bar'})['title']
        validate_time = td_list[9].string

        # strip
        l = [ip, port, location, anonymity, proxy_type, speed, connect_time, validate_time]
        for i in range( len(l) ):
            if l[i]:
                l[i] = l[i].strip()
        proxy_info.append(l)

    return proxy_info

if __name__ == '__main__':
    url = 'http://www.xici.net.co/nn/1'
    proxy_info = getInfo(url)
    for row in proxy_info:
        for s in row:
            print s,
        print

大家讲道理 · Answer

用xpath去找吧。。 lxml解析

伊谢尔伦 · Answer

感覺正規表示式可能有點問題。

首先看文檔結構：

每一個...標籤裡包含了一列完整的內容,而...標籤裡是一個單項內容。 ...标签里包含了一列完整的内容,而...标签里是一个单项内容。

建议用正则表达是从标签开始对每一个标签进行解析。

大概这样：r'(.*?(.*?).......)'

这里面(.*?)

建議用正規表示是從標籤開始對每一個標籤進行解析。

大概這樣：r'(.*?(.*?).......< /tr>)'

這裡面(.*?)就是解析出來的ip位址了，後面類似。 🎜 🎜寫起來有點麻煩，但應該不會錯。 🎜 🎜其實用BeautifulSoup會簡單很多。 🎜

大家讲道理 · Answer

用re來操作html，也是醉了，xpath吧。

大家讲道理 · Answer

推薦用BeautifulSoup

大家讲道理 · Answer

BeautifulSoup 是一個很好的選擇，自己寫正規表示式程式碼也顯得不夠優雅。

PHPz · Answer

……scrapy呀

迷茫 · Answer

python爬虫 - Python 爬虫 提取网页信息

全部回覆(8)我來回復

python爬虫 - Python 爬虫提取网页信息