搜尋

首頁  >  問答  >  主體

python3.5 - 请问我的python小爬虫代码应该怎么做优化?

新入门做的一个爬取文段程序,代码看起来比较臃肿,请问有没有什么好的建议呢?

另外我准备在for循环末尾把数据插入mysql数据库,这样做好吗,还是说再弄一个for循环,第一个for循环把数据存进二维列表里,第二个循环再逐条插入数据呢?


#-*- coding:utf-8 -*-
import re
from pyquery import PyQuery as pq
import time

#过滤html标签
def stripTag(x):
    return re.sub('<(.*?)>','',str(x))

#转换时间戳
def timeStamp(x):
    return time.mktime(time.strptime(x,'%Y-%m-%d %H:%M'))

#获取网页局部源码
d = pq(url='http://www.juexiang.com/list/1017')
d = pq(d('.left').html())
x = d('p.arttitle')

#匹配时间格式
pattern = re.compile(r"[0-9]{4}(.*)[0-9]{2}")

#for循环获取标题、作者、时间
for i in x:
    a = pq(pq(i).html())
    title = stripTag(pq(a('a').eq(0).text()))
    author = stripTag(pq(a('a').eq(1).text()))
    time1 = str(pq(a('span').eq(2).text()))
    time1 = timeStamp((pattern.search(time1)).group())
    print(title,'\t',author,'\t',time1,'\n')

大家讲道理大家讲道理2808 天前667

全部回覆(1)我來回復

  • 巴扎黑

    巴扎黑2017-04-18 09:54:46

    如果還在for循環裡加入資料庫操作,那程式碼看起來就很醜了,其實每一部分都可以分成函數或建類來處理,
    比如
    1.取得網頁內容和過濾html標籤可以建一個函數

    def get_page(url):
        pass
    

    2.取得時間戳記和轉換時間戳記可以合併在一個函數中

    def handld_time():
        pass
        
    

    3.取得標題、作者、時間可用一個函數處理

    def get_article_content():
        pass
    
    

    這樣函數可以復用,並且呼叫起來十分方便靈活,因為這只是一個小程序,用幾個函數重構就可以達到效果了

    回覆
    0
  • 取消回覆