最近剛接觸python,找點小任務來練練手,希望自己在練習中不斷的鍛鍊自己解決問題的能力。這個小爬蟲來自慕課網的一門課程,我在這裡記錄的是我自己學習的過程中遇到的問題和解決方法以及爬蟲以外的思考。
這次的小任務就是寫一個小爬蟲。要為啥選這個來練手呢,最重要的原因就是大數據太熱了,就像武漢的現在的天氣。數據之於」大數據「,就好比武器之於戰士,磚瓦之於高樓。沒有了數據,」大數據「就是空中閣樓,根本沒辦法落地,應用於實際。數據怎麼來呢?兩種途徑,一個是自取,一個他取。自取不必多說,另外一種就是他取,這個「他」就是指的網路。
首先要明白爬蟲:一種依照一定的規則,自動地抓取萬維網資訊的程式或腳本(來自百度百科)。顧名思義,那就是要訪問頁面,然後將頁面中的內容保存下來,然後從保存下來的頁面中篩選出你感興趣的內容,再把它另外存放起來。實際生活中,這種事我們經常乾:我們在一個無聊的下午,在瀏覽器裡輸入一段地址進行頁面訪問,然後遇到感興趣的文章或者段落,選中它,然後復制粘貼到一個word文檔裡。如果我們把以上對一個頁面做的事,變成對成百萬上千萬的頁面也這樣做,那你的數據就會越來越大,我們把這個過程稱之為「資料收集」。
爬蟲的優點就在於:自動化,批量化。這裡就會有一個誤會,在我還沒接觸爬蟲之前,我以為爬蟲可以爬取我「看不到」的東西,後來才明白爬蟲是用來爬取我「看不完」的東西。
下面是這個爬蟲的架構與爬行流程
######## ############# # ###
以上是爬蟲&問題解決&思考的詳細內容。更多資訊請關注PHP中文網其他相關文章!