爬資料的意思是:透過網路爬蟲程式來取得需要的網站上的內容訊息,例如文字、影片、圖片等資料。網路爬蟲(網頁蜘蛛)是一種依照一定的規則,自動的抓取萬維網資訊的程式或腳本。
學習一些爬資料的知識有什麼用呢?
例如:大到大家經常使用的搜尋引擎(Google, 搜狗);
當使用者在Google搜尋引擎上檢索對應關鍵字時,Google將對關鍵字進行分析,從已「收錄」的網頁中找出可能的最符合使用者的條目呈現給使用者;那麼,如何取得這些網頁就是爬蟲需要做的,當然如何推送給使用者最有價值的網頁,也是需要結合對應演算法的,這就涉及到資料探勘的知識了;
比較小一些的應用,例如我們統計測試工作的工作量,這就需要統計一周/一月的修改單數量,jira記的缺陷數以及具體內容;
還有就是最近火熱進行的世界杯,如果你想統計一下各個球員/國家的數據,並存儲這些數據以供其他用處;
還有就是根據自己的興趣愛好通過一些數據做一些分析等(統計一本書/一部電影的好評度),這就需要爬取已有網頁的數據了,然後通過獲取的數據做一些具體的分析/統計工作等。
學習簡單的爬蟲需要具備哪些基礎?
我把基礎分成兩部分:
1、前端基礎
HTML/JSON,CSS; Ajax
參考資料:
http://www.w3school.com.cn/h.asp
http://www.w3school.com.cn/ajax/
http: //www.w3school.com.cn/json/
https://www.php.cn/course/list/1.html
https://www.php.cn /course/list/2.html
https://www.html.cn/
#2.python程式設計相關知識
(1)Python基礎知識
基本語法知識,字典,列表,函數,正規表達式,JSON等
#參考資料:
http://www.runoob.com /python3/python3-tutorial.html
https://www.py.cn/
https://www.php.cn/course/list/30.html
#(2)Python常用庫:
Python的urllib庫的用法(此模組我使用的urlretrieve函數多一些,主要用它保存一些獲取的資源(文檔/圖片/mp3 /視訊等))
Python的pyMysql庫(資料庫連接以及增刪改查)
python模組bs4(需要具備css選擇器,html的樹形結構domTree知識等,根據css選擇器/html標籤/屬性定位我們需要的內容)
python的requests(顧名思義,此模組用於發送request請求的/POST/Get等,取得一個Response 物件)
python的os模組(此模組提供了非常豐富的方法用來處理文件和目錄。os.path.join/exists函數用的較多一些)
參考資料:這部分可以參考相關模組的介面API文件
擴充資料:
網路爬蟲是自動擷取網頁的程序,它為搜尋引擎從萬維網上下載網頁,是搜尋引擎的重要組成。
傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。
聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析演算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜尋策略從佇列中選擇下一步要抓取的網頁URL,並重複上述過程,直到達到系統的某一條件時停止。
另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所所得到的分析結果也可能對以後的抓取過程給予回饋和指導。
相對於通用網路爬蟲,聚焦爬蟲還需要解決三個主要問題:
(1) 對抓取目標的描述或定義;
(2) 對網頁或資料的分析與過濾;
(3) 對URL的搜尋策略。
推薦教學:《python教學》
以上是爬數據是什麼意思?的詳細內容。更多資訊請關注PHP中文網其他相關文章!