python3 基礎爬蟲入門心得

第一次寫博客，有點緊張，不喜勿噴。
如果有不足之處，希望讀者指出，本人一定要改正。

学习爬虫之前你需要了解（个人建议，铁头娃可以无视）：
- **少许网页制作知识,起码要明白什么标签...**
- **相关语言基础知识。比如用java做爬虫起码会用Java语言，用python做爬虫起码要会用python语言...**
- **一些网络相关知识。比如TCP/IP、cookie之类的知识，明白网页打开的原理。**
- **国家法律。知道哪些能爬，哪些不能爬，别瞎爬。**

如標題，本文所有程式碼使用python3.6.X。

首先，你需要安裝（pip3 install xxxx 一下就OK了）

requests 模組
##BeautifulSoup 模組（或lxml 模組）

這兩個函式庫功能十分強大，requests用於發送網頁請求和開啟網頁，beautifulsoup和lxml則用於解析內容，提取你想要的東西。 BeautifulSoup偏向正規表示式，lxml則偏向XPath。因為本人用beautifulsoup庫比較習慣，這篇文章主要應用beautifulsoup庫，lxml不做太多贅訴。（用之前建議先看文件）

爬蟲的主要結構：

管理員：管理你要爬取的位址。
下載器：下載網頁資訊。
篩選器：從下載到的網頁資訊中篩選出你所需要的內容。
儲存器：把下載到的東西存到你想存的地方。（根據實際情況，可有可無。）

在我所接觸到的所有的網路爬蟲基本上都逃不出這個結構，大到sracpy小到urllib。這個結構知道就好，不用死記，知道它的好處就是在寫的時候起碼能知道自己在寫什麼，出BUG的時候知道在哪裡動手DEBUG。

前面廢話有點多….正文如下：

本文以爬取https://baike.baidu.com/item/Python（python的百度詞條為例）：

(因為截圖太麻煩..這將是本文唯一一張圖)

想要爬取python的字條內容，首先，你要知道你所要爬取的網址：

url = &#39;https://baike.baidu.com/item/Python&#39;

因為只需要爬這一頁，管理器OK。

 html = request.urlopen(url)

呼叫一下urlopen()函數，下載器OK

    Soup = BeautifulSoup(html,"html.parser")
    baike = Soup.find_all("p",class_=&#39;lemma-summary&#39;)

利用Beautifulsoup庫裡的beautifulsoup函數合find_all函數，解析器OK

在這裡說一句,find_all函數的返回值是一個列表。所以輸出時要循環列印。

由於本例不需要儲存，直接列印就行，所以：

for content in baike:    
print (content.get_text())

get_text()的作用是提取出標籤裡的文字。

把上面的程式碼整理一下：

import requestsfrom bs4 import BeautifulSoupfrom urllib import requestimport reif __name__ == '__main__':
    url = &#39;https://baike.baidu.com/item/Python&#39;
    html = request.urlopen(url)
    Soup = BeautifulSoup(html,"html.parser")
    baike = Soup.find_all("p",class_=&#39;lemma-summary&#39;)    for content in baike:        print (content.get_text())

百度百科的詞條就出來了。

類似的方法也能爬一些小說、圖片、頭條之類的，絕不只限於詞條。
如果關掉這篇文章你也能寫出這個程序，那恭喜你，入門了。記住，千萬別背代碼。

驟都省略了…整個程序有點粗糙…見諒啊….溜了溜了(￣ー￣)……

以上是Python3 基礎爬蟲簡介的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python和時間：充分利用您的學習時間Apr 14, 2025 am 12:02 AM

要在有限的時間內最大化學習Python的效率，可以使用Python的datetime、time和schedule模塊。 1.datetime模塊用於記錄和規劃學習時間。 2.time模塊幫助設置學習和休息時間。 3.schedule模塊自動化安排每週學習任務。

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。