第一次寫博客,有點緊張,不喜勿噴。
如果有不足之處,希望讀者指出,本人一定要改正。
学习爬虫之前你需要了解(个人建议,铁头娃可以无视): - **少许网页制作知识,起码要明白什么标签...** - **相关语言基础知识。比如用java做爬虫起码会用Java语言,用python做爬虫起码要会用python语言...** - **一些网络相关知识。比如TCP/IP、cookie之类的知识,明白网页打开的原理。** - **国家法律。知道哪些能爬,哪些不能爬,别瞎爬。**
如標題,本文所有程式碼使用python3.6.X。
首先,你需要安裝(pip3 install xxxx 一下就OK了)
requests 模組
url = 'https://baike.baidu.com/item/Python'因為只需要爬這一頁,管理器OK。
html = request.urlopen(url)呼叫一下urlopen()函數,下載器OK
Soup = BeautifulSoup(html,"html.parser") baike = Soup.find_all("p",class_='lemma-summary')利用Beautifulsoup庫裡的beautifulsoup函數合find_all函數,解析器OK
在這裡說一句,find_all函數的返回值是一個列表。所以輸出時要循環列印。
for content in baike: print (content.get_text())get_text()的作用是提取出標籤裡的文字。 把上面的程式碼整理一下:
import requestsfrom bs4 import BeautifulSoupfrom urllib import requestimport reif __name__ == '__main__': url = 'https://baike.baidu.com/item/Python' html = request.urlopen(url) Soup = BeautifulSoup(html,"html.parser") baike = Soup.find_all("p",class_='lemma-summary') for content in baike: print (content.get_text())百度百科的詞條就出來了。
類似的方法也能爬一些小說、圖片、頭條之類的,絕不只限於詞條。
如果關掉這篇文章你也能寫出這個程序,那恭喜你,入門了。記住,千萬別背代碼。
以上是Python3 基礎爬蟲簡介的詳細內容。更多資訊請關注PHP中文網其他相關文章!