本文給大家分享的是使用python爬蟲實作把《廖雪峰的Python 教學》轉換成PDF的方法和程式碼,有需要的小夥伴可以參考下
寫爬蟲似乎沒有比用Python 更合適了,Python 社區提供的爬蟲工具多得讓你眼花繚亂,各種拿來就可以直接用的library 分分鐘就可以寫出一個爬蟲出來,今天就琢磨著寫一個爬蟲,將廖雪峰的Python 教程爬下來做成PDF 電子書方便大家離線閱讀。
開始寫爬蟲前,我們先來分析一下該網站1的頁面結構,網頁的左側是教程的目錄大綱,每個URL 對應到右邊的一篇文章,右側上方是文章的標題,中間是文章的正文部分,正文內容是我們關心的重點,我們要爬的資料就是所有網頁的正文部分,下方是使用者的評論區,留言區對我們沒什麼用,所以可以忽略它。
工具準備
弄清楚了網站的基本結構後就可以開始準備爬蟲所依賴的工具包了。 requests、beautifulsoup 是爬蟲兩大神器,reuqests 用於網路請求,beautifusoup 用於操作 html 資料。有了這兩把梭子,幹起活來利索,scrapy 這樣的爬蟲框架我們就不用了,小程式派上它有點殺雞用牛刀的意思。此外,既然是把 html 檔案轉為 pdf,那麼也要有相應的庫支持, wkhtmltopdf 就是一個非常好的工具,它可以用適用於多平台的 html 到 pdf 的轉換,pdfkit 是 wkhtmltopdf 的Python封裝包。首先安裝好下面的依賴包,
接著安裝wkhtmltopdf
#pip install requests pip install beautifulsoup pip install pdfkit
安裝wkhtmltopdf
## Windows平台直接在wkhtmltopdf 官網2下載穩定版的進行安裝,安裝完成之後把程式的執行路徑加入到系統環境$PATH 變數中,否則pdfkit 找不到wkhtmltopdf 就出現錯誤「No wkhtmltopdf executable found」。 Ubuntu 和CentOS 可以直接用命令列進行安裝
$ sudo apt-get install wkhtmltopdf # ubuntu $ sudo yum intsall wkhtmltopdf # centos
#爬蟲實作
一切準備就緒後就可以上程式碼了,不過寫程式碼之前還是先整理一下思緒。程式的目的是要把所有 URL 對應的 html 正文部分儲存到本機,然後利用 pdfkit 把這些檔案轉換成一個 pdf 檔。我們把任務拆分一下,首先是把某一個 URL 對應的 html 正文儲存到本地,然後找到所有的 URL 執行相同的操作。 用 Chrome 瀏覽器找到頁面正文部分的標籤,按 F12 找到正文對應的 p 標籤:
,該 p 是網頁的正文內容。用 requests 把整個頁面載入到本機後,就可以使用 beautifulsoup 運算 HTML 的 dom 元素 來擷取正文內容了。
def parse_url_to_html(url): response = requests.get(url) soup = BeautifulSoup(response.content, "html5lib") body = soup.find_all(class_="x-wiki-content")[0] html = str(body) with open("a.html", 'wb') as f: f.write(html)第二步就是把頁面左邊所有 URL 解析出來。採用相同的方式,找到左側選單標籤
#特定程式碼實作邏輯:因為頁面上有兩個uk-nav uk-nav-side的class 屬性,而真正的目錄清單是第二個。所有的 url 獲取了,url 轉 html 的函數在第一步也寫好了。
def get_url_list(): """ 获取所有URL目录列表 """ response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000") soup = BeautifulSoup(response.content, "html5lib") menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1] urls = [] for li in menu_tag.find_all("li"): url = "http://www.liaoxuefeng.com" + li.a.get('href') urls.append(url) return urls最後一步就是把 html 轉換成pdf檔了。轉換成pdf 檔非常簡單,因為pdfkit 把所有的邏輯都封裝好了,你只需要呼叫函數pdfkit.from_file###
def save_pdf(htmls): """ 把所有html文件转换成pdf文件 """ options = { 'page-size': 'Letter', 'encoding': "UTF-8", 'custom-header': [ ('Accept-Encoding', 'gzip') ] } pdfkit.from_file(htmls, file_name, options=options)#########執行save_pdf 函數,電子書pdf 檔案就生成了,效果圖:##################總結##########總共程式碼量加起來不到50行,不過,而且慢,其實上面給出的程式碼省略了一些細節,例如,如何取得文章的標題,正文內容的img 標籤使用的是相對路徑,如果要想在pdf 中正常顯示圖片就需要將相對路徑改為絕對路徑,還有儲存下來的html 臨時檔案都要刪除###
更多python爬蟲實作教學轉換成 PDF 電子書相關文章請關注PHP中文網!

Arraysinpython,尤其是Vianumpy,ArecrucialInsCientificComputingfortheireftheireffertheireffertheirefferthe.1)Heasuedfornumerericalicerationalation,dataAnalysis和Machinelearning.2)Numpy'Simpy'Simpy'simplementIncressionSressirestrionsfasteroperoperoperationspasterationspasterationspasterationspasterationspasterationsthanpythonlists.3)inthanypythonlists.3)andAreseNableAblequick

你可以通過使用pyenv、venv和Anaconda來管理不同的Python版本。 1)使用pyenv管理多個Python版本:安裝pyenv,設置全局和本地版本。 2)使用venv創建虛擬環境以隔離項目依賴。 3)使用Anaconda管理數據科學項目中的Python版本。 4)保留系統Python用於系統級任務。通過這些工具和策略,你可以有效地管理不同版本的Python,確保項目順利運行。

numpyarrayshaveseveraladagesoverandastardandpythonarrays:1)基於基於duetoc的iMplation,2)2)他們的aremoremoremorymorymoremorymoremorymoremorymoremoremory,尤其是WithlargedAtasets和3)效率化,效率化,矢量化函數函數函數函數構成和穩定性構成和穩定性的操作,製造

數組的同質性對性能的影響是雙重的:1)同質性允許編譯器優化內存訪問,提高性能;2)但限制了類型多樣性,可能導致效率低下。總之,選擇合適的數據結構至關重要。

到CraftCraftExecutablePythcripts,lollow TheSebestPractices:1)Addashebangline(#!/usr/usr/bin/envpython3)tomakethescriptexecutable.2)setpermissionswithchmodwithchmod xyour_script.3)

numpyArraysareAreBetterFornumericalialoperations andmulti-demensionaldata,而learthearrayModuleSutableforbasic,內存效率段

numpyArraySareAreBetterForHeAvyNumericalComputing,而lelethearRayModulesiutable-usemoblemory-connerage-inderabledsswithSimpleDatateTypes.1)NumpyArsofferVerverVerverVerverVersAtility andPerformanceForlargedForlargedAtatasetSetsAtsAndAtasEndCompleXoper.2)

ctypesallowscreatingingangandmanipulatingc-stylarraysinpython.1)usectypestoInterfacewithClibrariesForperfermance.2)createc-stylec-stylec-stylarraysfornumericalcomputations.3)passarraystocfunctions foreforfunctionsforeffortions.however.however,However,HoweverofiousofmemoryManageManiverage,Pressiveo,Pressivero


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1
好用且免費的程式碼編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器