>網絡刮擦:有效從網頁上提取數據
本教程解釋了網頁內容的渲染方式以及如何使用Python,請求,美麗的湯和硒來刮擦它。 我們將專注於刮擦動態內容,特別是評論。
>何時需要網絡刮擦?
> Web刮擦會自動檢索,解析和從網頁中提取信息,通常是為人類互動而設計的。 當沒有API時,這是最後的手段。 考慮以下缺點:
- 脆弱性:網頁頻繁更改,打破刮板。
- 限制:許多網站禁止刮擦。 >
- 性能:
刮擦大量數據可能會很慢且昂貴。 > 了解現代網頁
>讓我們檢查典型的Web應用程序的結構。 我們將以“流浪介紹”文章為例。 要刮擦內容,我們必須首先找到相關的HTML元素。
查看頁面源瀏覽器允許查看HTML源。 “流浪者簡介”來源揭示了與文章內容本身無關的縮小JavaScript的很大一部分。 下面顯示了一個小摘錄:
以下是實際HTML的樣本:
靜態與動態刮擦
靜態刮擦
忽略JavaScript,獲取原始服務器端HTML。 如果目標內容直接在源中,則可以使用。 但是,對於由JavaScript(動態內容)生成的內容,此方法失敗了。>動態刮擦使用硒等工具作為瀏覽器會與頁面交互,呈現JavaScript並使動態內容可用。 >用硒刮擦動態評論 >讓我們從網站上刮擦評論(示例:Codecanyon評論)。我們將使用Selenium導航到註釋URL:
找到註釋元素需要檢查頁面(右鍵單擊,“檢查”)。 Selenium's
有助於處理異步加載:
from selenium import webdriver driver = webdriver.Chrome() driver.get('https://codecanyon.net/item/whatshelp-whatsapp-help-and-support-plugin-for-javascript/42202303/comments')
結論WebDriverWait
當必要的數據不容易通過API提供時,
from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() url = 'http://www.c2.com/loading-page' driver.get(url) element = WebDriverWait(driver, 5).until( EC.presence_of_element_located((By.ID, "loaded_element")) )
>
本教程結合了Esther Vaati的貢獻,Esther Vaati是Envato Tuts的軟件開發人員兼作者。以上是現代網絡用美麗的湯和硒刮擦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用NumPy創建多維數組可以通過以下步驟實現:1)使用numpy.array()函數創建數組,例如np.array([[1,2,3],[4,5,6]])創建2D數組;2)使用np.zeros(),np.ones(),np.random.random()等函數創建特定值填充的數組;3)理解數組的shape和size屬性,確保子數組長度一致,避免錯誤;4)使用np.reshape()函數改變數組形狀;5)注意內存使用,確保代碼清晰高效。

播放innumpyisamethodtoperformoperationsonArraySofDifferentsHapesbyAutapityallate AligningThem.itSimplifififiesCode,增強可讀性,和Boostsperformance.Shere'shore'showitworks:1)較小的ArraySaraySaraysAraySaraySaraySaraySarePaddedDedWiteWithOnestOmatchDimentions.2)

forpythondataTastorage,choselistsforflexibilityWithMixedDatatypes,array.ArrayFormeMory-effficityHomogeneousnumericalData,andnumpyArraysForAdvancedNumericalComputing.listsareversareversareversareversArversatilebutlessEbutlesseftlesseftlesseftlessforefforefforefforefforefforefforefforefforefforlargenumerdataSets; arrayoffray.array.array.array.array.array.ersersamiddreddregro

Pythonlistsarebetterthanarraysformanagingdiversedatatypes.1)Listscanholdelementsofdifferenttypes,2)theyaredynamic,allowingeasyadditionsandremovals,3)theyofferintuitiveoperationslikeslicing,but4)theyarelessmemory-efficientandslowerforlargedatasets.

toAccesselementsInapyThonArray,useIndIndexing:my_array [2] accessEsthethEthErlement,returning.3.pythonosezero opitedEndexing.1)usepositiveandnegativeIndexing:my_list [0] fortefirstElment,fortefirstelement,my_list,my_list [-1] fornelast.2] forselast.2)

文章討論了由於語法歧義而導致的Python中元組理解的不可能。建議使用tuple()與發電機表達式使用tuple()有效地創建元組。 (159個字符)

本文解釋了Python中的模塊和包裝,它們的差異和用法。模塊是單個文件,而軟件包是帶有__init__.py文件的目錄,在層次上組織相關模塊。

文章討論了Python中的Docstrings,其用法和收益。主要問題:Docstrings對於代碼文檔和可訪問性的重要性。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版
中文版,非常好用

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具