Heim  >  Artikel  >  Datenbank  >  So verwenden Sie Python, um beliebte CSDN-Kommentar-URLs zu crawlen und in Redis zu speichern

So verwenden Sie Python, um beliebte CSDN-Kommentar-URLs zu crawlen und in Redis zu speichern

WBOY
WBOYnach vorne
2023-05-28 15:17:23829Durchsuche

1. Konfigurieren Sie den Webtreiber. Laden Sie den Google Chrome-Treiber herunter und konfigurieren Sie ihn.

import timeimport randomfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECif __name__ == '__main__':options = webdriver.ChromeOptions()options.binary_location = r'C:UsershhhAppDataLocalGoogleChromeApplication谷歌浏览器.exe'# driver=webdriver.Chrome(executable_path=r'D:360Chromechromedriverchromedriver.exe')driver = webdriver.Chrome(options=options)#以java模块为例driver.get('https://www.csdn.net/nav/java')for i in range(1,20):driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(2)
. Schreiben Sie an Redis

Nach dem Importieren des Redis-Pakets „Konfigurieren Sie den Redis-Port und die Redis-Datenbank“. Verwenden Sie die rpush-Funktion zum Schreiben Im Redis Desktop Manager kann man sehen, dass das Crawlen und Schreiben sehr schnell ist.

Um es zu verwenden, verwenden Sie einfach rpop, um es herauszuholen

from bs4 import BeautifulSoupfrom lxml import etree 
html = etree.HTML(driver.page_source)# soup = BeautifulSoup(html, 'lxml')# soup_herf=soup.find_all("#feedlist_id > li:nth-child(1) > div > div > h2 > a")# soup_herftitle = html.xpath('//*[@id="feedlist_id"]/li/div/div/h2/a/@href')

Das obige ist der detaillierte Inhalt vonSo verwenden Sie Python, um beliebte CSDN-Kommentar-URLs zu crawlen und in Redis zu speichern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen