import timeimport randomfrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECif __name__ == '__main__':options = webdriver.ChromeOptions()options.binary_location = r'C:UsershhhAppDataLocalGoogleChromeApplication谷歌浏览器.exe'# driver=webdriver.Chrome(executable_path=r'D:360Chromechromedriverchromedriver.exe')driver = webdriver.Chrome(options=options)#以java模块为例driver.get('https://www.csdn.net/nav/java')for i in range(1,20):driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")time.sleep(2). Schreiben Sie an RedisNach dem Importieren des Redis-Pakets „Konfigurieren Sie den Redis-Port und die Redis-Datenbank“. Verwenden Sie die rpush-Funktion zum Schreiben Im Redis Desktop Manager kann man sehen, dass das Crawlen und Schreiben sehr schnell ist.
Um es zu verwenden, verwenden Sie einfach rpop, um es herauszuholen
from bs4 import BeautifulSoupfrom lxml import etree html = etree.HTML(driver.page_source)# soup = BeautifulSoup(html, 'lxml')# soup_herf=soup.find_all("#feedlist_id > li:nth-child(1) > div > div > h2 > a")# soup_herftitle = html.xpath('//*[@id="feedlist_id"]/li/div/div/h2/a/@href')
Das obige ist der detaillierte Inhalt vonSo verwenden Sie Python, um beliebte CSDN-Kommentar-URLs zu crawlen und in Redis zu speichern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!