使用selenium抓取淘寶資料訊息-js教程-PHP中文網

首頁

web前端

js教程

使用selenium抓取淘寶資料訊息

亚连

Jun 07, 2018 pm 03:20 PM

selenium抓取淘寶

下面我就為大家分享一篇使用selenium抓取淘寶的商品資訊實例，具有很好的參考價值，希望對大家有所幫助。

淘寶的頁面大量使用了js載入數據，所以採用selenium來進行爬取更為簡單，selenum作為一個測試工具，主要配合無視窗瀏覽器phantomjs來使用。

import re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
&#39;&#39;&#39;
wait.until()语句是selenum里面的显示等待，wait是一个WebDriverWait对象，它设置了等待时间，如果页面在等待时间内
没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常,也可以说程序每隔xx秒看一眼，如果条件
成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException
1.presence_of_element_located 元素加载出，传入定位元组，如(By.ID, &#39;p&#39;)
2.element_to_be_clickable 元素可点击
3.text_to_be_present_in_element 某个元素文本包含某文字
&#39;&#39;&#39;
# 定义一个无界面的浏览器
browser = webdriver.PhantomJS(
 service_args=[
  &#39;--load-images=false&#39;,
  &#39;--disk-cache=true&#39;])
# 10s无响应就down掉
wait = WebDriverWait(browser, 10)
#虽然无界面但是必须要定义窗口
browser.set_window_size(1400, 900)

def search():
 &#39;&#39;&#39;
 此函数的作用为完成首页点击搜索的功能，替换标签可用于其他网页使用
 :return:
 &#39;&#39;&#39;
 print(&#39;正在搜索&#39;)
 try:
  #访问页面
  browser.get(&#39;https://www.taobao.com&#39;)
  # 选择到淘宝首页的输入框
  input = wait.until(
   EC.presence_of_element_located((By.CSS_SELECTOR, &#39;#q&#39;))
  )
  #搜索的那个按钮
  submit = wait.until(EC.element_to_be_clickable(
   (By.CSS_SELECTOR, &#39;#J_TSearchForm > p.search-button > button&#39;)))
  #send_key作为写到input的内容
  input.send_keys(&#39;面条&#39;)
  #执行点击搜索的操作
  submit.click()
  #查看到当前的页码一共是多少页
  total = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, &#39;#mainsrp-pager > p > p > p > p.total&#39;)))
  #获取所有的商品
  get_products()
  #返回总页数
  return total.text
 except TimeoutException:
  return search()

def next_page(page_number):
 &#39;&#39;&#39;
 翻页函数，
 :param page_number:
 :return:
 &#39;&#39;&#39;
 print(&#39;正在翻页&#39;, page_number)
 try:
  #这个是我们跳转页的输入框
  input = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, &#39;#mainsrp-pager > p > p > p > p.form > input&#39;)))
  #跳转时的确定按钮
  submit = wait.until(
   EC.element_to_be_clickable(
    (By.CSS_SELECTOR,
     &#39;#mainsrp-pager > p > p > p > p.form > span.J_Submit&#39;)))
  #清除里面的数字
  input.clear()
  #重新输入数字
  input.send_keys(page_number)
  #选择并点击
  submit.click()
  #判断当前页是不是我们要现实的页
  wait.until(
   EC.text_to_be_present_in_element(
    (By.CSS_SELECTOR,
     &#39;#mainsrp-pager > p > p > p > ul > li.item.active > span&#39;),
    str(page_number)))
  #调用函数获取商品信息
  get_products()
 #捕捉超时，重新进入翻页的函数
 except TimeoutException:
  next_page(page_number)

def get_products():
 &#39;&#39;&#39;
 搜到页面信息在此函数在爬取我们需要的信息
 :return:
 &#39;&#39;&#39;
 #每一个商品标签，这里是加载出来以后才会拿网页源代码
 wait.until(EC.presence_of_element_located(
  (By.CSS_SELECTOR, &#39;#mainsrp-itemlist .items .item&#39;)))
 #这里拿到的是整个网页源代码
 html = browser.page_source
 #pq解析网页源代码
 doc = pq(html)
 items = doc(&#39;#mainsrp-itemlist .items .item&#39;).items()
 for item in items:
  # print(item)
  product = {
   &#39;image&#39;: item.find(&#39;.pic .img&#39;).attr(&#39;src&#39;),
   &#39;price&#39;: item.find(&#39;.price&#39;).text(),
   &#39;deal&#39;: item.find(&#39;.deal-cnt&#39;).text()[:-3],
   &#39;title&#39;: item.find(&#39;.title&#39;).text(),
   &#39;shop&#39;: item.find(&#39;.shop&#39;).text(),
   &#39;location&#39;: item.find(&#39;.location&#39;).text()
  }
  print(product)

def main():
 try:
  #第一步搜索
  total = search()
  #int类型刚才找到的总页数标签，作为跳出循环的条件
  total = int(re.compile(&#39;(\d+)&#39;).search(total).group(1))
  #只要后面还有就继续爬，继续翻页
  for i in range(2, total + 1):
   next_page(i)
 except Exception:
  print(&#39;出错啦&#39;)
 finally:
  #关闭浏览器
  browser.close()

if __name__ == &#39;__main__&#39;:
 main()

上面是我整理給大家的，希望未來會對大家有幫助。

透過jquery技術實現放大鏡

使用Puppeteer影像辨識技術如何實現百度指數爬蟲

#使用js如何呼叫json

以上是使用selenium抓取淘寶資料訊息的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

JavaScript的角色：使網絡交互和動態Apr 24, 2025 am 12:12 AM

JavaScript是現代網站的核心，因為它增強了網頁的交互性和動態性。 1)它允許在不刷新頁面的情況下改變內容，2)通過DOMAPI操作網頁，3)支持複雜的交互效果如動畫和拖放，4)優化性能和最佳實踐提高用戶體驗。

C和JavaScript：連接解釋Apr 23, 2025 am 12:07 AM

C 和JavaScript通過WebAssembly實現互操作性。 1）C 代碼編譯成WebAssembly模塊，引入到JavaScript環境中，增強計算能力。 2）在遊戲開發中，C 處理物理引擎和圖形渲染，JavaScript負責遊戲邏輯和用戶界面。

從網站到應用程序：JavaScript的不同應用Apr 22, 2025 am 12:02 AM

JavaScript在網站、移動應用、桌面應用和服務器端編程中均有廣泛應用。 1)在網站開發中，JavaScript與HTML、CSS一起操作DOM，實現動態效果，並支持如jQuery、React等框架。 2)通過ReactNative和Ionic，JavaScript用於開發跨平台移動應用。 3)Electron框架使JavaScript能構建桌面應用。 4)Node.js讓JavaScript在服務器端運行，支持高並發請求。

Python vs. JavaScript：比較用例和應用程序Apr 21, 2025 am 12:01 AM

Python更適合數據科學和自動化，JavaScript更適合前端和全棧開發。 1.Python在數據科學和機器學習中表現出色，使用NumPy、Pandas等庫進行數據處理和建模。 2.Python在自動化和腳本編寫方面簡潔高效。 3.JavaScript在前端開發中不可或缺，用於構建動態網頁和單頁面應用。 4.JavaScript通過Node.js在後端開發中發揮作用，支持全棧開發。

C/C在JavaScript口譯員和編譯器中的作用Apr 20, 2025 am 12:01 AM

C和C 在JavaScript引擎中扮演了至关重要的角色，主要用于实现解释器和JIT编译器。1）C 用于解析JavaScript源码并生成抽象语法树。2）C 负责生成和执行字节码。3）C 实现JIT编译器，在运行时优化和编译热点代码，显著提高JavaScript的执行效率。

JavaScript在行動中：現實世界中的示例和項目Apr 19, 2025 am 12:13 AM

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用，涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

JavaScript和Web：核心功能和用例Apr 18, 2025 am 12:19 AM

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互；2)在用戶提交數據前進行客戶端驗證，提高用戶體驗；3)通過AJAX技術實現與服務器的無刷新通信。

了解JavaScript引擎：實施詳細信息Apr 17, 2025 am 12:05 AM

理解JavaScript引擎內部工作原理對開發者重要，因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段；2)執行過程中，引擎會進行動態優化，如內聯緩存和隱藏類；3)最佳實踐包括避免全局變量、優化循環、使用const和let，以及避免過度使用閉包。

See all articles