python爬蟲爬網頁時遇到網頁重新導向怎麼辦-Python教學-PHP中文網

首頁

後端開發

Python教學

python爬蟲爬網頁時遇到網頁重新導向怎麼辦

尚

Jun 28, 2019 pm 01:58 PM

python爬蟲爬網頁時遇到網頁重新導向怎麼辦

搜尋引擎爬蟲在爬取頁面時會遇到網頁被重定向的情況，所謂重定向(Redirect)就是透過各種方法（本文提到的為3種）將各種網路請求重新轉到其它位置（URL）。每個網站主頁是網站資源的入口，當重定向發生在網站主頁時，如果無法正確處理就很有可能會錯過這整個網站的內容。

1、伺服器端重定向，在伺服器端完成，一般來說爬蟲可以自適應，是不需要特別處理的，如回應程式碼301（永久重定向）、302（暫時重定向）等。具體來說，可以透過requests請求得到的response物件中的url、status_code兩個屬性來判斷。當status_code為301、302或其他代表重定向的程式碼時，表示原始請求被重定向；當response物件的url屬性與發送請求時的連結不一致時，也說明了原始請求被重定向且已經自動處理。

#请求重定向
#方法一
response.setStatus(302);
response.setHeader("location", "/day06/index.jsp");
        
#方法二
response.sendRedirect("/day06/index.jsp");

scrapy shell 取得重定向頁面

scrapy shell -s ROBOTSTXT_OBEY=False --no-redirect " 
fetch(response.headers[&#39;Location&#39;])

2、meta refresh，即網頁中的標籤聲明了網頁重定向的鏈接，這種重定向由瀏覽器完成，需要編寫程式碼進行處理。例如，某一重定向如下面的html程式碼第三行的註解所示，瀏覽器能夠自動跳轉，但爬蟲只能得到跳轉前的頁面，不能自動跳轉。

<html>
<head>  
  <meta http-equiv="refresh" content="0.1;url=http://www.redirectedtoxxx.com/"><!--本网页会在0.1秒内refresh为url所指的网页-->
</head>
</html>

解決方法是透過得到跳轉前的頁面原始碼，從中提取出重定向url資訊（上述程式碼第三行中的url屬性值）。一個具體的操作：

①使用xpath('//meta[@http-equiv="refresh" and @content]/@content')提取出content的值

②使用正規表示式提取出重定向的url值。

3、js 重定向，透過JavaScript程式碼形式進行重定向。如下面JavaScript程式碼

<script language=javascript>window.location.href=&#39;http://www.redirectedtoxxx.com&#39;</script>

網頁包含內容這種情況是最容易解決的，一般來講基本上是靜態網頁已經寫死的內容，或者動態網頁，採用模板渲染，瀏覽器獲取到HTML的時候已經是包含所有的關鍵訊息，所以直接在網頁上看到的內容都可以透過特定的HTML標籤得到javascript程式碼載入內容，這種情況是由於雖然網頁顯示時，內容在HTML標籤裡面，但其實是由於執行js程式碼加到標籤裡面的，所以這個時候內容在js程式碼裡面的，而js的執行是在瀏覽器端的操作，所以用程式去請求網頁位址的時候，得到的response是網頁程式碼和js的程式碼，所以自己在瀏覽器端能看到內容，解析時由於js未執行，肯定找到指定HTML標籤下內容肯定為空，這個時候的處理辦法，一般來講主要是要找到包含內容的js程式碼串，然後透過正規表示式獲得對應的內容，而不是解析HTML標籤。

更多Python相關技術文章，請造訪Python教學欄位學習！

以上是python爬蟲爬網頁時遇到網頁重新導向怎麼辦的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

如何使用Python查找文本文件的ZIPF分佈Mar 05, 2025 am 09:58 AM

本教程演示如何使用Python處理Zipf定律這一統計概念，並展示Python在處理該定律時讀取和排序大型文本文件的效率。您可能想知道Zipf分佈這個術語是什麼意思。要理解這個術語，我們首先需要定義Zipf定律。別擔心，我會盡量簡化說明。 Zipf定律 Zipf定律簡單來說就是：在一個大型自然語言語料庫中，最頻繁出現的詞的出現頻率大約是第二頻繁詞的兩倍，是第三頻繁詞的三倍，是第四頻繁詞的四倍，以此類推。讓我們來看一個例子。如果您查看美國英語的Brown語料庫，您會注意到最頻繁出現的詞是“th

我如何使用美麗的湯來解析HTML？Mar 10, 2025 pm 06:54 PM

本文解釋瞭如何使用美麗的湯庫來解析html。它詳細介紹了常見方法，例如find（），find_all（），select（）和get_text（），以用於數據提取，處理不同的HTML結構和錯誤以及替代方案（SEL）

python中的圖像過濾Mar 03, 2025 am 09:44 AM

處理嘈雜的圖像是一個常見的問題，尤其是手機或低分辨率攝像頭照片。本教程使用OpenCV探索Python中的圖像過濾技術來解決此問題。圖像過濾：功能強大的工具圖像過濾器

如何使用Python使用PDF文檔Mar 02, 2025 am 09:54 AM

PDF 文件因其跨平台兼容性而廣受歡迎，內容和佈局在不同操作系統、閱讀設備和軟件上保持一致。然而，與 Python 處理純文本文件不同，PDF 文件是二進製文件，結構更複雜，包含字體、顏色和圖像等元素。幸運的是，借助 Python 的外部模塊，處理 PDF 文件並非難事。本文將使用 PyPDF2 模塊演示如何打開 PDF 文件、打印頁面和提取文本。關於 PDF 文件的創建和編輯，請參考我的另一篇教程。準備工作核心在於使用外部模塊 PyPDF2。首先，使用 pip 安裝它： pip 是 P