Python即時網路爬蟲：API說明-Python教學-PHP中文網

首頁

後端開發

Python教學

Python即時網路爬蟲：API說明

高洛峰

Nov 22, 2016 pm 04:24 PM

python

API說明——下載gsExtractor內容提取器

1，介面名稱

下載內容提取器

2，介面說明

如果您想編寫一個網絡爬蟲程序，您會發現大部分時間耗費在調測網頁內容擷取規則上，不講正規表示式的語法如何怪異，即便使用XPath，您也得逐一編寫和除錯。

如果要從一個網頁上提取很多字段，逐個調試XPath將是十分耗時的。透過這個接口，你可以直接獲得一個調測好的提取器腳本程序，是標準的XSLT程序，您只需針對目標網頁的DOM運行它，就能獲得XML格式的結果，所有字段一次性獲得。

這個XSLT提取器可以是您用MS謀數台產生的，也可以是其他人共享給您的，只要您有讀取權限，皆可下載使用。

用於資料分析和資料探勘的網路爬蟲程式中，內容擷取器是影響通用性的關鍵障礙，如果這個擷取器是從API中獲得的，您的網路爬蟲程式就能寫成通用的框架。

3，介面規格

3.1，介面位址（URL）

http://www.gooseeker.com/api/getextractor

3.2，請求型別（contentType）

33.

HTTP GET

3.4，請求參數

key 必選：Yes；類型：String；說明：申請API時分配的AppKey

theme 必選：Yes；類型：String；說明：提取器名，就是用MS謀數台定義的規則名稱

middle 必選：No；類型：String；說明：規則編號，如果相同規則名稱下定義了多個規則，則需填入

bname 必選：No；類型：String；說明：整理箱名，如果規則含有多個整理箱，需填寫

3.5，回傳型別（contentType）

text/xml; charset=UTF-8

3.6，傳回參數

HTTP訊息標頭中的參數，如下：

more-extractor 類型：String；說明：相同規則名稱下有多少提取器。通常只在可選參數沒有填寫的時候需要注意這個參數，用以提示客戶端有多個規則和整理箱，客戶端自己決定是否要在發送請求時攜帶明確的參數

3.7，回傳錯誤訊息

訊息層錯誤以HTTP 400返回，例如，URL中的參數不符合本規範

應用層錯誤以HTTP 200 OK返回，具體錯誤碼用XML檔案放在訊息體中，XML結構如下：

<return>
    <code>具体的错误码</code>
</return>

具體的code值如下：keyError：權限驗證失敗

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确

4，用法範例（python語言）

範例程式碼：

# -*- coding: utf-8 -*-
from urllib import request

url = &#39;http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名&#39;

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

🎜接下來我會對此API進行測試🎜

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python：遊戲，Guis等Apr 13, 2025 am 12:14 AM

Python在遊戲和GUI開發中表現出色。 1)遊戲開發使用Pygame，提供繪圖、音頻等功能，適合創建2D遊戲。 2)GUI開發可選擇Tkinter或PyQt，Tkinter簡單易用，PyQt功能豐富，適合專業開發。

Python vs.C：申請和用例Apr 12, 2025 am 12:01 AM

Python适合数据科学、Web开发和自动化任务，而C 适用于系统编程、游戏开发和嵌入式系统。Python以简洁和强大的生态系统著称，C 则以高性能和底层控制能力闻名。

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。