ホームページ  >  記事  >  バックエンド開発  >  Python インスタント Web クローラー: API の説明

Python インスタント Web クローラー: API の説明

高洛峰
高洛峰オリジナル
2016-11-22 16:24:151460ブラウズ

API 説明 - gsExtractor コンテンツ エクストラクターのダウンロード

1、インターフェイス名

ダウンロード コンテンツ エクストラクター

2、インターフェイスの説明

Web クローラー プログラムを作成したい場合、ほとんどの時間は Web ページのデバッグに費やされることがわかります。コンテンツ抽出ルールに関しては、正規表現の構文がどんなに奇妙であっても、XPath を使用する場合でも、1 つずつ記述してデバッグする必要があります。

Web ページから多くのフィールドを抽出したい場合、XPath を 1 つずつデバッグすると非常に時間がかかります。このインターフェイスを通じて、標準 XSLT プログラムであるデバッグされた抽出スクリプト プログラムを直接取得できます。これをターゲット Web ページの DOM に対して実行するだけで、すべてのフィールドが一度に取得され、XML 形式で結果が得られます。

この XSLT エクストラクターは、MS ソフトウェアを使用して生成することも、読み取り権限がある限り、他のユーザーと共有することもできます。

データ分析やデータ マイニングに使用される Web クローラー プログラムでは、コンテンツ エクストラクターが汎用性の大きな障害となります。このエクストラクターを API から取得すると、Web クローラー プログラムをユニバーサル フレームワークとして作成できます。

3、インターフェース仕様

3.1、インターフェースアドレス(URL)

http://www.gooseeker.com/api/getextractor

3.2、リクエストタイプ(contentType)

制限なし

3.3、リクエストメソッド

HTTP GET

3.4、リクエストパラメータ

key 必須: はい; タイプ: 文字列; 説明: API

テーマの申請時に割り当てられる AppKey 必須: はい; タイプ: 文字列。 MS Moushu 台湾によって定義された名前

middle 必須: いいえ、タイプ: 文字列、説明: 複数のルールが同じルール名で定義されている場合は、

bname を入力する必要があります。 必須: いいえ、タイプ: 文字列。 : 並べ替えボックス名。ルールに複数の並べ替えボックスが含まれている場合は、

3.5、戻り値の型 (contentType)

text/xml; charset=UTF-8


3.6、HTTP の戻りパラメータ

Parameters を入力する必要があります。メッセージ ヘッダー、次のように:

more-extractor タイプ: 文字列; 説明: 同じルール名の下に存在するエクストラクターの数。通常、このパラメータに注意を払う必要があるのは、オプションのパラメータが入力されていない場合にのみ、クライアントに複数のルールと並べ替えボックスがあることを通知するためです

3.7 。エラー メッセージ

メッセージ層のエラーは HTTP 400 で返されます。たとえば、URL のパラメータはこの仕様に準拠していません。

アプリケーション層のエラーは HTTP 200 OK で返されます。特定のエラー コードがメッセージ本文に配置されます。 XML ファイル内の XML 構造は次のとおりです:

<return>
    <code>具体的错误码</code>
</return>

Specific コード値は次のとおりです: keyError: 権限の検証に失敗しました


keyError:权限验证失败
paramError:URL中传来的参数有误,比如,参数名称或值不正确

4、使用例 (Python 言語)

サンプル コード:

# -*- coding: utf-8 -*-
from urllib import request

url = &#39;http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名&#39;

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

次の Iこの API をテストします

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。