집 >백엔드 개발 >파이썬 튜토리얼 >Python 인스턴트 웹 크롤러: API 설명

Python 인스턴트 웹 크롤러: API 설명

高洛峰원래의: 2016-11-22 16:24:151548검색

API 설명 - gsExtractor 콘텐츠 추출기 다운로드

1, 인터페이스 이름

콘텐츠 추출기 다운로드

2, 인터페이스 설명

원하는 경우 웹 크롤러 프로그램을 작성하려면 대부분의 시간이 웹 콘텐츠 추출 규칙을 디버깅하는 데 소비된다는 것을 알게 될 것입니다. 정규식 구문이 얼마나 이상한지는 말할 것도 없고, XPath를 사용하더라도 하나씩 작성하고 디버깅해야 합니다. 하나.

웹 페이지에서 많은 필드를 추출하려는 경우 XPath를 하나씩 디버깅하는 데 시간이 많이 걸립니다. 이 인터페이스를 통해 표준 XSLT 프로그램인 디버깅된 추출기 스크립트 프로그램을 직접 얻을 수 있으며, 모든 필드를 한 번에 얻을 수 있는 XML 형식의 결과를 얻으려면 대상 웹 페이지의 DOM에 대해 실행하기만 하면 됩니다.

이 XSLT 추출기는 MS 소프트웨어를 사용하여 생성할 수도 있고, 읽기 권한이 있는 한 다른 사람과 공유할 수도 있습니다.

데이터 분석 및 데이터 마이닝에 사용되는 웹 크롤러 프로그램에서 콘텐츠 추출기는 보편성에 대한 주요 장애물입니다. 이 추출기를 API에서 얻으면 웹 크롤러 프로그램을 범용 프레임으로 작성할 수 있습니다.

3, 인터페이스 사양

3.1, 인터페이스 주소(URL)

http://www.gooseeeker.com/api/getextractor

3.2, 요청 유형(contentType)

제한 없음

3.3, 요청 방법

HTTP GET

3.4, 요청 매개변수

key 필수: 예; 유형: 문자열; 설명: AppKey

API 신청 시 지정되는 테마 필수: 예; 유형: 문자열 설명: 추출기 이름은

middle 필수: 아니요; 유형: 문자열; 설명: 규칙 번호. 동일한 규칙 이름으로 여러 규칙이 정의된 경우

bname 필수: 아니요; 유형: 문자열; 규칙에는 여러 정렬 상자가 포함되어 있습니다.

3.5, 반환 유형(contentType)

text/xml; charset=UTF-8

3.6, 반환 매개변수

HTTP 메시지 헤더의 매개변수는 다음과 같습니다.

more-extractor 유형: 문자열; 설명: 동일한 규칙 이름 아래에 추출기가 몇 개 있습니다. 일반적으로 클라이언트에게 여러 규칙과 정렬 상자가 있음을 상기시키기 위해 선택적 매개변수가 채워지지 않은 경우에만 이 매개변수에 주의하면 됩니다.

3.7 , 오류 정보 반환

메시지 계층 오류는 HTTP 400으로 반환됩니다. 예를 들어 URL의 매개변수는 이 사양을 준수하지 않습니다

응용 프로그램 계층 오류는 HTTP 200으로 반환됩니다. 특정 오류 코드는 XML 파일에 있습니다. 메시지 본문의 XML 구조는 다음과 같습니다.

<return>
    <code>具体的错误码</code>
</return>

특정 코드 값은 다음과 같습니다. keyError: 권한 확인 실패

keyError：权限验证失败
paramError：URL中传来的参数有误，比如，参数名称或值不正确

4, 사용예(파이썬 언어)

샘플 코드:

# -*- coding: utf-8 -*-
from urllib import request

url = &#39;http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名&#39;

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

다음에 이 API를 테스트하겠습니다

성명：

이전 기사：Python 인스턴트 웹 크롤러 프로젝트: 콘텐츠 추출기 정의다음 기사：Python 인스턴트 웹 크롤러 프로젝트: 콘텐츠 추출기 정의

Python 인스턴트 웹 크롤러: API 설명

관련 기사