>  기사  >  백엔드 개발  >  PHP 컬렉션 클래스 Snoopy.class.php

PHP 컬렉션 클래스 Snoopy.class.php

WBOY
WBOY원래의
2016-07-25 09:13:301013검색
Snoopy는 브라우저를 시뮬레이션하여 웹 콘텐츠를 얻고 양식을 보내는 데 사용되는 PHP 컬렉션 클래스입니다.

스누피 기능은 다음과 같습니다.

손쉬운 웹 콘텐츠 크롤링

쉽게 페이지 텍스트 가져오기(html 태그 제거)

웹 페이지 내에서 쉽게 링크를 얻을 수 있습니다

프록시 크롤링 지원

기본 사용자 이름 및 비밀번호 인증 지원

사용자 에이전트, 리퍼러, 쿠키 및 헤더 콘텐츠 설정 지원

브라우저 조정 지원 및 조정 깊이 제어

페이지의 링크를 고품질 링크로 변환할 수 있습니다

간편한 데이터 제출 및 반환 값

HTML 프레임 추적 가능

리디렉션 시 쿠키 전달 지원

스누피 클래스, 메소드:

가져오기($URI)

웹페이지 콘텐츠를 크롤링하는 데 사용되는 방법입니다. $URI 매개변수는 크롤링된 웹페이지의 URL 주소입니다. 가져온 결과는 $this->results에 저장됩니다. 프레임을 스크랩하는 경우 스누피는 각 프레임을 추적하여 배열에 저장한 다음 $this->results에 저장합니다.

fetchtext($URI)

이 메서드는 fetch()와 유사하지만 HTML 태그와 기타 관련 없는 데이터를 제거하고 웹페이지의 텍스트 콘텐츠만 반환한다는 점만 다릅니다.

fetchform($URI)

이 메소드는 fetch()와 유사하지만 HTML 태그 및 기타 관련 없는 데이터를 제거하고 웹페이지의 양식 내용(form)만 반환한다는 점만 다릅니다.

가져오기 링크($URI)

이 방법은 fetch()와 유사하지만 HTML 태그와 기타 관련 없는 데이터를 제거하고 웹페이지의 링크만 반환한다는 점만 다릅니다. 기본적으로 상대 링크는 자동으로 완성되고 전체 URL로 변환됩니다.

제출($URI,$formvars)

$URL에 지정된 링크 주소로 확인 양식을 보내는 방법입니다. $formvars는 양식 매개변수를 저장하는 배열입니다.

텍스트 제출($URI,$formvars)

이 메소드는 submit()과 유사하지만 HTML 태그와 기타 관련 없는 데이터를 제거하고 로그인 후에 웹페이지의 텍스트 콘텐츠만 반환한다는 점만 다릅니다.

링크 제출($URI)

이 메소드는 submit()과 유사하지만 HTML 태그와 기타 관련 없는 데이터를 제거하고 웹페이지의 링크만 반환한다는 점만 다릅니다. 기본적으로 상대 링크는 자동으로 완성되고 전체 URL로 변환됩니다.

클래스 속성: (기본값은 괄호 안에 있음)

$host 연결된 호스트

$port
에 연결할 포트입니다.
$proxy_host 사용할 프록시 호스트(있는 경우)

$proxy_port 사용할 프록시 호스트 포트(있는 경우)

$agent 사용자 에이전트 변장(Snoopy v0.1)

$referer 소스 정보(가능한 경우)

$쿠키(있는 경우)

$rawheaders 기타 헤더 정보(있는 경우)

$maxredirs 최대 리디렉션 수, 0=허용되지 않음(5)

$offsiteok 오프사이트 리디렉션 허용 여부(true)

$expandlinks 전체 주소에 대한 모든 링크를 완료할지 여부(true)

$user 인증 사용자 이름(가능한 경우)

$pass 인증 사용자 이름(가능한 경우)

$accept http 허용 유형(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)

$error 오류가 있는 경우 보고할 위치

$response_code 서버에서 반환된 응답 코드

$headers 서버에서 반환된 헤더 정보

$maxlength 반환되는 가장 긴 데이터 길이

$read_timeout 읽기 작업 시간 초과(PHP 4 베타 4 필요) 시간 초과가 없는 경우 0으로 설정

$timed_out 읽기 작업 시간이 초과되면 이 속성은 true를 반환합니다(PHP 4 베타 4 필요)

$maxframes 추적이 허용되는 최대 프레임 수

$status 캡처된 http의 상태

$temp_dir 웹 서버가 쓸 수 있는 임시 파일 디렉터리(/tmp)

$curl_path cURL 바이너리 디렉터리, cURL 바이너리가 없으면 false로 설정

스누피 공식 홈페이지: http://sourceforge.net/projects/snoopy/

이 기사가 대다수의 PHP 개발자에게 도움이 되기를 바랍니다. 이 기사를 읽어주셔서 감사합니다. 더 많은 php 기술 문제에 대해 토론하려면 그룹에 가입하세요: 256271784, 인증 코드: cxy. 인증을 작성하지 않으면 인증을 받을 수 없습니다. 합격~


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.