>백엔드 개발 >PHP 튜토리얼 >스누피(강력한 PHP 컬렉션 클래스) 상세 소개

스누피(강력한 PHP 컬렉션 클래스) 상세 소개

WBOY
WBOY원래의
2016-08-08 09:32:161796검색
스누피는 브라우저의 기능을 시뮬레이션하는 데 사용되는 PHP 클래스입니다. 웹 콘텐츠를 가져오고 양식을 보낼 수 있으며 일부 수집 프로그램 및 도둑 프로그램을 개발하는 데 사용할 수 있습니다. 이 기사에서는 스누피의 사용 튜토리얼을 소개합니다. 세부 사항. 스누피의 일부 기능:
  • 웹페이지의 콘텐츠 가져오기

  • 웹의 텍스트 콘텐츠 가져오기 페이지(HTML 태그 제거) fetchtext

  • 웹페이지 링크 캡처, fetchlink 양식 fetchform

  • 프록시 호스트 지원

  • 기본 사용자 이름/비밀번호 확인 지원

  • user_agent, 리퍼러(소스), 쿠키 및 헤더 콘텐츠(헤더 파일) 설정 지원

  • 브라우저 리디렉션 지원 및 리디렉션 깊이 제어 가능

  • 웹 페이지의 링크를 고품질 URL로 확장 가능(기본값)

  • 데이터를 제출하고 가져오기 반환 값

  • 추적 HTML 프레임워크 지원

  • 리디렉션 시 쿠키 전달 지원

  • PHP 필요 4 이상에서는 PHP 클래스이므로 지원을 확장할 필요가 없습니다. 서버가 컬을 지원하지 않는 경우 가장 좋은 선택은
    스누피 클래스입니다. 방법 및 예:
    fetch($URI)이것은 웹페이지의 콘텐츠를 크롤링하는 데 사용되는 방법입니다. $URI 매개변수는 크롤링된 웹페이지의 URL 주소입니다. 가져온 결과는 $this->results에 저장됩니다. 프레임을 스크래핑하는 경우 Snoopy는 각 프레임을 추적하여 배열에 저장한 다음 $this->result에 저장합니다.
    fetchtext($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지의 텍스트 콘텐츠만 반환됩니다.
    fetchform($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지에 있는 양식 내용(form)만 반환됩니다.
    fetchlinks($URI)이 방법은 fetch()와 유사하지만 유일한 차이점은 이 방법이 HTML 태그 및 기타 관련 없는 데이터를 제거한다는 것입니다. . 웹페이지의 링크만 반환됩니다. 기본적으로 상대 링크는 자동으로 완성되어 전체 URL로 변환됩니다.
    submit($URI,$formvars)$URL에 지정된 링크 주소로 확인 양식을 보내는 메소드입니다. $formvars는 양식 매개변수를 저장하는 배열입니다.
    submittext($URI,$formvars)이 방법은 submit()과 유사하지만 유일한 차이점은 이 방법이 HTML 태그를 제거하고 기타 관련 데이터는 없으며, 로그인 후 웹페이지의 텍스트 내용만 반환됩니다.
    submitlinks($URI)이 메소드는 submit()과 유사하지만 유일한 차이점은 이 메소드가 HTML 태그 및 기타 관련 없는 데이터를 제거하고 웹페이지의 링크만 반환한다는 것입니다. 기본적으로 상대 링크는 자동으로 완성되어 전체 URL로 변환됩니다. 스누피 컬렉션 클래스 속성: (기본값은 괄호 안에 있음)
    $host 연결된 호스트 $port 연결할 포트$proxy_host가 사용하는 프록시 호스트(있는 경우)$proxy_port $proxy_port가 사용하는 프록시 호스트 포트(있는 경우)$agent 사용자 에이전트 변장(Snoopy v0.1)$referer 소스 정보(있는 경우)$cookies 쿠키(있는 경우)$ rawheaders 기타 헤더 정보(있는 경우) $maxredirs 최대 리디렉션 수, 0=허용되지 않음(5)$offsiteok 오프사이트 리디렉션 허용 여부(true)$expandlinks 전체 주소에 대한 모든 링크를 완료할지 여부(true)$user 인증 사용자 이름(있는 경우)$pass 인증 사용자 이름(있는 경우)$ http 허용 유형(image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)$error 오류가 있는 경우 보고할 위치 $ response_code 서버에서 반환된 응답 코드$headers 서버에서 반환된 헤더 정보$maxlength 반환된 가장 긴 데이터 길이$ read_timeout 읽기 작업 시간 초과(PHP 필요) 4 Beta 4+) 시간 초과 없이 0으로 설정 $timed_out 읽기 작업 시간이 초과되면 이 속성은 true를 반환합니다(PHP 4 Beta 4+ 필요) $maxframes 추적이 허용되는 최대 프레임 수$status 캡처된 http 상태$temp_dir 웹 서버가 쓸 수 있는 임시 파일 디렉터리(/tmp) $curl_path cURL 바이너리 디렉터리, cURL 바이너리가 없으면 false로 설정
    다음은 예시입니다:
    include "Snoopy.class.php";
     $snoopy = new Snoopy;
      
     $snoopy->proxy_host = "http://www.9it.me";
     $snoopy->proxy_port = "80";
      
     $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";
     $snoopy->referer = "http://www.9it.me";
      
     $snoopy->cookies["SessionID"] = 238472834723489l;
     $snoopy->cookies["favoriteColor"] = "RED";
      
     $snoopy->rawheaders["Pragma"] = "no-cache";
      
     $snoopy->maxredirs = 2;
     $snoopy->offsiteok = false;
     $snoopy->expandlinks = false;
      
     $snoopy->user = "joe";
     $snoopy->pass = "bloe";
      
     if($snoopy->fetchtext("http://www.9it.me"))
     {
     echo "<PRE>".htmlspecialchars($snoopy->results)."
    \n"; } else echo "error fetching document: ".$snoopy->error."\n"; 지정된 URL의 콘텐츠 가져오기
    <?php
     $url = "http://www.9it.me";
     include("snoopy.php");
     $snoopy = new Snoopy;
     $snoopy->fetch($url); //获取所有内容
     echo $snoopy->results; //显示结果
     //可选以下
     $snoopy->fetchtext //获取文本内容(去掉html代码)
     $snoopy->fetchlinks //获取链接
     $snoopy->fetchform  //获取表单
     ?>
    表单提交
    <?php
    $formvars["username"] = "admin";
    $formvars["pwd"] = "admin";
    $action = "http://www.9it.me";//</a>表单提交地址
    $snoopy->submit($action,$formvars);//$formvars为提交的数组
    echo $snoopy->results; //获取表单提交后的 返回的结果
    //可选以下
    $snoopy->submittext; //提交后只返回 去除html的 文本
    $snoopy->submitlinks;//提交后只返回 链接
    ?>
    既然已经提交的表单 那就可以做很多事情 接下来我们来伪装ip,伪装浏览器

    伪装浏览器
    <?php
    $formvars["username"] = "lanfengye";
    $formvars["pwd"] = "lanfengye";
    $action = "http://www.9it.me";
    include "snoopy.php";
    $snoopy = new Snoopy;
    $snoopy->cookies["PHPSESSID"] = 'fc106b1918bd522cc863f36890e6fff7'; //伪装sessionid
    $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器
    $snoopy->referer = "http://www.9it.me"; //伪装来源页地址 http_referer
    $snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息
    $snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip
    $snoopy->submit($action,$formvars);
    echo $snoopy->results;
    ?>
    原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。例如 带验证码,验证ip 投票, 可以不停的投。ps:这里伪装ip ,其实是伪装http头, 所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。关于如何验证码 ,简单说下:首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,同时记下sessionid和验证码值,接下来就用snoopy去伪造 。原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。
    有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
    <?php
    $snoopy->proxy_host = "http://www.9it.me";
    $snoopy->proxy_port = "8080"; //使用代理
    $snoopy->maxredirs = 2; //重定向次数
    $snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
    // 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="http://www.9it.me/images/taoav.gif">http://www.9it.me/images/taoav.gif</a>
    $snoopy->maxframes = 5 //允许的最大框架数
    //注意抓取框架的时候 $snoopy->results 返回的是一个数组
    $snoopy->error //返回报错信息
    ?>

    以上就介绍了snoopy(强大的PHP采集类) 详细介绍,包括了方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

    성명:
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.