検索
ホームページバックエンド開発PHPチュートリアルPHPコレクションクラススヌーピーのサンプル紹介

Snoopy は、Web ブラウザーの機能を模倣するために使用される php クラスで、Web コンテンツの取得とフォームの送信のタスクを完了できます。公式ウェブサイト http://snoopy.sourceforge.net/

スヌーピーのいくつかの機能:

  • Web ページのコンテンツを取得する fetch()

  • Web ページのテキスト コンテンツをキャプチャする (HTML タグを削除する) fetchtext()

  • Web リンクのキャッチ、fetchlinks() のフォーム fetchform()

  • プロキシ ホストのサポート

  • 基本的なユーザー名/パスワード検証のサポート

  • user_agent、リファラー (ソース)、Cookie の設定のサポートヘッダーコンテンツ (ヘッダーファイル)

  • ブラウザのリダイレクトをサポートし、リダイレクトの深さを制御できます

  • Webページ内のリンクを高品質のURLに拡張できます(デフォルト)

  • データを送信して戻り値を取得します

  • トラッキングHTMLフレームワークをサポート

  • リダイレクト時のCookieの受け渡しをサポート

php4以降が必要です。 PHP クラスであるため、サポートを拡張する必要はありません。サーバーがcurlをサポートしていない場合に最適です。

クラスメソッド

1. fetch($uri)

これは、Webページのコンテンツを取得するために使用されるメソッドです。 $URI パラメータは、クロールされた Web ページの URL アドレスです。取得した結果は $this->results に保存されます。

フレームをスクレイピングしている場合、スヌーピーは各フレームを追跡して配列に保存し、$this->results に保存します。

  1. <?php  
    $url = "http://www.nowamagic.net/librarys/veda/";  
    include("./Snoopy.class.php");  
    $snoopy = new Snoopy;  
    $snoopy->fetch($url);        //获取所有内容
    echo $snoopy->results;       //显示结果
    ?>

2. fetchtext($URI)

このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web 内のテキスト コンテンツのみを返すことです。ページ。

  1. <?php  
    $url = "http://www.nowamagic.net/librarys/veda/";  
    include("./Snoopy.class.php");  
    $snoopy = new Snoopy;  
    $snoopy->fetchtext($url);        //获取文本内容
    echo $snoopy->results;       //显示结果
    ?>

3. fetchform($URI)

このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドは HTML タグとその他の無関係なデータを削除し、フォームのコンテンツ (form) のみを返すことです。ウェブページで。

4. fetchlinks($URI)

このメソッドは fetch() に似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web ページ内のリンクのみを返すことです。デフォルトでは、相対リンクは自動的に完成され、完全な URL に変換されます。

5. submit($URI,$formvars)

このメソッドは、$URL で指定されたリンク アドレスに確認フォームを送信します。 $formvars はフォームパラメータを格納する配列です。

6. submittext($URI,$formvars)

このメソッドは submit() と似ていますが、唯一の違いは、このメソッドは HTML タグとその他の無関係なデータを削除し、その後 Web ページ内のテキスト コンテンツのみを返すことです。ログイン。

7. submitlinks($URI)

このメソッドは submit() と似ていますが、唯一の違いは、このメソッドが HTML タグとその他の無関係なデータを削除し、Web ページ内のリンクのみを返すことです。デフォルトでは、相対リンクは自動的に完成され、完全な URL に変換されます。

クラス属性 (デフォルト値は括弧内)

  • $host 接続するホスト

  • $port 接続するポート

  • $proxy_host 使用するプロキシホスト (存在する場合)

  • $ proxy_port 使用されるプロキシ ホスト ポート (存在する場合)

  • $agent ユーザー エージェント カモフラージュ (Snoopy v0.1)

  • $リファラー ソース情報 (存在する場合)

  • $cookies クッキー (存在する場合) If

  • $rawheaders 他のヘッダー情報 (存在する場合)

  • $maxredirs リダイレクトの最大数、0=許可されない (5)

  • $offsiteok オフサイトへのリダイレクトを許可するかどうか (true)

  • $expandlinks 完全なアドレスへのすべてのリンクを完了するかどうか (true)

  • $user 認証ユーザー名 (存在する場合)

  • $pass 認証ユーザー名 (存在する場合)

  • $accept http accept type ( image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)

  • $error エラーがある場合、どこに報告するか

  • $ response_code サーバーから返された応答コード

  • $headers サーバーから返されるヘッダー情報

  • $maxlength 返されるデータの最大長

  • $read_timeout 読み取り操作のタイムアウト (PHP 4 Beta 4+ が必要)、設定 0 はタイムアウトなしを意味します

  • $timed_out読み取り操作がタイムアウトすると、この属性は true を返します (PHP 4 Beta 4+ が必要)

  • $maxframes 追跡できるフレームの最大数

  • $status Catch http ステータスを取得します

  • $temp_dir Web サーバーが書き込むことができる一時ファイル ディレクトリ (/tmp)

  • $curl_path cURL バイナリ ディレクトリ。cURL バイナリがない場合は false に設定します

Demo

  1. include "Snoopy.class.php";  
    $snoopy = new Snoopy;  
    $snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";  
    $snoopy->proxy_port = "80";  
    $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";  
    $snoopy->referer = "http://www.4wei.cn";  
    $snoopy->cookies["SessionID"] = 238472834723489l;  
    $snoopy->cookies["favoriteColor"] = "RED";  
    $snoopy->rawheaders["Pragma"] = "no-cache";  
    $snoopy->maxredirs = 2;  
    $snoopy->offsiteok = false;  
    $snoopy->expandlinks = false;  
    $snoopy->user = "joe";  
    $snoopy->pass = "bloe";  
    if($snoopy->fetchtext("http://www.4wei.cn"))  
    {  
    echo "<PRE>".htmlspecialchars($snoopy->results)."
    n";   }   else echo "error fetching document: ".$snoopy->error."n";

指定された URL コンテンツ:

  1. <?  
    $url = "http://www.nowamagic.net/librarys/veda/";  
    include("snoopy.php");  
    $snoopy = new Snoopy;  
    $snoopy->fetch($url); //获取所有内容
    echo $snoopy->results; //显示结果
    //可选以下
    //$snoopy->fetchtext //获取文本内容(去掉html代码)
    //$snoopy->fetchlinks //获取链接
    //$snoopy->fetchform  //获取表单
    ?>

フォームの送信:

  1. <?php  
    $formvars["username"] = "admin";  
    $formvars["pwd"] = "admin";  
    $action = "http://www.nowamagic.net/librarys/veda/";//表单提交地址  
    $snoopy->submit($action,$formvars);//$formvars为提交的数组
    echo $snoopy->results; //获取表单提交后的 返回的结果
    //可选以下
    $snoopy->submittext; //提交后只返回 去除html的 文本
    $snoopy->submitlinks;//提交后只返回 链接
    ?>

フォームが送信されたので、さまざまなことができるようになります。次に、IP とブラウザを偽装しましょう:

  1. <?php  
    $formvars["username"] = "admin";  
    $formvars["pwd"] = "admin";  
    $action = "http://www.4wei.cn";  
    include "snoopy.php";  
    $snoopy = new Snoopy;  
    $snoopy->cookies["PHPSESSID"] = &#39;fc106b1918bd522cc863f36890e6fff7&#39;; //伪装sessionid
    $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)"; //伪装浏览器
    $snoopy->referer = http://www.4wei.cn; //伪装来源页地址 http_referer
    $snoopy->rawheaders["Pragma"] = "no-cache"; //cache 的http头信息
    $snoopy->rawheaders["X_FORWARDED_FOR"] = "127.0.0.101"; //伪装ip
    $snoopy->submit($action,$formvars);  
    echo $snoopy->results;
  2. ?>

原来我们可以伪装session 伪装浏览器 ,伪装ip, haha 可以做很多事情了。例如 带验证码,验证ip 投票, 可以不停的投。

ps:这里伪装ip ,其实是伪装http头,所以一般的通过 REMOTE_ADDR 获取的ip是伪装不了,反而那些通过http头来获取ip的(可以防止代理的那种) 就可以自己来制造ip。

关于如何验证码 ,简单说下:首先用普通的浏览器, 查看页面 , 找到验证码所对应的sessionid,同时记下sessionid和验证码值,接下来就用snoopy去伪造 。

原理:由于是同一个sessionid 所以取得的验证码和第一次输入的是一样的。

有时我们可能需要伪造更多的东西,snoopy完全为我们想到了:

  1. <?php  
    $snoopy->proxy_host = "http://www.nowamagic.net/librarys/veda/";  
    $snoopy->proxy_port = "8080"; //使用代理
    $snoopy->maxredirs = 2; //重定向次数
    $snoopy->expandlinks = true; //是否补全链接 在采集的时候经常用到
    // 例如链接为 /images/taoav.gif 可改为它的全链接 <a href="http://www.4wei.cn/images/taoav.gif">http://www.4wei.cn/images/taoav.gif</a>
    $snoopy->maxframes = 5 //允许的最大框架数
    //注意抓取框架的时候 $snoopy->results 返回的是一个数组
    $snoopy->error //返回报错信息
    ?>

比较完整的示例:

  1. /**
    * You need the snoopy.class.php from 
    * http://snoopy.sourceforge.net/
    */
    include("snoopy.class.php");  
    $snoopy = new Snoopy;  
    // need an proxy?:
    //$snoopy->proxy_host = "my.proxy.host";
    //$snoopy->proxy_port = "8080";
    // set browser and referer:
    $snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";  
    $snoopy->referer = "http://www.jonasjohn.de/";  
    // set some cookies:
    $snoopy->cookies["SessionID"] = &#39;238472834723489&#39;;  
    $snoopy->cookies["favoriteColor"] = "blue";  
    // set an raw-header:
    $snoopy->rawheaders["Pragma"] = "no-cache";  
    // set some internal variables:
    $snoopy->maxredirs = 2;  
    $snoopy->offsiteok = false;  
    $snoopy->expandlinks = false;  
    // set username and password (optional)
    //$snoopy->user = "joe";
    //$snoopy->pass = "bloe";
    // fetch the text of the website www.google.com:
    if($snoopy->fetchtext("http://www.google.com")){   
        // other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
        // response code:
        print "response code: ".$snoopy->response_code."<br/>n";  
        // print the headers:
        print "<b>Headers:</b><br/>";  
        while(list($key,$val) = each($snoopy->headers)){  
            print $key.": ".$val."<br/>n";  
        }  
        print "<br/>n";  
        // print the texts of the website:
        print htmlspecialchars($snoopy->results)."n";  
    }  
    else {  
        print "Snoopy: error while fetching document: ".$snoopy->error."n";  
    }

用Snoopy类完成一个简单的图片采集:

  1. <meta http-equiv=&#39;content-type&#39; content=&#39;text/html;charset=utf-8&#39;>  
    <?php      
    include &#39;Snoopy.class.php&#39;;   //加载Snoopy类     
    $snoopy = new Snoopy();       //实例化一个对象
    $sourceURL = "http://www.nowamagic.net/librarys/veda/";    //要抓取的网页  
    $snoopy->fetchlinks($sourceURL);        //获得网页的链接
    $a = $snoopy->results;     //得到网页链接的结果
    $re = "/d+.html$/";     //匹配的正则
    //过滤获取指定的文件地址请求  
    foreach ($a as $tmp) {   
        if (preg_match($re, $tmp)) {  
            $aa=$tmp;          
        }      
    }    
    getImgURL($aa);  
    function getImgURL($siteName)   
    {          
        $snoopy = new Snoopy();          
        $snoopy->fetch($siteName);                  
        $fileContent = $snoopy->results;    //获取过滤后的页面的内容            
        //匹配图片的正则表达式        
        $reTag = "/<img  src="/static/imghwm/default1.png"  data-src="(http://[^"  class="lazy" [^s]+]+).(jpg|png|gif|jpeg)"[^/]*/ alt="PHPコレクションクラススヌーピーのサンプル紹介" >/i";                
        if (preg_match($reTag, $fileContent)) {    
            //过滤图片
            $ret = preg_match_all($reTag, $fileContent, $matchResult);                       
            for ($i = 0, $len = count($matchResult[1]); $i < $len; ++$i)   
            {        
                saveImgURL($matchResult[1][$i], $matchResult[2][$i]);              
            }          
        }      
    }          
    function saveImgURL($name, $suffix) {   
        $url = $name.".".$suffix;                  
        echo "请求的图片地址:".$url."<br/>";                  
        $imgSavePath = "E:/123/images/";  //图片保存地址      
        $imgId =mt_rand(); //产生一个随机的文件名
        if ($suffix == "gif") {   
            //根据图片类型,放入不同的文件夹下面           
            $imgSavePath .= "emotion";          
        }   
        else
        {              
            $imgSavePath .= "topic";          
        }          
        $imgSavePath .= ("/".$imgId.".".$suffix);  //组装要保存的文件名
        if (is_file($imgSavePath)) {     
            //判断文件名是否存在,存在则删除         
            unlink($imgSavePath);              
            echo "<p style=&#39;color:#f00;&#39;>文件".$imgSavePath."已存在,将被删除</p>";          
        }    
        $imgFile = file_get_contents($url); //读取网络文件     
        $flag = file_put_contents($imgSavePath,$imgFile);   //写入到本地 
        if ($flag) {              
            echo "<p>文件".$imgSavePath."保存成功</p>";          
        }      
    }  
    ?>

相关推荐:

php使用snoopy与curl模拟登陆的实例分享

php数据抓取类Snoopy使用

snoopy(强大的PHP采集类) 详细介绍

以上がPHPコレクションクラススヌーピーのサンプル紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
負荷分散がセッション管理にどのように影響し、それに対処するかを説明します。負荷分散がセッション管理にどのように影響し、それに対処するかを説明します。Apr 29, 2025 am 12:42 AM

負荷分散はセッション管理に影響しますが、セッションの複製、セッションの粘着性、集中セッションストレージで解決できます。 1。セッションレプリケーションサーバー間のセッションデータをコピーします。 2。セッションスティンネスは、ユーザーリクエストを同じサーバーに指示します。 3.集中セッションストレージは、Redisなどの独立したサーバーを使用してセッションデータを保存してデータ共有を確保します。

セッションロックの概念を説明します。セッションロックの概念を説明します。Apr 29, 2025 am 12:39 AM

SESSIONLOCKINGISATECHNIQUESTOESUREAUSER'SSESSIONREMAINSEXCLUSIVETOONEUSATIME.ITISCRUCIALFORPREVENTINGDATACORTIONANDSECURITYBREACHESINMULTI-USERAPPLICATIONS.SESSIONLOCKINGISISIMPLEMENTEDUSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGSINGROCKINGSMECHANISMなど

PHPセッションの選択肢はありますか?PHPセッションの選択肢はありますか?Apr 29, 2025 am 12:36 AM

PHPセッションの代替品には、Cookie、トークンベースの認証、データベースベースのセッション、Redis/Memcachedが含まれます。 1.Cookiesは、クライアントにデータを保存することによりセッションを管理します。 2.トークンベースの認証はトークンを使用してユーザーを検証します。これは非常に安全ですが、追加のロジックが必要です。 3.Databaseベースのセッションは、データベースにデータを保存します。これは、スケーラビリティが良好ですが、パフォーマンスに影響を与える可能性があります。 4. Redis/Memcachedは分散キャッシュを使用してパフォーマンスとスケーラビリティを向上させますが、追加のマッチングが必要です

PHPのコンテキストで「セッションハイジャック」という用語を定義します。PHPのコンテキストで「セッションハイジャック」という用語を定義します。Apr 29, 2025 am 12:33 AM

SessionHijackingとは、ユーザーのSessionIDを取得してユーザーになりすましている攻撃者を指します。予防方法には、次のものが含まれます。1)HTTPSを使用した通信の暗号化。 2)SessionIDのソースの検証。 3)安全なSessionID生成アルゴリズムの使用。 4)SessionIDを定期的に更新します。

PHPの完全な形式は何ですか?PHPの完全な形式は何ですか?Apr 28, 2025 pm 04:58 PM

この記事では、PHPについて説明し、その完全なフォーム、Web開発での主要な使用、PythonとJavaとの比較、および初心者の学習のしやすさについて説明します。

PHPはフォームデータをどのように処理しますか?PHPはフォームデータをどのように処理しますか?Apr 28, 2025 pm 04:57 PM

PHPは、$ \ _ postおよび$ \ _を使用してフォームデータを処理し、検証、消毒、安全なデータベースインタラクションを通じてセキュリティを確保します。

PHPとASP.NETの違いは何ですか?PHPとASP.NETの違いは何ですか?Apr 28, 2025 pm 04:56 PM

この記事では、PHPとASP.NETを比較して、大規模なWebアプリケーション、パフォーマンスの違い、セキュリティ機能への適合性に焦点を当てています。どちらも大規模なプロジェクトでは実行可能ですが、PHPはオープンソースであり、プラットフォームに依存しませんが、ASP.NET、

PHPはケースに敏感な言語ですか?PHPはケースに敏感な言語ですか?Apr 28, 2025 pm 04:55 PM

PHPの症例感度は変化します:関数は鈍感であり、変数とクラスは感度があります。ベストプラクティスには、一貫した命名と、比較のためにケース非感受性関数を使用することが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター