ホームページ >バックエンド開発 >PHPチュートリアル >PHP泥棒プログラムのサンプルコード_PHPチュートリアル

PHP泥棒プログラムのサンプルコード_PHPチュートリアル

WBOY
WBOYオリジナル
2016-07-20 11:11:441112ブラウズ

実際には、泥棒プログラムは php の特定の機能を使用して他の人の Web サイトのコンテンツを収集し、定期的な分析を通じて必要なコンテンツを自分のローカル データベースに保存します。 ここで、必要に応じて php 泥棒プログラムの実装方法を紹介します。友人はそれを参照できます。

file_get_contents 関数は、以下のデータ収集プロセスの鍵です

string file_get_contents ( string $filename [, bool $use_include_path = false [, resource $context [, int $offset = - 1 [ , int $maxlen ]]]] )
file_get_contents() がファイルを文字列に読み取る点を除いて、 file() と同じです。長さ maxlen の内容は、offset パラメーターで指定された位置から読み取られます。失敗すると、file_get_contents() は FALSE を返します。

file_get_contents() 関数は、ファイルの内容を文字列に読み取るための推奨される方法です。オペレーティング システムがメモリ マッピング テクノロジをサポートしている場合は、パフォーマンスを向上させるためにメモリ マッピング テクノロジも使用されます。

コードは次のとおりです コードをコピー

$homepage = file_get_contents('http://www.hzhuti.com/');
echo $homepage;
?> ;

このように、$homepage は保存されたコレクション ネットワークのコンテンツです。

コードは次のとおりです コードをコピー

function fetch_urlpage_contents($url){
$c=file_get_contents($url);
return $c;
}
/ /一致するコンテンツを取得します
function fetch_match_contents($begin,$end,$c)
{
$begin=change_match_string($begin);
$end=change_match_string($end);
$p = "{$begin }(. *){$end}";
if(eregi($p,$c,$rs))
{
return $rs[1];}
else { return "";}
}//エスケープ正規表現 数式文字列
function change_match_string($str){
//以下は単なるエスケープであることに注意してください
//$old=array("/","$");
//$new=array(" /", "$");
$str=str_replace($old,$new,$str);
return $str;
}

//ウェブページを収集
function pick($url,$ft,$th )
{
$c=fetch_urlpage_contents($url);
foreach($ft as $key => $value)
{
$rs[$key]=fetch_match_contents($value["begin"],$value[ "end"] ,$c);
if(is_array($th[$key]))
{ foreach($th[$key] as $old => $new)
{
$rs[$key] =str_replace($old,$new,$rs[$key]);
}
}
}
return $rs;
}

$url="http://www.bkjia.com";収集するアドレス
$ft["title"]["begin"]=""; //傍受の開始点<br>$ft["title"]["end"]="</title> ;"; // 傍受の終了点<br />$th["title"]["中山"]="広東省"; // 傍受された部分の置換</p><p>$ft["body"]["begin"] ="<body>"; //インターセプトの開始点<br>$ft["body"]["end"]="</body>" //インターセプトの終了点<br>$th["body"; ["中山"]="広東省 "; //傍受された部分を置き換えます</p> <p>$rs=pick($url,$ft,$th) //収集を開始します</p> <p>echo $rs["title"];<br>echo $rs["body"] // 出力 <br>?></p> </td> </tr> </table> <p>次のコードは前のページから変更されており、Web ページ上のすべてのハイパーリンク、電子メール、またはその他の特定のコンテンツを抽出するために特に使用されます</p> <table width="620" align="center" border="0" cellpadding="1" cellspacing="1" style="background:#FB7"> <tr> <td width="464" height="27" bgcolor="#FFE7CE">コードは次のとおりです</td> <td width="109" align="center" bgcolor="#FFE7CE" style="cursor:pointer;" onclick="doCopy('copy9416')">コードをコピーします</td> </tr> <tr> <td height="auto" colspan="2" valign="top" bgcolor="#FFFFFF" style="padding:10px;" class="copyclass" id="copy9416"> <p><?php</p> <p>function fetch_urlpage_contents($url ){<br />$c=file_get_contents($url);<br />return $c;<br />}<br />//一致するコンテンツを取得<br />function fetch_match_contents($begin,$end,$c)<br />{<br />$begin= change_match_string($begin); <br />$end=change_match_string($end);<br />$p = "#{$begin}(.*){$end}#iU";//i は大文字小文字を無視することを意味し、U は貪欲な一致を禁止します<br /> if(preg_match_all($ p,$c,$rs))<br />{<br />return $rs;}<br />else { return "";}<br />}//エスケープ正規表現 string<br />function change_match_string($str){<br />//メモ, 以下の Just simple エスケープ<br />$old=array("/","$",'?');<br />$new=array("/","$",'?');<br />$str=str_replace( $old ,$new,$str);<br />return $str;<br />}</p><p>//ウェブページを収集<br />function pick($url,$ft,$th)<br />{<br />$c=fetch_urlpage_contents($url);<br /> foreach($ ft as $key => $value)<br>{<br>$rs[$key]=fetch_match_contents($value["begin"],$value["end"],$c);<br>if(is_array( $th[ $key]))<br>{ foreach($th[$key] as $old => $new)<br>{<br>$rs[$key]=str_replace($old,$new,$rs[$key] ]); <br>}<br>}<br>}<br>return $rs;<br>}</p> <p>$url="http://www.bkjia.com" //収集されるアドレス<br>$ft["a"][" begin"]= '<a'; //インターセプトの開始点<br /><br />$ft["a"]["end"]='>'; //インターセプトの終了点</p><p>$rs =pick( $url,$ft,$th); // 収集を開始します </p><p>print_r($rs["a"]);</p><p>?></p> </td> </tr> </table> <p><strong>ヒント</strong>file_get_contents の収集を防ぐのは非常に簡単ですこれは、上記よりもはるかに高度ですが、curl() は非常に効率的であり、マルチスレッドをサポートします。次のcurl拡張機能を有効にする必要があります。以下は、curl 拡張機能を有効にする手順です。 </p> <p> 1. PHP フォルダー内の 3 つのファイル php_curl.dll、libay32.dll、ssleay32.dll を system32 にコピーします。 </p> <p> 2. php.ini (c:WINDOWS ディレクトリ) をコピーします。以下) ;extension=php_curl.dll;のセミコロンを削除します</p> <p>3. Apache または IIS を再起動します。 </p> <p>偽のReferer関数とUser_Agent関数を備えたシンプルなページキャプチャ関数</p> <table width="620" align="center" border="0" cellpadding="1" cellspacing="1" style="background:#FB7"> <tr> <td width="464" height="27" bgcolor="#FFE7CE">コードは次のとおりです</td> <td width="109" align="center" bgcolor="#FFE7CE" style="cursor:pointer;" onclick="doCopy('copy9373')">コードをコピーします</td> </tr> <tr> <td height="auto" colspan="2" valign="top" bgcolor="#FFFFFF" style="padding:10px;" class="copyclass" id="copy9373"> <p><?php<br />function GetSources($Url,$User_Agent='',$ Referer_Url= '') //指定したページをキャッチします<br />{<br />//$Url クロールするページのアドレス<br />//$User_Agent "baiduspider" や "googlebot" などの返される user_agent 情報<br />$ch =curl_init( ) ;<br />curl_setopt ($ch, CURLOPT_URL, $Url);<br />curl_setopt ($ch, CURLOPT_USERAGENT, $User_Agent);<br />curl_setopt ($ch, CURLOPT_REFERER, $Referer_Url);<br />curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);<br />$MySources =curl_exec ($ch);<br />curl_close($ch);<br />return $MySources;<br />}<br />$Url = "http://www.bkjia.com"; / /コンテンツを取得する必要はありません<br />$User_Agent = "baiduspider+(+http://www.baidu.com/search/spider.htm)";<br />$Referer_Url = 'http://www.jb51.net/ '; <br />echo GetSources($Url,$User_Agent,$Referer_Url);<br />?><br></p> </td> </tr> </table> <br> <p align="left"></p> <div style="display:none;">http://www.bkjia.com/PHPjc/444620.html<span id="url" itemprop="url"></span>www.bkjia.com<span id="indexUrl" itemprop="indexUrl"></span>tru​​e<span id="isOriginal" itemprop="isOriginal"></span>http://www.bkjia.com/PHPjc/444620.html<span id="isBasedOnUrl" itemprop="isBasedOnUrl"></span>技術記事<span id="genre" itemprop="genre"></span>この泥棒プログラムは、実際には php の特定の関数を使用して他の人の Web サイトのコンテンツを収集し、定期的な分析を通じて必要なコンテンツを独自のローカル データベースに保存します。 <span id="description" itemprop="description"></span> </div></div><div class="nphpQianMsg"><div class="clear"></div></div><div class="nphpQianSheng"><span>声明:</span><div>この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。</div></div></div><div class="nphpSytBox"><span>前の記事:<a class="dBlack" title="PHP の CURL はシミュレートされたログインを実装し、データを収集します_PHP チュートリアル" href="https://m.php.cn/ja/faq/305912.html">PHP の CURL はシミュレートされたログインを実装し、データを収集します_PHP チュートリアル</a></span><span>次の記事:<a class="dBlack" title="PHP の CURL はシミュレートされたログインを実装し、データを収集します_PHP チュートリアル" href="https://m.php.cn/ja/faq/305914.html">PHP の CURL はシミュレートされたログインを実装し、データを収集します_PHP チュートリアル</a></span></div><div class="nphpSytBox2"><div class="nphpZbktTitle"><h2>関連記事</h2><em><a href="https://m.php.cn/ja/article.html" class="bBlack"><i>続きを見る</i><b></b></a></em><div class="clear"></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="fluid" data-ad-layout-key="-6t+ed+2i-1n-4w" data-ad-client="ca-pub-5902227090019525" data-ad-slot="8966999616"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><ul class="nphpXgwzList"><li><b></b><a href="https://m.php.cn/ja/faq/1.html" title="cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法" class="aBlack">cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/1.html" title="cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法" class="aBlack">cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/1.html" title="cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法" class="aBlack">cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/1.html" title="cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法" class="aBlack">cURL を使用して PHP で Get リクエストと Post リクエストを実装する方法</a><div class="clear"></div></li><li><b></b><a href="https://m.php.cn/ja/faq/2.html" title="正規表現内のすべての式記号 (概要)" class="aBlack">正規表現内のすべての式記号 (概要)</a><div class="clear"></div></li></ul></div></div><ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-5902227090019525" data-ad-slot="5027754603"></ins><script> (adsbygoogle = window.adsbygoogle || []).push({}); </script><footer><div class="footer"><div class="footertop"><img src="/static/imghwm/logo.png" alt=""><p>福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!</p></div><div class="footermid"><a href="https://m.php.cn/ja/about/us.html">私たちについて</a><a href="https://m.php.cn/ja/about/disclaimer.html">免責事項</a><a href="https://m.php.cn/ja/update/article_0_1.html">Sitemap</a></div><div class="footerbottom"><p> © php.cn All rights reserved </p></div></div></footer><script>isLogin = 0;</script><script type="text/javascript" src="/static/layui/layui.js"></script><script type="text/javascript" src="/static/js/global.js?4.9.47"></script></div><script src="https://vdse.bdstatic.com//search-video.v1.min.js"></script><link rel='stylesheet' id='_main-css' href='/static/css/viewer.min.css' type='text/css' media='all'/><script type='text/javascript' src='/static/js/viewer.min.js?1'></script><script type='text/javascript' src='/static/js/jquery-viewer.min.js'></script><script>jQuery.fn.wait = function (func, times, interval) { var _times = times || -1, //100次 _interval = interval || 20, //20毫秒每次 _self = this, _selector = this.selector, //选择器 _iIntervalID; //定时器id if( this.length ){ //如果已经获取到了,就直接执行函数 func && func.call(this); } else { _iIntervalID = setInterval(function() { if(!_times) { //是0就退出 clearInterval(_iIntervalID); } _times <= 0 || _times--; //如果是正数就 -- _self = $(_selector); //再次选择 if( _self.length ) { //判断是否取到 func && func.call(_self); clearInterval(_iIntervalID); } }, _interval); } return this; } $("table.syntaxhighlighter").wait(function() { $('table.syntaxhighlighter').append("<p class='cnblogs_code_footer'><span class='cnblogs_code_footer_icon'></span></p>"); }); $(document).on("click", ".cnblogs_code_footer",function(){ $(this).parents('table.syntaxhighlighter').css('display','inline-table');$(this).hide(); }); $('.nphpQianCont').viewer({navbar:true,title:false,toolbar:false,movable:false,viewed:function(){$('img').click(function(){$('.viewer-close').trigger('click');});}}); </script></body><!-- Matomo --><script> var _paq = window._paq = window._paq || []; /* tracker methods like "setCustomDimension" should be called before "trackPageView" */ _paq.push(['trackPageView']); _paq.push(['enableLinkTracking']); (function() { var u="https://tongji.php.cn/"; _paq.push(['setTrackerUrl', u+'matomo.php']); _paq.push(['setSiteId', '9']); var d=document, g=d.createElement('script'), s=d.getElementsByTagName('script')[0]; g.async=true; g.src=u+'matomo.js'; s.parentNode.insertBefore(g,s); })(); </script><!-- End Matomo Code --></html>