インターネットの発展に伴い、Web サイトのコンテンツはますます豊富になり、より多くのユーザーがアクセスするようになりました。しかし、それに伴う問題は、悪意のあるクローラーによって攻撃され、Web サイトのコンテンツがクロールされて盗まれることです。したがって、アンチクローラー技術を使用して Web サイトのコンテンツを保護する方法は、すべての Web マスターが解決しなければならない問題となっています。 PHP は、学習が簡単で強力なオープン ソースのスクリプト言語として人気があります。では、PHP を使用してクローラ対策テクノロジを実装するにはどうすればよいでしょうか?以下に詳しく説明します。
1. HTTP リクエスト ヘッダーの設定
通常、通常のブラウザが Web ページにアクセスすると、送信されるリクエスト ヘッダーには対応するパラメーター情報が含まれます。悪意のあるクローラは通常、これらのパラメータを送信しないため、HTTP リクエスト ヘッダーを設定することで悪意のあるクローラを識別できます。 PHP には、リクエスト ヘッダーの設定に使用できる非常に便利な関数curl_setopt()が用意されています。
$curl = curl_init(); curl_setopt($ch, CURLOPT_URL, "http://www.example.com"); curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64...)"); curl_setopt($ch, CURLOPT_REFERER, "http://www.example.com"); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $data = curl_exec($ch); curl_close($ch);
ブラウザの種類や送信元アドレスなどを識別できる、User-Agent、Referr、その他の情報をリクエストヘッダに追加します。この情報が追加されていない場合、悪意のあるクローラと判断されブロックされる可能性があります。
2. 検証コードの検証
検証コードは、検証コードを追加することでマシンが Web サイトを自動的にクロールするのを防ぐ効果的なクローラー対策テクノロジーです。 PHP では、GD ライブラリとセッション テクノロジを使用して検証コードを実装できます。具体的なコードは次のとおりです:
<?php session_start(); $width=90; $height=40; $str = "abcdefghijklmnpqrstuvwxyzABCDEFGHIJKLMNPQRSTUVWXYZ0123456789"; $code = ''; for ($i = 0; $i < 4; $i++) { $code .= substr($str, mt_rand(0, strlen($str) - 1), 1); } $_SESSION['code'] = $code; $img = imagecreatetruecolor($width, $height); $bg_color = imagecolorallocate($img, 255, 255, 255); imagefill($img, 0, 0, $bg_color); $font_file="arial.ttf"; for ($i = 0; $i < 4; $i++) { $font_size=mt_rand(14,18); $font_color=imagecolorallocate($img,mt_rand(0,100),mt_rand(0,100),mt_rand(0,100)); $angle=mt_rand(-30,30); $x=floor($width/6)*$i+6; $y=mt_rand(20, $height-10); imagettftext($img,$font_size,$angle,$x,$y,$font_color,$font_file,substr($code,$i,1)); } header("Content-type: image/png"); imagepng($img); imagedestroy($img); ?>
このコードは、GD ライブラリの機能を通じてランダムな検証コードを生成し、検証結果を保存します。 Session へのコード。ユーザーがページにアクセスするたびに、ページに確認コードを追加し、ユーザーが入力した確認コードとセッションに保存されている確認コードを比較することができます。それらが同じであれば検証は成功し、それ以外の場合は検証は失敗します。
3. アクセス頻度を制限する
一部のクローラーは、周期的なアクセスを使用して Web サイトを自動的にクロールしますが、これにより Web サイトのリソースがすぐに消費され、Web サイトがクラッシュします。このような状況に対し、IPアドレスごとにWebサイトへのアクセス頻度を制限することで、クローラー攻撃を抑制します。 PHP では、Redis などのキャッシュ データベースを使用してアクセス頻度を制限できます。具体的なコードは次のとおりです:
<?php $redis = new Redis(); $redis->connect('127.0.0.1', 6379); $ip = $_SERVER["REMOTE_ADDR"]; $key = "visit:".$ip; $count = $redis->get($key); if(!$count) { $redis->setex($key, 1, 3);//3秒内允许访问一次 } elseif($count < 10) { $redis->incr($key); } else { die("您的访问过于频繁,请稍后再试"); } ?>
このコードは、Redis の incr() 関数を使用して各 IP アドレスへのアクセス数を累積し、die() 関数を使用してリクエストを中断します。訪問数が上限に達すると、ユーザーは後で再試行するように求められます。
要約すると、PHP は強力なオープンソース スクリプト言語として、アンチクローラー テクノロジの実装を十分にサポートできます。 HTTP リクエスト ヘッダー、検証コードの検証を設定し、アクセス頻度を制限することで、悪意のあるクローラーによる Web サイトへの攻撃を効果的に防ぎ、Web サイトのコンテンツのセキュリティを保護できます。したがって、ウェブマスターは、ウェブサイトのセキュリティと安定性を向上させるために、これらのアンチクローラー技術をウェブサイトに追加することを検討できます。
以上がPHP がどのようにクローラ対策テクノロジーを実装し、Web サイトのコンテンツを保護するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。