ホームページ  >  記事  >  バックエンド開発  >  PHP がどのようにクローラ対策テクノロジーを実装し、Web サイトのコンテンツを保護するか

PHP がどのようにクローラ対策テクノロジーを実装し、Web サイトのコンテンツを保護するか

WBOY
WBOYオリジナル
2023-06-27 08:36:071698ブラウズ

インターネットの発展に伴い、Web サイトのコンテンツはますます豊富になり、より多くのユーザーがアクセスするようになりました。しかし、それに伴う問題は、悪意のあるクローラーによって攻撃され、Web サイトのコンテンツがクロールされて盗まれることです。したがって、アンチクローラー技術を使用して Web サイトのコンテンツを保護する方法は、すべての Web マスターが解決しなければならない問題となっています。 PHP は、学習が簡単で強力なオープン ソースのスクリプト言語として人気があります。では、PHP を使用してクローラ対策テクノロジを実装するにはどうすればよいでしょうか?以下に詳しく説明します。

1. HTTP リクエスト ヘッダーの設定

通常、通常のブラウザが Web ページにアクセスすると、送信されるリクエスト ヘッダーには対応するパラメーター情報が含まれます。悪意のあるクローラは通常、これらのパラメータを送信しないため、HTTP リクエスト ヘッダーを設定することで悪意のあるクローラを識別できます。 PHP には、リクエスト ヘッダーの設定に使用できる非常に便利な関数curl_setopt()が用意されています。

$curl = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.example.com");
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64...)");
curl_setopt($ch, CURLOPT_REFERER, "http://www.example.com");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$data = curl_exec($ch);
curl_close($ch);

ブラウザの種類や送信元アドレスなどを識別できる、User-Agent、Referr、その他の情報をリクエストヘッダに追加します。この情報が追加されていない場合、悪意のあるクローラと判断されブロックされる可能性があります。

2. 検証コードの検証

検証コードは、検証コードを追加することでマシンが Web サイトを自動的にクロールするのを防ぐ効果的なクローラー対策テクノロジーです。 PHP では、GD ライブラリとセッション テクノロジを使用して検証コードを実装できます。具体的なコードは次のとおりです:

<?php
session_start();
$width=90;
$height=40;
$str = "abcdefghijklmnpqrstuvwxyzABCDEFGHIJKLMNPQRSTUVWXYZ0123456789";
$code = '';
for ($i = 0; $i < 4; $i++) {
   $code .= substr($str, mt_rand(0, strlen($str) - 1), 1);
}
$_SESSION['code'] = $code;

$img = imagecreatetruecolor($width, $height);
$bg_color = imagecolorallocate($img, 255, 255, 255);
imagefill($img, 0, 0, $bg_color);
$font_file="arial.ttf";
for ($i = 0; $i < 4; $i++) {
     $font_size=mt_rand(14,18);
     $font_color=imagecolorallocate($img,mt_rand(0,100),mt_rand(0,100),mt_rand(0,100));
     $angle=mt_rand(-30,30);
     $x=floor($width/6)*$i+6;
     $y=mt_rand(20, $height-10);
     imagettftext($img,$font_size,$angle,$x,$y,$font_color,$font_file,substr($code,$i,1));
}

header("Content-type: image/png");
imagepng($img);
imagedestroy($img);
?>

このコードは、GD ライブラリの機能を通じてランダムな検証コードを生成し、検証結果を保存します。 Session へのコード。ユーザーがページにアクセスするたびに、ページに確認コードを追加し、ユーザーが入力した確認コードとセッションに保存されている確認コードを比較することができます。それらが同じであれば検証は成功し、それ以外の場合は検証は失敗します。

3. アクセス頻度を制限する

一部のクローラーは、周期的なアクセスを使用して Web サイトを自動的にクロールしますが、これにより Web サイトのリソースがすぐに消費され、Web サイトがクラッシュします。このような状況に対し、IPアドレスごとにWebサイトへのアクセス頻度を制限することで、クローラー攻撃を抑制します。 PHP では、Redis などのキャッシュ データベースを使用してアクセス頻度を制限できます。具体的なコードは次のとおりです:

<?php
$redis = new Redis();
$redis->connect('127.0.0.1', 6379);
$ip = $_SERVER["REMOTE_ADDR"];
$key = "visit:".$ip;
$count = $redis->get($key);
if(!$count) {
    $redis->setex($key, 1, 3);//3秒内允许访问一次
} elseif($count < 10) {
    $redis->incr($key);
} else {
    die("您的访问过于频繁,请稍后再试");
}
?>

このコードは、Redis の incr() 関数を使用して各 IP アドレスへのアクセス数を累積し、die() 関数を使用してリクエストを中断します。訪問数が上限に達すると、ユーザーは後で再試行するように求められます。

要約すると、PHP は強力なオープンソース スクリプト言語として、アンチクローラー テクノロジの実装を十分にサポートできます。 HTTP リクエスト ヘッダー、検証コードの検証を設定し、アクセス頻度を制限することで、悪意のあるクローラーによる Web サイトへの攻撃を効果的に防ぎ、Web サイトのコンテンツのセキュリティを保護できます。したがって、ウェブマスターは、ウェブサイトのセキュリティと安定性を向上させるために、これらのアンチクローラー技術をウェブサイトに追加することを検討できます。

以上がPHP がどのようにクローラ対策テクノロジーを実装し、Web サイトのコンテンツを保護するかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。