キャプチャしたコンテンツを正規表現でフィルタリングして、必要なコンテンツを取得することができます。正規表現を使用してフィルタリングする方法については、ここでは紹介しません。一般的に使用される PHP の方法をいくつか紹介します。 Web ページからコンテンツをクロールします。
1.file_get_contents
PHP コード
コードをコピー コードは次のとおりです:
< ;?php
$url = "http://www.jb51.net";
$contents = file_get_contents($url);
//中国語が文字化けする場合は以下を使用してくださいcode
// $getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
コードをコピー コードは次のとおりです:
$url = "http://www.jb51.net";
$ch =curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER , 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout)
//ユーザー検出が必要な Web ページに次の 2 行を追加する必要があります
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents =curl_exec($ch); $ch);
echo $contents;
3.fopen->fread->fclose
$handle = fopen ("http:// www.jb51.net", "rb"); $contents = "";
do {$data = fread($handle, 1024);
if (strlen($data) == 0) {
break;
}
$contents;
} while(true); 🎜>?>
注:
1. file_get_contents と fopen を使用して、allow_url_fopen を有効にします。方法: php.ini を編集し、allow_url_fopen = On に設定します。allow_url_fopen がオフの場合、fopen も file_get_contents もリモート ファイルを開くことができません。
2.curl を使用するには、curl を有効にするためのスペースが必要です。方法: Windows で php.ini を変更し、extension=php_curl.dll の前のセミコロンを削除し、ssleay32.dll と libeay32.dll を C:WINDOWSsystem32 にコピーします。Linux では、curl 拡張機能をインストールします。