ホームページ  >  記事  >  バックエンド開発  >  php クロール webpage_PHP チュートリアル

php クロール webpage_PHP チュートリアル

WBOY
WBOYオリジナル
2016-07-13 10:28:20945ブラウズ

php を使用してページのコンテンツをキャプチャすると、Web ページのコンテンツの一部を抽出する単純なコンテンツ コレクターとして使用するなど、実際の開発で非常に役立ちます。キャプチャしたコンテンツをフィルタリングすることで取得できます。正規表現を使用して目的のコンテンツを見つけるには、php を使用して Web ページのコンテンツをクロールするためによく使用されるいくつかの方法を以下に示します。
1.file_get_contents
PHPコード

2.カール PHPコード
$url = "http://www.phpzixue.cn"; $contents = ファイル_get_contents($url); //中国語の文字化けが発生する場合は、次のコードを使用してください
//$getcontent = iconv("gb2312", "utf-8",$contents); $contents をエコーし​​ます。 ?>





$url = "http://www.phpzixue.cn"; $ch =curl_init(); $タイムアウト = 5; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); //次の 2 行をユーザー検出が必要な Web ページに追加する必要があります //curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY); //curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD); $contents =curl_exec($ch); カール_クローズ($ch); $contents をエコーし​​ます。 ?>

3.fopen->fread->fclose
PHPコード



$handle = fopen ("http://www.phpzixue.cn", "rb"); $contents = ""
してください{
$data = fread($handle, 1024); if (strlen($data) == 0) {
休憩
} $コンテンツ .= $データ ながら(true); fclose ($handle) $contents をエコーし​​ます。 ?>

注: 1. file_get_contents と fopen を使用して、allow_url_fopen を有効にします。方法: php.ini を編集し、allow_url_fopen = On に設定します。allow_url_fopen がオフの場合、fopen も file_get_contents もリモート ファイルを開くことができません。 php を使用してページのコンテンツをキャプチャすることは、Web ページのコンテンツの一部を抽出する単純なコンテンツ コレクターを作成するなど、実際の開発で非常に役立ちます。キャプチャされたコンテンツは、通常の...
2.curl を使用するには、curl を有効にするためのスペースが必要です。方法: Windows で php.ini を変更し、extension=php_curl.dll の前のセミコロンを削除し、ssleay32.dll と libeay32.dll を C:WINDOWSsystem32 にコピーします。Linux では、curl 拡張機能をインストールします。


http://www.bkjia.com/PHPjc/802110.html

www.bkjia.com

tru​​e

http://www.bkjia.com/PHPjc/802110.html

技術記事



声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。