ホームページ  >  記事  >  バックエンド開発  >  PHP プラットフォーム開発を更新する場合、page_PHP チュートリアルをクロールするいくつかの方法

PHP プラットフォーム開発を更新する場合、page_PHP チュートリアルをクロールするいくつかの方法

WBOY
WBOYオリジナル
2016-07-20 11:14:13930ブラウズ

ネットワーク プログラムを開発する場合、通常、PHP を使用してブラウザー アクセスをシミュレートし、http リクエストを通じて URL アドレスにアクセスし、HTML ソース コードまたは XML データを取得する必要があります。データを直接出力するには、多くの場合、コンテンツを抽出して、よりわかりやすい方法で表示するためにフォーマットする必要があります。

1. PHP でページをクロールする主な方法:

2. PHP が HTML または XML コードを解析する主な方法:

1. file() 関数

リーリー

2. file_get_contents() 関数
file_get_contents と fopen を使用するには、allow_url_fopen を有効にする必要があります。方法:php.iniを編集して設定する allow_url_fopen = オン、allow_url_fopen がオフの場合、fopen も file_get_contents もリモート ファイルを開くことができません。

リーリー

3. fopen()->fread()->fclose() モード

リーリー

4.カール方法
curl を使用するには、curl を有効にするためのスペースが必要です。方法: Windows で php.ini を変更し、extension=php_curl.dll の前のセミコロンを削除し、次のように要求します。 Linux では ssleay32.dll と libeay32.dll を C: WINDOWSsystem32 にコピーする必要があり、curl 拡張機能をインストールする必要があります。

リーリー

5. fsockopen() 関数ソケットモード
ソケットモードが正しく実行できるかどうかは、サーバーでどの通信プロトコルが有効になっているかを phpinfo を通じて確認できます。

リーリー

6.

リーリー

注: エージェントの設定は、Snoopy.class.php ファイルの 45 行目にあります。ファイル内で「var $agent」(引用符内の内容) を検索してください。 PHP を使用してブラウザのコンテンツを取得できます。
echo $_SERVER['HTTP_USER_AGENT']; を使用してブラウザの情報を取得し、エコーされたコンテンツをエージェントにコピーするだけです。

南風小源子 -- より本格的な PHP プラットフォーム開発

このページの全ページアドレス: http://www.cnblogs.com/rirber/archive/2013/06/15/php-server-get-curl-data.html

このページの短縮URL(URLアドレス): http://url.cn/EeOhAy

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/440296.html技術記事ネットワーク プログラムを開発する場合、多くの場合、ローカル以外のファイルを取得する必要があります。通常、php を使用してブラウザー アクセスをシミュレートし、http リクエストを通じて URL アドレスにアクセスし、HTML ソース コードを取得します。
声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。