検索
ホームページバックエンド開発PHPチュートリアルページをクロールする PHP CURL のいくつかの方法の紹介_PHP チュートリアル

ページをクロールする PHP CURL のいくつかの方法の紹介_PHP チュートリアル

Jul 20, 2016 am 11:11 AM
curlphpホスト導入使用する数種類できる私たちクロールデータ方法ページ

Curl は主にデータをキャプチャします。もちろん、fsockopen、file_get_contents などの他のメソッドを使用してデータをキャプチャすることもできます。ただし、ページ アクセス制御が行われているページやログイン後のページをキャプチャする場合は、より困難になります。

PHPホームページを取得してファイルに入れることです。

例 1. PHP の CURL モジュールを使用して PHP ホームページを取得します

コードは次のとおりです コードをコピーします
$ch =curl_init();
curl_setopt($ch, CURLOPT_URL, "http://localhost/mytest/phpinfo.php");
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // この行をコメントアウトすると、直接出力されます
$result=curl_exec($ch);
curl_close($ch);


2、プロキシを使用してクロールします

なぜクロールにプロキシを使用するのでしょうか? Google を例に挙げます。Google のデータを短期間に頻繁に取得すると、データを取得できなくなります。 Google が IP アドレスを制限している場合は、プロキシを変更して再度クロールできます。

コードは次のとおりです コードをコピー
$ch =curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.hzhuti.com" );
curl_setopt($ch、CURLOPT_HEADER、false);
curl_setopt($ch、CURLOPT_RETURNTRANSFER、1);
curl_setopt($ch、CURLOPT_HTTPPROXYTUNNEL、TRUE);
curl_setopt($ch、CURLOPT_PROXY、125.21.23.6: 8080);
// url_setopt($ch, CURLOPT_PROXYUSERPWD, 'user:password'); パスワードが必要な場合は、これを追加します
$result=curl_exec($ch);
curl_close($ch);
?>

3、投稿 データを取得した後、データの送信については別途説明します。curl を使用する場合、データのやり取りが頻繁に発生するため、データの送信の方が重要です。

コードは以下の通りです $ch =curl_init();

/*ここで注意すべき点は、送信するデータは2次元ではないことですarray 以上
*例: array('name'=>serialize(array('tank','zhang')),'sex'=>1,'birth'=>'20101010')
*例 array('name' =>array('tank','zhang'),'sex'=>1,'birth'=>'20101010') これはエラーを報告します*/
$data = array ('名前' => 'テスト', '性別'=>1,'誕生'=>'20101010');
curl_setopt($ch, CURLOPT_URL, 'http://localhost/mytest/curl/upload) .php');
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
curl_exec($ch);
?>upload.php ファイルでは、print_r($_POST) );curlでキャプチャできますupload.phpで出力した内容の配列を取り出します( [name] => test [sex] => 1 [birth] => 20101010 )

4. ページ アクセス制御を使用して一部のページをクロールする

ページ アクセス制御の 3 つの方法

ページ アクセス制御の 3 つの方法 Zhang Ying 公開日: 2010-10-12

カテゴリー ディレクトリ: apache/nginx
この現象、下の写真を見てください


Apache ページのアクセス制御
なぜこのような制御を実行する必要があるのでしょうか? この保護は比較的低レベルですが、それでもある程度は役立ちます。

まず、htpasswdコマンドを使用して権限制御ファイルを生成します

コードをコピー
1は、httpd.confまたはhttpd-vhosts.confを変更することで構成できます
コードは次のとおりです コードをコピーします

コピーして印刷して表示しますか?
1.[zhangy@BlackGhost test]$ htpasswd - c ./access Tank // パスワード ファイルを生成します。 .[zhangy@BlackGhost test]$ cat access // パスワード ファイルを確認します
6.tank:Uj5B3qIF/BNdI // ユーザー名は平文で、パスワードは暗号化されています。
[zhangy@BlackGhost test]$ htpasswd -c ./access Tank //パスワード ファイルを生成します。 -c は新しいファイルを作成します。 htpasswd -h を表示できます
新しいパスワード: //パスワードを繰り返す
ユーザーのパスワードを追加Tank
[zhangy@BlackGhost test]$ cat access //パスワードファイルを確認してください
tank:Uj5B3qIF/BNdI //ユーザー名は平文で、パスワードは暗号化されています。この時点でパスワードファイルが生成されます。




2番目のページアクセス制御方法

コードは次のとおりです

コードをコピーしますNameVirtualHost *:10004DocumentRoot "/home/zhangy/www/test"test のルート ディレクトリに .htaccess ファイルを作成します
listen 10004
ServerName *:10004

BandwidthModule On
ForceBandWidthModule On
帯域幅すべて 102
MinBandwidth すべて 50000
LargeFileLimit * 500 50000
MaxConnection all 2

エラーログ "/home/zhangy/apache/blog.51yip.com.com-error.log"
カスタムログ "/home/zhangy/apache/blog.51yip.com-access.log" common
// 以下の設定を見てください

AuthType Basic

AuthName "access test"
AuthUserFile /home/zhangy/www/test/access
Require valid-user
> ;




2、.htaccess ファイルを使用して制御できます

コードは次のとおりですフォローします

コードをコピーします[zhangy@BlackGhost test]$ cat .htaccess  .htaccess の内容 AuthType Basic AuthName "access test"
[zhangy@BlackGhost test]$ vi .htaccess   //ファイルを開き、権限コンテンツを追加します
AuthUserFile /home/zhangy/www/test/access

Require valid-user



3,不用密码文件,也可以进行访问控制

 代码如下 复制代码

define('ADMIN_USERNAME','tank');     // Admin Username
define('ADMIN_PASSWORD','tank');      // Admin Password

//log check
if (!isset($_SERVER['PHP_AUTH_USER']) || !isset($_SERVER['PHP_AUTH_PW']) ||
 $_SERVER['PHP_AUTH_USER'] != ADMIN_USERNAME ||$_SERVER['PHP_AUTH_PW'] != ADMIN_PASSWORD) {
 Header("WWW-Authenticate: Basic realm="access test"");
 Header("HTTP/1.0 401 Unauthorized");

 echo <<
 

Rejected!


 Wrong Username or Password!
 
EOB;
 exit;
}

curl相关函数列表:

curl_init — 初始化一个CURL会话
curl_setopt — 为CURL调用设置一个选项
curl_exec — 执行一个CURL会话
curl_close — 关闭一个CURL会话
curl_version — 返回当前CURL版本
curl_init — 初始化一个CURL会话
描述
int curl_init ([string url])
curl_init()函数将初始化一个新的会话,返回一个CURL句柄供 curl_setopt(), curl_exec(),和 curl_close() 函数使用。如果可选参数被提供,那么CURLOPT_URL选项将被设置成这个参数的值。你可以使用curl_setopt()函数人工设置。

例 1. 初始化一个新的CURL会话,且取回一个网页

 代码如下 复制代码

$ch = curl_init();
curl_setopt ($ch, CURLOPT_URL, “http://www.zend.com/”);
curl_setopt ($ch, CURLOPT_HEADER, 0);
curl_exec ($ch);
curl_close ($ch);
?>


www.bkjia.comtruehttp://www.bkjia.com/PHPjc/444653.htmlTechArticlecurl主要是抓取数据,当然我们可以用其他的方法来抓取,比如fsockopen,file_get_contents等。但是只能抓那些能直接访问的页面,如果要抓取有页...
声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPおよびPython:さまざまなパラダイムが説明されていますPHPおよびPython:さまざまなパラダイムが説明されていますApr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPython:彼らの歴史を深く掘り下げますPHPとPython:彼らの歴史を深く掘り下げますApr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

PHPとPythonの選択:ガイドPHPとPythonの選択:ガイドApr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとフレームワーク:言語の近代化PHPとフレームワーク:言語の近代化Apr 18, 2025 am 12:14 AM

PHPは、多数のWebサイトとアプリケーションをサポートし、フレームワークを通じて開発ニーズに適応するため、近代化プロセスで依然として重要です。 1.PHP7はパフォーマンスを向上させ、新機能を紹介します。 2。Laravel、Symfony、Codeigniterなどの最新のフレームワークは、開発を簡素化し、コードの品質を向上させます。 3.パフォーマンスの最適化とベストプラクティスは、アプリケーションの効率をさらに改善します。

PHPの影響:Web開発などPHPの影響:Web開発などApr 18, 2025 am 12:10 AM

phphassiblasifly-impactedwebdevevermentandsbeyondit.1)itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2)php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3)

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPは、オブジェクトのクローニング(クローンキーワード)と__Clone Magicメソッドをどのように処理しますか?PHPは、オブジェクトのクローニング(クローンキーワード)と__Clone Magicメソッドをどのように処理しますか?Apr 17, 2025 am 12:24 AM

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHP対Python:ユースケースとアプリケーションPHP対Python:ユースケースとアプリケーションApr 17, 2025 am 12:23 AM

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン