ホームページ  >  記事  >  バックエンド開発  >  PHP はどのように同じドメイン名を使用して、複数の IP からリモート Web コンテンツをクロールしますか?

PHP はどのように同じドメイン名を使用して、複数の IP からリモート Web コンテンツをクロールしますか?

伊谢尔伦
伊谢尔伦オリジナル
2017-07-17 10:30:191398ブラウズ

同じドメイン名が複数の IP に対応する場合、PHP の関数はリモート Web ページのコンテンツを取得します
fgc は単にそれを読み取り、すべての操作をカプセル化します
fopen も一部のカプセル化を実行しますが、すべてを取得するにはループで読み取る必要がありますデータ。
fsockopen これは直線のソケット操作です。
HTMLページを読むだけならfgcの方が良いです。
会社がファイアウォールを介してインターネットにアクセスする場合、一般的な file_get_content 関数は機能しません。もちろん、いくつかのソケット操作を通じて http リクエストをプロキシに直接書き込むこともできますが、それはより面倒です。
ファイルが小さいことが確認できたら、上記の 2 つのメソッド fopen,join('',file($file)); のいずれかを選択できます。たとえば、1k 未満のファイルのみを操作する場合は、file_get_contents を使用するのが最適です。
ファイルが大きいことが確実な場合、またはファイルのサイズを判断できない場合は、ファイル ストリーミングを使用するのが最善です。 1K ファイルを開くことと 1G ファイルを開くことの間に明らかな違いはありません。コンテンツが長ければ長いほど、スクリプトを読み終えるのではなく、読むのに時間がかかります。

PHP には、file_get_contents や fopen などの独自の関数を使用するなど、リモート Web コンテンツを取得するさまざまな方法があります。

<?php 
echo file_get_contents("http://php.cn/abc.php");
?>

ただし、DNSポーリングなどの負荷分散では、同じドメイン名が複数のサーバー、複数のIPに対応する場合があります。ユーザーが http://php.cn/abc にアクセスするたびに、http://php.cn/abc.php
が DNS によって 3 つの IP: 72.249.146.213、72.249.146.214、および 72.249.146.215 に解決されるとします。 php を実行すると、システムは対応する負荷分散アルゴリズムに従っていずれかのサーバーにアクセスします。
先週ビデオプロジェクトに取り組んでいたとき、このような要件に遭遇しました。このサーバーの送信ステータスをクエリするために、各サーバー上のPHPインターフェースプログラム(abc.phpと想定)にアクセスする必要がありました。
現時点では、特定のサーバーに繰り返しアクセスし続ける可能性があるため、file_get_contents を使用して http://php.cn/abc.php に直接アクセスすることはできません。
これら 3 つのサーバーで http://72.249.146.213/abc.php、http://72.249.146.214/abc.php、http://72.249.146.215/abc.php に順番にアクセスすることによってもこれは不可能ですWeb サーバーに複数の 仮想ホスト が装備されている場合。
ホストは同じドメイン名に対応する複数のIPを設定できないため、ローカルホストを設定しても機能しません。
その場合、これは PHP および HTTP プロトコルを通じてのみ実現できます。abc.php にアクセスするときは、ヘッダーに php.cn ドメイン名を追加します。そこで、次の PHP 関数を書きました:

<?php
 /************************
 * 函数用途:同一域名对应多个IP时,获取指定服务器的远程网页内容
 * 参数说明:
 * $ip服务器的IP地址
 * $host服务器的host名称
 * $url服务器的URL地址(不含域名)
 * 返回值:
 * 获取到的远程网页内容
 * false访问远程网页失败
 ************************/
function HttpVisit($ip, $host, $url) 
{ 
$errstr = &#39;&#39;; 
$errno = &#39;&#39;; 
$fp = fsockopen ($ip, 80, $errno, $errstr, 90); 
if (!$fp) 
{ 
 return false; 
} 
else
{ 
$out = "GET {$url} HTTP/1.1\r\n"; 
$out .= "Host:{$host}\r\n"; 
$out .= "Connection: close\r\n\r\n"; 
fputs ($fp, $out);

while($line = fread($fp, 4096)){ 
$response .= $line; 
} 
fclose( $fp );
//去掉Header头信息
$pos = strpos($response, "\r\n\r\n"); 
$response = substr($response, $pos + 4);
return $response; 
} 
 }
 //调用方法:
 $server_info1 = HttpVisit("72.249.146.213", "php.cn", "/abc.php"); 
 $server_info2 = HttpVisit("72.249.146.214", "php.cn", "/abc.php"); 
 $server_info3 = HttpVisit("72.249.146.215", "php.cn", "/abc.php"); 
 ?>

fsockopen 関数を使用して URL を開き、POST モードでヘッダーと本文を含む完全なデータを取得します

<?
functionHTTP_Post($URL,$data,$cookie,$referrer=""){
// parsing the given URL
$URL_Info=parse_url($URL);
// Building referrer
if($referrer=="")// if not given use this script. as referrer
$referrer="111";
// making string from $data
foreach($dataas$key=>$value)
$values[]="$key=".urlencode($value);
$data_string=implode("&",$values);
// Find out which port is needed - if not given use standard (=80)
if(!isset($URL_Info["port"]))
$URL_Info["port"]=80;
// building POST-request:
$request.="POST ".$URL_Info["path"]." HTTP/1.1\n";
$request.="Host: ".$URL_Info["host"]."\n";
$request.="Referer:$referer\n";
$request.="Content-type: application/x-www-form-urlencoded\n";
$request.="Content-length: ".strlen($data_string)."\n";
$request.="Connection: close\n";
$request.="Cookie:$cookie\n";
$request.="\n";
$request.=$data_string."\n";
$fp=fsockopen($URL_Info["host"],$URL_Info["port"]);
fputs($fp,$request);
while(!feof($fp)){
$result.=fgets($fp,1024);
}
fclose($fp);
return$result;
}
printhr();
?>

以上がPHP はどのように同じドメイン名を使用して、複数の IP からリモート Web コンテンツをクロールしますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。