ホームページ >バックエンド開発 >PHPチュートリアル >PHP はどのように同じドメイン名を使用して、複数の IP からリモート Web コンテンツをクロールしますか?
同じドメイン名が複数の IP に対応する場合、PHP の関数はリモート Web ページのコンテンツを取得します
fgc は単にそれを読み取り、すべての操作をカプセル化します
fopen も一部のカプセル化を実行しますが、すべてを取得するにはループで読み取る必要がありますデータ。
fsockopen これは直線のソケット操作です。
HTMLページを読むだけならfgcの方が良いです。
会社がファイアウォールを介してインターネットにアクセスする場合、一般的な file_get_content 関数は機能しません。もちろん、いくつかのソケット操作を通じて http リクエストをプロキシに直接書き込むこともできますが、それはより面倒です。
ファイルが小さいことが確認できたら、上記の 2 つのメソッド fopen,join('',file($file)); のいずれかを選択できます。たとえば、1k 未満のファイルのみを操作する場合は、file_get_contents を使用するのが最適です。
ファイルが大きいことが確実な場合、またはファイルのサイズを判断できない場合は、ファイル ストリーミングを使用するのが最善です。 1K ファイルを開くことと 1G ファイルを開くことの間に明らかな違いはありません。コンテンツが長ければ長いほど、スクリプトを読み終えるのではなく、読むのに時間がかかります。
PHP には、file_get_contents や fopen などの独自の関数を使用するなど、リモート Web コンテンツを取得するさまざまな方法があります。
<?php echo file_get_contents("http://php.cn/abc.php"); ?>
ただし、DNSポーリングなどの負荷分散では、同じドメイン名が複数のサーバー、複数のIPに対応する場合があります。ユーザーが http://php.cn/abc にアクセスするたびに、http://php.cn/abc.php
が DNS によって 3 つの IP: 72.249.146.213、72.249.146.214、および 72.249.146.215 に解決されるとします。 php を実行すると、システムは対応する負荷分散アルゴリズムに従っていずれかのサーバーにアクセスします。
先週ビデオプロジェクトに取り組んでいたとき、このような要件に遭遇しました。このサーバーの送信ステータスをクエリするために、各サーバー上のPHPインターフェースプログラム(abc.phpと想定)にアクセスする必要がありました。
現時点では、特定のサーバーに繰り返しアクセスし続ける可能性があるため、file_get_contents を使用して http://php.cn/abc.php に直接アクセスすることはできません。
これら 3 つのサーバーで http://72.249.146.213/abc.php、http://72.249.146.214/abc.php、http://72.249.146.215/abc.php に順番にアクセスすることによってもこれは不可能ですWeb サーバーに複数の 仮想ホスト が装備されている場合。
ホストは同じドメイン名に対応する複数のIPを設定できないため、ローカルホストを設定しても機能しません。
その場合、これは PHP および HTTP プロトコルを通じてのみ実現できます。abc.php にアクセスするときは、ヘッダーに php.cn ドメイン名を追加します。そこで、次の PHP 関数を書きました:
<?php /************************ * 函数用途:同一域名对应多个IP时,获取指定服务器的远程网页内容 * 参数说明: * $ip服务器的IP地址 * $host服务器的host名称 * $url服务器的URL地址(不含域名) * 返回值: * 获取到的远程网页内容 * false访问远程网页失败 ************************/ function HttpVisit($ip, $host, $url) { $errstr = ''; $errno = ''; $fp = fsockopen ($ip, 80, $errno, $errstr, 90); if (!$fp) { return false; } else { $out = "GET {$url} HTTP/1.1\r\n"; $out .= "Host:{$host}\r\n"; $out .= "Connection: close\r\n\r\n"; fputs ($fp, $out); while($line = fread($fp, 4096)){ $response .= $line; } fclose( $fp ); //去掉Header头信息 $pos = strpos($response, "\r\n\r\n"); $response = substr($response, $pos + 4); return $response; } } //调用方法: $server_info1 = HttpVisit("72.249.146.213", "php.cn", "/abc.php"); $server_info2 = HttpVisit("72.249.146.214", "php.cn", "/abc.php"); $server_info3 = HttpVisit("72.249.146.215", "php.cn", "/abc.php"); ?>
fsockopen 関数を使用して URL を開き、POST モードでヘッダーと本文を含む完全なデータを取得します
<? functionHTTP_Post($URL,$data,$cookie,$referrer=""){ // parsing the given URL $URL_Info=parse_url($URL); // Building referrer if($referrer=="")// if not given use this script. as referrer $referrer="111"; // making string from $data foreach($dataas$key=>$value) $values[]="$key=".urlencode($value); $data_string=implode("&",$values); // Find out which port is needed - if not given use standard (=80) if(!isset($URL_Info["port"])) $URL_Info["port"]=80; // building POST-request: $request.="POST ".$URL_Info["path"]." HTTP/1.1\n"; $request.="Host: ".$URL_Info["host"]."\n"; $request.="Referer:$referer\n"; $request.="Content-type: application/x-www-form-urlencoded\n"; $request.="Content-length: ".strlen($data_string)."\n"; $request.="Connection: close\n"; $request.="Cookie:$cookie\n"; $request.="\n"; $request.=$data_string."\n"; $fp=fsockopen($URL_Info["host"],$URL_Info["port"]); fputs($fp,$request); while(!feof($fp)){ $result.=fgets($fp,1024); } fclose($fp); return$result; } printhr(); ?>
以上がPHP はどのように同じドメイン名を使用して、複数の IP からリモート Web コンテンツをクロールしますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。