PHPチュートリアル

PHP クローラーテクノロジーのナレッジポイントのまとめ

不言

Apr 03, 2018 am 11:33 AM

phpテクノロジー知識のポイント

現在、Python、nodejs、Java、C#、PHP をベースにしたクローラーフレームワークが数多くあり、その中でも Python ベースのクローラーが最も人気があり、すでに確実なものもあります。 Octopus、Locomotive、その他のソフトウェアなどのソフトウェアの操作。

今日最初に試みることは、PHP を使用してクローラープログラムを実装することです。まず、クローラーフレームワークを使用せずに練習して、クローラーの原理を理解してから、PHP のライブラリ、フレームワーク、拡張機能を使用して練習します。

1.PHP シンプルなクローラー – プロトタイプ

クローラーの原理:

元の URL を指定します。
分析リンク、取得設定された正規表現に従ってリンク内のコンテンツを取得します。
元の URL を更新し、リンクを分析して特定のコンテンツを取得し、サイクルが再び始まります。
取得した内容をデータベース(mysql)またはローカルファイルに保存します

以下はインターネットからの例です。リストアップして分析してみましょう
main<span style="margin:0px;padding:0px;max-width:100%;font-size:15px;">main</span> function Start

<?php/** * 爬虫程序 -- 原型 * 从给定的url获取html内容 * @param string $url  * @return string  */function _getUrlContent($url) { $handle = fopen($url, "r");   
 if ($handle) {        
$content = stream_get_contents($handle, -1);  
 //读取资源流到一个字符串,第二个参数需要读取的最大的字节数。默认是-1（读取全部的缓冲数据）        // $content = file_get_contents($url, 1024 * 1024);        return $content;    } else {       
         return false;    } } /** * 从html内容中筛选链接 * @param string $web_content  * @return array  */function _filterUrl($web_content) {    $reg_tag_a = &#39;/<[a|A].*?href=[\&#39;\"]{0,1}([^>\&#39;\"\ ]*).*?>/&#39;;    
$result = preg_match_all($reg_tag_a, $web_content, $match_result);    
if ($result) {        
   return $match_result[1];    } } /** * 修正相对路径 * @param string $base_url  * @param array $url_list  * @return array  */function _reviseUrl($base_url, $url_list) {    $url_info = parse_url($base_url);//解析url    $base_url = $url_info["scheme"] . &#39;://&#39;;    
    if ($url_info["user"] && $url_info["pass"]) {       
     $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@";    }     $base_url .= $url_info["host"];   
     if ($url_info["port"]) {  
     $base_url .= ":" . $url_info["port"];    }     $base_url .= $url_info["path"];   
        if (is_array($url_list)) {       
         foreach ($url_list as $url_item) { 
         if (preg_match(&#39;/^http/&#39;, $url_item)) { 
                             // 已经是完整的url                $result[] = $url_item;            } else { // 不完整的url
                $real_url = $base_url . &#39;/&#39; . $url_item; 
                $result[] = $real_url;            }         }         return $result;    } else { 
        return;    } } /** * 爬虫 * @param string $url  * @return array  */function crawler($url) {    $content = _getUrlContent($url); 
     if ($content) {  
          $url_list = _reviseUrl($url, _filterUrl($content)); 
          if ($url_list) {  
        return $url_list;        } else { 
         return ;        }     } else {
        return ;    } } /** * 测试用主程序 */function main() {    $file_path = "url-01.txt";   
    $current_url = "http://www.baidu.com/"; //初始url    if(file_exists($file_path)){        unlink($file_path);    }    
    $fp_puts = fopen($file_path, "ab"); //记录url列表    $fp_gets = fopen($file_path, "r"); //保存url列表    do {        
          $result_url_arr = crawler($current_url); 
          if ($result_url_arr) { 
              foreach ($result_url_arr as $url) {                fputs($fp_puts, $url . "\r\n");            }         }     } 
while ($current_url = fgets($fp_gets, 1024)); //不断获得url} main();?>

2. crul lib を使用します

Curl は、例外処理、http ヘッダー、POST などで優れた機能を果たします。重要なのは、MySQL を操作することです。データベース操作には PHP を使用します。 curl の具体的な手順については、PHP の公式ドキュメントを確認してください。ただし、マルチスレッド Curl (Curl_multi) に関しては、さらに面倒です。

crul を有効にする
winow システムの場合:
- php.in を変更します (コメントします。削除するだけです)

extension=php_curl.dll

libeay32.dll、php フォルダー内の ssleay32 。 dll、libssh2.dll、php_curl php/ext の下の 4 つのファイルが windows/system32 に移動されます

crul クローラーを使用する手順:- cURL 関数を使用する基本的な考え方は、curl_init( ) cURL セッション;
- 次に、curl_setopt() を通じて必要なオプションをすべて設定します。
- 次に、curl_exec() を使用してセッションを実行します。
- セッションが終了したら、curl_close() を使用します。

例文

$ch =curl_init("http://www.example.com/");

$fp = fopen("example_homepage.txt", "w");curl_setopt($ch, CURLOPT_FILE, $fp) );curl_setopt( $ch, CURLOPT_HEADER, 0);curl_exec($ch);curl_close($ch);fclose($fp); ?>

一个完整点的例子：

<?php/** * 将demo1-01换成curl爬虫 * 爬虫程序 -- 原型 * 从给定的url获取html内容 * @param string $url  * @return string  */function _getUrlContent($url) {    $ch=curl_init();  //初始化一个cURL会话    /*curl_setopt 设置一个cURL传输选项*/    //设置需要获取的 URL 地址    curl_setopt($ch,CURLOPT_URL,$url); 
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     curl_setopt($ch,CURLOPT_HEADER,1);    // 设置浏览器的特定header    curl_setopt($ch, CURLOPT_HTTPHEADER,
     array(       
     "Host: www.baidu.com",        
    "Connection: keep-alive",        
    "Accept: text/html,
    application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Upgrade-Insecure-Requests: 1",
     "DNT:1", 
     "Accept-Language: zh-CN,zh;q=0.8,en-GB;q=0.6,en;q=0.4,en-US;q=0.2", 
       ));  

    $result=curl_exec($ch);//执行一个cURL会话    $code=curl_getinfo($ch,CURLINFO_HTTP_CODE);// 最后一个收到的HTTP代码    if($code!=&#39;404&#39; && $result){       
       return $result;    }    curl_close($ch);//关闭cURL} /** * 从html内容中筛选链接 * @param string $web_content  * @return array  */function _filterUrl($web_content) {    $reg_tag_a = &#39;/<[a|A].*?href=[\&#39;\"]{0,1}([^>\&#39;\"\ ]*).*?>/&#39;;   
   $result = preg_match_all($reg_tag_a, $web_content, $match_result);    
   if ($result) {       
     return $match_result[1];    } } /** * 修正相对路径 * @param string $base_url  * @param array $url_list  * @return array  */function _reviseUrl($base_url, $url_list) {    $url_info = parse_url($base_url);//解析url    $base_url = $url_info["scheme"] . &#39;://&#39;;    
     if ($url_info["user"] && $url_info["pass"]) { 
        $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@";    }     $base_url .= $url_info["host"];    
    if ($url_info["port"]) { 
       $base_url .= ":" . $url_info["port"];    }     $base_url .= $url_info["path"];   
    if (is_array($url_list)) { 
      foreach ($url_list as $url_item) { 
       if (preg_match(&#39;/^http/&#39;, $url_item)) {
                // 已经是完整的url                $result[] = $url_item;            } else { 
               // 不完整的url                $real_url = $base_url . &#39;/&#39; . $url_item; 
               $result[] = $real_url;            }         }         return $result;    } else {
        return;    } } /** * 爬虫 * @param string $url  * @return array  */function crawler($url) {    $content = _getUrlContent($url);
    if ($content) {
        $url_list = _reviseUrl($url, _filterUrl($content)); 
       if ($url_list) {
            return $url_list;        } else { 
           return ;        }     } else {
        return ;    } } /** * 测试用主程序 */function main() {    $file_path = "./url-03.txt";
    if(file_exists($file_path)){        unlink($file_path);    }    $current_url = "http://www.baidu.com"; //初始url    //记录url列表 　ab- 追加打开一个二进制文件，并在文件末尾写数据    $fp_puts = fopen($file_path, "ab");     //保存url列表 r-只读方式打开，将文件指针指向文件头    $fp_gets = fopen($file_path, "r");     do {
        $result_url_arr = crawler($current_url);
        echo "<p>$current_url</p>";
        if ($result_url_arr) { 
           foreach ($result_url_arr as $url) {                fputs($fp_puts, $url . "\r\n");            }         }     } while ($current_url = fgets($fp_gets, 1024)); //不断获得url} main();?>

要对https支持，需要在_getUrlContent函数中加入下面的设置：

curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_BASIC ) ; 
curl_setopt($ch, CURLOPT_USERPWD, "username:password");    
curl_setopt($ch, CURLOPT_SSLVERSION,3); 
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE); 
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 2);

结果疑惑：
我们通过1和2部分得到的结果差异很大，第1部分能得到四千多条url数据，而第2部分却一直是45条数据。

还有我们获得url数据可能会有重复的，这部分处理在我的github上，对应demo2-01.php，或者demo2-02.php

3.file_get_contents/stream_get_contents与curl对比

3.1 file_get_contents/stream_get_contents对比

stream_get_contents — 读取资源流到一个字符串
与 [file_get_contents()]一样，但是 stream_get_contents() 是对一个已经打开的资源流进行操作，并将其内容写入一个字符串返回

$handle = fopen($url, "r");

$content = stream_get_contents() $ハンドル、- 1);

//リソースストリームを文字列に読み取ります。2 番目のパラメーターは、読み取られる最大バイト数です。デフォルトは -1 (バッファリングされたデータをすべて読み取る) です

file_get_contents — 将整个文件读入一个字符串

<code style="margin:0px;padding:0px;max-width:100%;font-family:Consolas, Inconsolata, Courier, monospace;white-space:pre;"><span style="color:#4f4f4f;margin:0px;padding:0px;max-width:100%;">$content</span> = file_get_contents(<span style="color:#4f4f4f;margin:0px;padding:0px;max-width:100%;">$url</span>, <span style="margin:0px;padding:0px;max-width:100%;">1024</span> * <span style="margin:0px;padding:0px;max-width:100%;">1024</span>);<br><span style="font-family:'PingFang SC', 'Microsoft YaHei', SimHei, Arial, SimSun;color:#999999;margin:0px;padding:0px;max-width:100%;text-align:justify;background-color:rgb(238,240,244);">【注】 如果要打开有特殊字符的 URL （比如说有空格），就需要使用进行 URL 编码。</span></code>

3.2 file_get_contents/stream_get_contents与curl对比

- fopen /file_get_contents 每次请求都会重新做DNS查询，并不对 DNS信息进行缓存。但是CURL会自动对DNS信息进行缓存。对同一域名下的网页或者图片的请求只需要一次DNS查询。这大大减少了DNS查询的次数。所以CURL的性能比fopen /file_get_contents 好很多。

fopen /file_get_contents 在请求HTTP时，使用的是http_fopen_wrapper，不会keeplive。而curl却可以。这样在多次请求多个链接时，curl效率会好一些。
fopen / file_get_contents 函数会受到php.ini文件中allow_url_open选项配置的影响。如果该配置关闭了，则该函数也就失效了。而curl不受该配置的影响。
curl 可以模拟多种请求，例如：POST数据，表单提交等，用户可以按照自己的需求来定制请求。而fopen / file_get_contents只能使用get方式获取数据

相关推荐：

一个简单的开源PHP爬虫框架『Phpfetcher』

以上がPHP クローラーテクノロジーのナレッジポイントのまとめの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPの現在のステータス：Web開発動向を見てくださいApr 13, 2025 am 12:20 AM

PHPは、現代のWeb開発、特にコンテンツ管理とeコマースプラットフォームで依然として重要です。 1）PHPには、LaravelやSymfonyなどの豊富なエコシステムと強力なフレームワークサポートがあります。 2）パフォーマンスの最適化は、Opcacheとnginxを通じて達成できます。 3）PHP8.0は、パフォーマンスを改善するためにJITコンパイラを導入します。 4）クラウドネイティブアプリケーションは、DockerおよびKubernetesを介して展開され、柔軟性とスケーラビリティを向上させます。

PHP対その他の言語：比較Apr 13, 2025 am 12:19 AM

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHP対Python：コア機能と機能Apr 13, 2025 am 12:16 AM

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHP：Web開発の重要な言語Apr 13, 2025 am 12:08 AM

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting（）やvar_dump（）などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHP：多くのウェブサイトの基礎Apr 13, 2025 am 12:07 AM

PHPが多くのWebサイトよりも優先テクノロジースタックである理由には、その使いやすさ、強力なコミュニティサポート、広範な使用が含まれます。 1）初心者に適した学習と使用が簡単です。 2）巨大な開発者コミュニティと豊富なリソースを持っています。 3）WordPress、Drupal、その他のプラットフォームで広く使用されています。 4）Webサーバーとしっかりと統合して、開発の展開を簡素化します。

誇大広告を超えて：今日のPHPの役割の評価Apr 12, 2025 am 12:17 AM

PHPは、特にWeb開発の分野で、最新のプログラミングで強力で広く使用されているツールのままです。 1）PHPは使いやすく、データベースとシームレスに統合されており、多くの開発者にとって最初の選択肢です。 2）動的コンテンツ生成とオブジェクト指向プログラミングをサポートし、Webサイトを迅速に作成および保守するのに適しています。 3）PHPのパフォーマンスは、データベースクエリをキャッシュおよび最適化することで改善でき、その広範なコミュニティと豊富なエコシステムにより、今日のテクノロジースタックでは依然として重要になります。

PHPの弱い参照は何ですか、そしていつ有用ですか？Apr 12, 2025 am 12:13 AM

PHPでは、弱い参照クラスを通じて弱い参照が実装され、ガベージコレクターがオブジェクトの回収を妨げません。弱い参照は、キャッシュシステムやイベントリスナーなどのシナリオに適しています。オブジェクトの生存を保証することはできず、ごみ収集が遅れる可能性があることに注意する必要があります。

PHPで__invoke Magicメソッドを説明してください。Apr 12, 2025 am 12:07 AM

\ _ \ _ Invokeメソッドを使用すると、オブジェクトを関数のように呼び出すことができます。 1。オブジェクトを呼び出すことができるように\ _ \ _呼び出しメソッドを定義します。 2。$ obj（...）構文を使用すると、PHPは\ _ \ _ Invokeメソッドを実行します。 3。ロギングや計算機、コードの柔軟性の向上、読みやすさなどのシナリオに適しています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。