PHP Linuxスクリプト動作例：Webクローラの実装-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP Linuxスクリプト動作例：Webクローラの実装

PHPz

Oct 05, 2023 am 08:43 AM

phpクローラーLinux

PHP Linux脚本操作实例：实现网络爬虫

PHP Linux スクリプトの動作例: Web クローラーの実装

Web クローラーとは、インターネット上の Web ページを自動的に閲覧し、必要な情報を収集・抽出するプログラムです。 Web クローラーは、Web サイトのデータ分析、検索エンジンの最適化、市場競争分析などのアプリケーションにとって非常に便利なツールです。この記事では、PHP と Linux スクリプトを使用して単純な Web クローラーを作成し、具体的なコード例を示します。

準備

まず、サーバーに PHP と関連するネットワークリクエストライブラリ (cURL) がインストールされていることを確認する必要があります。
次のコマンドを使用して cURL をインストールできます:

sudo apt-get install php-curl

クローラー関数の作成

PHP を使用して、Web ページのコンテンツを取得する簡単な関数を作成します。指定された URL の。具体的なコードは次のとおりです。

function getHtmlContent($url)
{
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    $html = curl_exec($ch);
    curl_close($ch);
    
    return $html;
}

この関数は、cURL ライブラリを使用して HTTP リクエストを送信し、取得した Web ページのコンテンツを返します。

データの取得

ここで、上記の関数を使用して、指定された Web ページのデータをクロールできます。以下は例です。

$url = 'https://example.com';  // 指定要抓取的网页URL

$html = getHtmlContent($url);  // 获取网页内容

// 在获取到的网页内容中查找所需的信息
preg_match('/<h1 id="">(.*?)</h1>/s', $html, $matches);

if (isset($matches[1])) {
    $title = $matches[1];  // 提取标题
    echo "标题：".$title;
} else {
    echo "未找到标题";
}

上の例では、まず getHtmlContent 関数を通じて指定された Web ページのコンテンツを取得し、次に正規表現を使用してそのコンテンツからタイトルを抽出します。ウェブページのコンテンツ。

複数ページのクロール

単一の Web ページからデータをクロールするだけでなく、複数の Web ページからデータをクロールするクローラーを作成することもできます。以下に例を示します。

$urls = ['https://example.com/page1', 'https://example.com/page2', 'https://example.com/page3'];

foreach ($urls as $url) {
    $html = getHtmlContent($url);  // 获取网页内容

    // 在获取到的网页内容中查找所需的信息
    preg_match('/<h1 id="">(.*?)</h1>/s', $html, $matches);

    if (isset($matches[1])) {
        $title = $matches[1];  // 提取标题
        echo "标题：".$title;
    } else {
        echo "未找到标题";
    }
}

この例では、各 URL に同じクロールロジックを使用して、ループを使用して複数の URL を走査します。

結論

PHP と Linux スクリプトを使用すると、シンプルで効果的な Web クローラーを簡単に作成できます。このクローラを使用すると、インターネット上のデータを取得し、さまざまなアプリケーションで役割を果たします。データ分析、検索エンジンの最適化、市場競争分析など、Web クローラーは強力なツールを提供します。

実際のアプリケーションでは、Web クローラーは次の点に注意する必要があります:

Web サイトの robots.txt ファイルを尊重し、ルールに従います;
ターゲット Web サイトに過剰な負荷がかからないよう、クロールの間隔を適切に設定します。
IP によってブロックされないように、ターゲット Web サイトのアクセス制限に注意してください。

この記事の紹介と例を通じて、PHP と Linux スクリプトを使用して簡単な Web クローラーを作成する方法を理解し、学習できることを願っています。幸せなご利用をお祈りしております！

以上がPHP Linuxスクリプト動作例：Webクローラの実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPセッションの概念を簡単に説明してください。Apr 26, 2025 am 12:09 AM

phpssionsStrackuserdataacrossmultiplepagerequestsusingauniqueidstoredinacookie.here'showtomanageetheemefectively：1）Startassession withsession_start（）andstoredatain $ _ session.2）RegeneratesseSsessidafterloginwithsession_id（the topreventes_id）

PHPセッションに保存されているすべての値をどのようにループしますか？Apr 26, 2025 am 12:06 AM

PHPでは、次の手順を通じてセッションデータを繰り返すことができます。1。session_start（）を使用してセッションを開始します。 2。$ _Sessionアレイのすべてのキー価値ペアを介してforeachループを反復します。 3.複雑なデータ構造を処理する場合、is_array（）またはis_object（）関数を使用し、print_r（）を使用して詳細情報を出力します。 4.トラバーサルを最適化する場合、ページングを使用して、一度に大量のデータの処理を避けることができます。これにより、実際のプロジェクトでPHPセッションデータをより効率的に管理および使用するのに役立ちます。

ユーザー認証にセッションを使用する方法を説明します。Apr 26, 2025 am 12:04 AM

このセッションは、サーバー側の状態管理メカニズムを介してユーザー認証を実現します。 1）セッションの作成と一意のIDの生成、2）IDはCookieを介して渡されます。3）サーバーストアとIDを介してセッションデータにアクセスします。

PHPセッションにユーザーの名前を保存する方法の例を挙げてください。Apr 26, 2025 am 12:03 AM

tostoreauser'snameInappession、starthessession withsession_start（）、thensignthenameto $ _session ['username']。1）ousession_start（）toinitializethessession.2）assighttheuser'snameto $ _ session ['username']

PHPセッションを失敗させる可能性のあるいくつかの一般的な問題は何ですか？Apr 25, 2025 am 12:16 AM

PHPSESSIONの障害の理由には、構成エラー、Cookieの問題、セッションの有効期限が含まれます。 1。構成エラー：正しいセッションをチェックして設定します。save_path。 2.Cookieの問題：Cookieが正しく設定されていることを確認してください。 3.セッションの有効期限：セッションを調整してください。GC_MAXLIFETIME値はセッション時間を延長します。

PHPでセッションの問題をデバッグする方法は次のとおりです。1。セッションが正しく開始されるかどうかを確認します。 2.セッションIDの配信を確認します。 3.セッションデータのストレージと読み取りを確認します。 4.サーバーの構成を確認します。セッションIDとデータを出力し、セッションファイルのコンテンツを表示するなど、セッション関連の問題を効果的に診断して解決できます。

session_start（）が複数回呼び出されるとどうなりますか？Apr 25, 2025 am 12:06 AM

session_start（）への複数の呼び出しにより、警告メッセージと可能なデータ上書きが行われます。 1）PHPは警告を発し、セッションが開始されたことを促します。 2）セッションデータの予期しない上書きを引き起こす可能性があります。 3）session_status（）を使用してセッションステータスを確認して、繰り返しの呼び出しを避けます。

PHPでセッションのライフタイムをどのように構成しますか？Apr 25, 2025 am 12:05 AM

PHPでのセッションライフサイクルの構成は、session.gc_maxlifetimeとsession.cookie_lifetimeを設定することで達成できます。 1）session.gc_maxlifetimeサーバー側のセッションデータのサバイバル時間を制御します。 0に設定すると、ブラウザが閉じているとCookieが期限切れになります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。