Rumah  >  Artikel  >  rangka kerja php  >  Swoole Advanced: Menggunakan coroutine untuk pembangunan perangkak web

Swoole Advanced: Menggunakan coroutine untuk pembangunan perangkak web

WBOY
WBOYasal
2023-06-13 13:29:071562semak imbas

Dengan perkembangan teknologi Internet yang berterusan, perangkak Web telah menjadi bahagian yang amat diperlukan dalam aplikasi Internet hari ini Mereka mempunyai pelbagai senario aplikasi dalam pengumpulan data, penerokaan perniagaan, pemantauan pendapat umum, dsb. Walau bagaimanapun, perangkak web tradisional biasanya menggunakan berbilang benang atau berbilang proses untuk melaksanakan permintaan serentak dan menghadapi masalah seperti penukaran konteks overhed dan penggunaan memori yang berlebihan. Dalam tahun-tahun kebelakangan ini, Swoole telah menjadi bintang baharu dalam aplikasi PHP. Ciri coroutinenya boleh memberikan penyelesaian yang cekap untuk permintaan perangkak web secara serentak.

Dalam artikel ini, kami akan memperkenalkan cara menggunakan coroutine Swoole untuk melaksanakan perangkak web yang ringan dan cekap.

Pengenalan Swoole

Swoole ialah rangka kerja komunikasi rangkaian berprestasi tinggi berdasarkan bahasa PHP. Ciri terbesarnya ialah ia menyokong coroutine. Coroutine ialah utas ringan dalam mod pengguna Berbanding dengan utas dan proses tradisional, coroutine mempunyai kurang overhed penukaran konteks dan kurang penggunaan memori, dan boleh menggunakan prestasi CPU dengan lebih baik.

Menggunakan Swoole untuk melaksanakan perangkak web

Ciri coroutine Swoole menyediakan platform yang sangat baik untuk pembangunan perangkak web. Perangkak web tradisional sering menggunakan sejumlah besar sumber sistem apabila membuat permintaan serentak, tetapi menggunakan coroutine Swoole boleh mencapai permintaan serentak yang tinggi dengan mudah sambil mengelakkan overhed yang disebabkan oleh penukaran benang tradisional.

Berikut ialah contoh mudah perangkak web yang dilaksanakan menggunakan Swoole:

<?php
// 1. 创建Swoole HTTP服务器
$http = new SwooleHttpServer("0.0.0.0", 9501);

// 2. 处理请求
$http->on('request', function ($request, $response) {
    // 3. 发送HTTP请求
    $cli = new SwooleCoroutineHttpClient('www.baidu.com', 80);
    $cli->setHeaders([
        'Host' => "www.baidu.com",
        "User-Agent" => 'Chrome/49.0.2587.3',
        'Accept' => 'text/html,application/xhtml+xml,application/xml',
        'Accept-Encoding' => 'gzip',
    ]);
    $cli->get('/');

    // 4. 响应HTML内容
    $response->header("Content-Type", "text/html; charset=utf-8");
    $response->end($cli->body);
});

// 5. 启动HTTP服务器
$http->start();

Kod contoh di atas mencipta pelayan HTTP Swoole, mendengar pada nombor port 9501. Apabila permintaan HTTP tiba, pelayan akan menghantar permintaan HTTP ke tapak web Baidu dan membalas dengan kandungan HTML.

Klien HTTP Swoole Coroutine

Swoole menyediakan klien HTTP berasaskan coroutine Melalui coroutine, berbilang permintaan HTTP boleh dimulakan secara serentak dalam satu proses dan permintaan boleh dilaksanakan secara selari tanpa Mula. berbilang benang atau proses.

Penggunaan klien HTTP coroutine adalah sangat mudah Berikut ialah contoh penggunaan:

<?php
// 1. 创建协程HTTP客户端
$cli = new SwooleCoroutineHttpClient('www.baidu.com', 80);

// 2. 配置请求头
$cli->setHeaders([
    'Host' => "www.baidu.com",
    "User-Agent" => 'Chrome/49.0.2587.3',
    'Accept' => 'text/html,application/xhtml+xml,application/xml',
    'Accept-Encoding' => 'gzip',
]);

// 3. 发送HTTP请求
$cli->get('/');

// 4. 输出响应内容
echo $cli->body;

Kod contoh di atas mencipta klien HTTP coroutine, menetapkan pengepala permintaan, menghantar permintaan HTTP, dan output Kandungan respons.

Menggunakan coroutine untuk melaksanakan perangkak perangkak

Menggunakan klien HTTP coroutine Swoole, kami boleh melaksanakan perangkak web berprestasi tinggi dengan mudah. Berikut ialah contoh perangkak yang dilaksanakan menggunakan coroutine:

<?php
// 1. 抓取百度搜索结果的页面
$html = file_get_contents('https://www.baidu.com/s?ie=UTF-8&wd=swoole');

// 2. 解析HTML,提取搜索结果列表的URL
preg_match_all('/<a.*?href="(.*?)".*?>/is', $html, $matches);
$urls = $matches[1];

// 3. 并发请求搜索结果列表的URL
$cli = new SwooleCoroutineHttpClient('www.baidu.com', 80);
foreach ($urls as $url) {
    $cli->setHeaders([
        'Host' => "www.baidu.com",
        "User-Agent" => 'Chrome/49.0.2587.3',
        'Accept' => 'text/html,application/xhtml+xml,application/xml',
        'Accept-Encoding' => 'gzip',
    ]);
    $cli->get($url);
    echo $cli->body;
}

// 4. 关闭HTTP客户端
$cli->close();

Kod contoh di atas mula-mula merangkak halaman yang Baidu mencari kata kunci "swoole", menghuraikan HTML, mengekstrak URL senarai hasil carian, dan meminta URL ini secara serentak .

Ringkasan

Sebagai rangka kerja komunikasi rangkaian berprestasi tinggi, ciri coroutine Swoole menyediakan penyelesaian yang cekap untuk pembangunan perangkak web. Menggunakan klien HTTP coroutine Swoole boleh meningkatkan keupayaan permintaan serentak perangkak web sambil mengelakkan penggunaan sumber dan overhed penukaran konteks yang disebabkan oleh berbilang benang atau berbilang proses.

Atas ialah kandungan terperinci Swoole Advanced: Menggunakan coroutine untuk pembangunan perangkak web. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn