찾다
백엔드 개발PHP 튜토리얼PHP로 비동기 멀티스레드 크롤러를 구현하는 방법
PHP로 비동기 멀티스레드 크롤러를 구현하는 방법Jun 13, 2023 pm 01:31 PM
php멀티스레딩비동기식

웹 크롤러 구현에서 비동기 멀티스레딩은 크롤링 효율성을 크게 향상시킬 수 있습니다. 주류 프로그래밍 언어인 PHP는 동시 프로그래밍을 통해 비동기 다중 스레드 크롤러를 구현할 수도 있습니다. 이 기사에서는 구체적인 구현 방법을 소개합니다.

1. 비동기 멀티스레드 크롤러 개요

비동기 멀티스레드 크롤러는 주로 비동기식 IO와 멀티스레드 처리라는 두 가지 기술을 사용합니다. 기존 동기 IO에서 스레드는 다음 단계로 진행하기 전에 IO 작업이 완료될 때까지 기다립니다. 비동기 IO에서는 스레드가 IO 작업을 기다리는 동안 다른 작업을 수행할 수 있으므로 프로그램 실행 효율성이 향상됩니다. 멀티스레딩은 동시에 여러 작업을 수행하여 작업 처리 속도를 높일 수 있습니다.

2. 비동기 멀티스레딩 구현 원칙

PHP에서 비동기 멀티스레딩을 구현하는 것은 주로 pthread와 cURL이라는 두 가지 확장에 의존합니다. pthread 확장은 POSIX 스레드 표준을 기반으로 하는 멀티스레드 확장으로, PHP에서 멀티스레딩 기능을 활성화할 수 있습니다. cURL은 cURL을 통해 네트워크 데이터 전송을 실현할 수 있는 PHP에서 사용되는 네트워크 라이브러리입니다.

비동기 멀티스레드 크롤러를 구현하는 주요 과정은 다음과 같습니다.

  1. 메인 스레드와 여러 개의 하위 스레드를 생성하고 필요에 따라 하위 스레드를 생성하고 삭제할 수 있습니다.
  2. 메인 스레드가 시작되면 작업 대기열에서 보류 중인 작업을 꺼내고 처리를 위해 해당 작업을 하위 스레드에 할당합니다.
  3. 하위 스레드가 시작되면 cURL을 통해 네트워크 요청을 시작하여 필요한 데이터를 얻습니다.
  4. 네트워크 응답을 기다리는 동안 하위 스레드는 다른 작업을 처리할 수 있어 크롤러 작업 효율성을 높일 수 있습니다.
  5. 하위 스레드 요청이 완료되면 크롤링된 데이터가 메인 스레드로 전송되고, 메인 스레드는 지정된 저장 위치에 결과를 저장합니다.
  6. 작업 대기열에 처리할 작업이 아직 남아 있으면 위 단계를 반복하세요.

3. 구현 단계

  1. pthread 확장 설치

Linux에서는 다음 명령을 사용하여 pthread 확장을 설치할 수 있습니다.

sudo pecl install pthreads

Windows에서는 pthread 확장 DLL을 얻을 수 있습니다. PHP 공식 웹사이트에서 파일을 설치하세요.

  1. 메인 스레드 및 하위 스레드 만들기

메인 스레드와 하위 스레드 생성은 PHP의 Thread 클래스를 통해 수행할 수 있습니다.

class SpiderThread 확장 스레드 {

private $url;

public function __construct($url) {
    $this->url = $url;
}

public function run() {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $this->url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    $result = curl_exec($ch);
    curl_close($ch);
    $this->synchronized(function($thread){
        $thread->notify();
    }, $this);
    return $result;
}

}

메인 스레드는 pthreads에 의해 확장된 Mutex 클래스를 통해 동기화될 수 있습니다.

$mutex = new Mutex();
$threads = array();
foreach($urls as $url) {

$mutex->lock();
$threads[] = new SpiderThread($url);
end($threads)->start();
$mutex->unlock();
$mutex->synchronized(function($mutex){
    $mutex->wait();
}, $mutex);

}
foreach($threads as $thread) {

$result = $thread->join();
//处理爬取结果

}

위 코드에서 $urls는 크롤링할 링크를 저장하는 배열입니다. 메인 스레드는 배열을 순회하며 작업 처리를 위한 하위 스레드를 생성합니다. 하위 스레드에서 반환된 결과는 $result에 저장됩니다.

  1. 스레드 풀 구현

프로그램 실행 효율성을 향상시키기 위해 스레드 풀 기술을 사용하여 하위 스레드의 생성 및 소멸을 관리할 수 있습니다. 특정 개수의 하위 스레드가 스레드 풀에 유지됩니다. 기본 스레드가 스레드 풀에 작업을 제출하면 스레드 풀은 스레드의 실시간 상태를 기반으로 작업 처리를 위해 유휴 스레드 중 하나를 선택합니다.

다음은 간단한 스레드 풀 구현 예입니다.

class ThreadPool {

private $pool;
private $tasks;

public function __construct($size) {
    $this->pool = new SplQueue();
    for($i = 0; $i < $size; $i++) {
        $this->pool->enqueue(new SpiderThread());
    }
    $this->tasks = new SplQueue();
}

public function execute($task) {
    if($this->pool->isEmpty()) {
        $this->tasks->enqueue($task);
    } else {
        $thread = $this->pool->dequeue();
        $thread->execute($task);
    }
}

public function addThread($thread) {
    $this->pool->enqueue($thread);
}

public function addTask($task) {
    $this->tasks->enqueue($task);
    $this->checkTask();
}

public function checkTask() {
    if(!$this->tasks->isEmpty() && !$this->pool->isEmpty()) {
        $thread = $this->pool->dequeue();
        $task = $this->tasks->dequeue();
        $thread->execute($task);
    }
}

}

IV 요약

이 문서에서는 다음을 통해 PHP에서 비동기 멀티 스레드 크롤러를 구현하는 기본 방법을 소개합니다. pthread 및 cURL은 멀티스레딩 및 네트워크 데이터 전송을 구현하여 크롤러의 운영 효율성을 크게 향상시킬 수 있습니다. 실제 응용에서는 스레드 풀 기술을 사용하여 프로그램 실행 효율성을 더욱 향상시킬 수 있습니다.

위 내용은 PHP로 비동기 멀티스레드 크롤러를 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
php怎么把负数转为正整数php怎么把负数转为正整数Apr 19, 2022 pm 08:59 PM

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

php怎么实现几秒后执行一个函数php怎么实现几秒后执行一个函数Apr 24, 2022 pm 01:12 PM

实现方法:1、使用“sleep(延迟秒数)”语句,可延迟执行函数若干秒;2、使用“time_nanosleep(延迟秒数,延迟纳秒数)”语句,可延迟执行函数若干秒和纳秒;3、使用“time_sleep_until(time()+7)”语句。

php字符串有没有下标php字符串有没有下标Apr 24, 2022 am 11:49 AM

php字符串有下标。在PHP中,下标不仅可以应用于数组和对象,还可应用于字符串,利用字符串的下标和中括号“[]”可以访问指定索引位置的字符,并对该字符进行读写,语法“字符串名[下标值]”;字符串的下标值(索引值)只能是整数类型,起始值为0。

php怎么除以100保留两位小数php怎么除以100保留两位小数Apr 22, 2022 pm 06:23 PM

php除以100保留两位小数的方法:1、利用“/”运算符进行除法运算,语法“数值 / 100”;2、使用“number_format(除法结果, 2)”或“sprintf("%.2f",除法结果)”语句进行四舍五入的处理值,并保留两位小数。

php怎么读取字符串后几个字符php怎么读取字符串后几个字符Apr 22, 2022 pm 08:31 PM

在php中,可以使用substr()函数来读取字符串后几个字符,只需要将该函数的第二个参数设置为负值,第三个参数省略即可;语法为“substr(字符串,-n)”,表示读取从字符串结尾处向前数第n个字符开始,直到字符串结尾的全部字符。

php怎么根据年月日判断是一年的第几天php怎么根据年月日判断是一年的第几天Apr 22, 2022 pm 05:02 PM

判断方法:1、使用“strtotime("年-月-日")”语句将给定的年月日转换为时间戳格式;2、用“date("z",时间戳)+1”语句计算指定时间戳是一年的第几天。date()返回的天数是从0开始计算的,因此真实天数需要在此基础上加1。

php怎么查找字符串是第几位php怎么查找字符串是第几位Apr 22, 2022 pm 06:48 PM

查找方法:1、用strpos(),语法“strpos("字符串值","查找子串")+1”;2、用stripos(),语法“strpos("字符串值","查找子串")+1”。因为字符串是从0开始计数的,因此两个函数获取的位置需要进行加1处理。

php怎么替换nbsp空格符php怎么替换nbsp空格符Apr 24, 2022 pm 02:55 PM

方法:1、用“str_replace("&nbsp;","其他字符",$str)”语句,可将nbsp符替换为其他字符;2、用“preg_replace("/(\s|\&nbsp\;||\xc2\xa0)/","其他字符",$str)”语句。

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기