PHP 크롤러를 위한 동시성 및 멀티스레딩 기술-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP 크롤러를 위한 동시성 및 멀티스레딩 기술

PHPz

Aug 08, 2023 pm 02:31 PM

동시 처리PHP 크롤러멀티스레딩 팁

PHP 크롤러를 위한 동시성 및 멀티스레딩 기술

PHP 크롤러의 동시성 및 멀티스레드 처리 기술

소개:
인터넷의 급속한 발전으로 인해 많은 양의 데이터 정보가 다양한 웹 사이트에 저장되고 있으며 이 데이터를 얻는 것이 많은 비즈니스에서 필수 사항이 되었습니다. 시나리오. 크롤러는 네트워크 정보를 자동으로 얻기 위한 도구로서 데이터 수집, 검색 엔진, 여론 분석 및 기타 분야에서 널리 사용됩니다. 이 기사에서는 PHP 기반 크롤러 클래스에 대한 동시성 및 멀티스레딩 처리 기술을 소개하고 코드 예제를 통해 그 구현을 보여줍니다.

1. 파충류 클래스의 기본 구조
파충류 클래스의 동시성 및 멀티스레드 처리를 구현하기 전에 먼저 기본 파충류 클래스의 구조를 살펴보겠습니다.

class Crawler {
    private $startUrl;

    public function __construct($startUrl) {
        $this->startUrl = $startUrl;
    }

    public function crawl() {
        // 获取初始页面的内容
        $content = $this->getContent($this->startUrl);

        // 解析页面内容，获取需要的信息
        $data = $this->parseContent($content);

        // 处理获取到的信息，进行业务逻辑处理或存储
        $this->processData($data);

        // 获取页面中的链接，并递归抓取
        $urls = $this->getUrls($content);
        foreach ($urls as $url) {
            $content = $this->getContent($url);
            $data = $this->parseContent($content);
            $this->processData($data);
        }
    }

    private function getContent($url) {
        // 发起HTTP请求，获取页面内容
        // ...
        return $content;
    }

    private function parseContent($content) {
        // 解析页面内容，提取需要的信息
        // ...
        return $data;
    }

    private function processData($data) {
        // 处理获取到的信息，进行逻辑处理或存储
        // ...
    }

    private function getUrls($content) {
        // 获取页面中的链接
        // ...
        return $urls;
    }
}

위 코드에서는 먼저 Crawler 클래스를 정의하고 생성자를 통해 시작 URL을 전달합니다. 크롤링() 메서드에서는 먼저 시작 페이지의 콘텐츠를 얻은 다음 페이지 콘텐츠를 구문 분석하고 필요한 정보를 추출합니다. 그 후, 획득한 정보를 데이터베이스에 저장하는 등 처리할 수 있습니다. 마지막으로 페이지의 링크를 가져오고 다른 페이지를 재귀적으로 크롤링합니다.

2. 동시 처리
일반적으로 크롤러는 많은 수의 URL을 처리해야 하며 네트워크 요청의 IO 작업에는 시간이 많이 걸립니다. 순차 실행을 사용하는 경우 하나의 요청이 완료된 후 다음 요청을 요청하면 크롤링 효율성이 크게 저하됩니다. 동시 처리 기능을 향상시키기 위해 PHP의 다중 프로세스 확장을 사용하여 이를 달성할 수 있습니다.

class ConcurrentCrawler {
    private $urls;

    public function __construct($urls) {
        $this->urls = $urls;
    }

    public function crawl() {
        $workers = [];
        $urlsNum = count($this->urls);
        $maxWorkersNum = 10; // 最大进程数

        for ($i = 0; $i < $maxWorkersNum; $i++) {
            $pid = pcntl_fork();
            if ($pid == -1) {
                die('fork failed');
            } else if ($pid == 0) {
                for ($j = $i; $j < $urlsNum; $j += $maxWorkersNum) {
                    $this->processUrl($this->urls[$j]);
                }
                exit();
            } else {
                $workers[$pid] = true;
            }
        }

        while (count($workers)) {
            $pid = pcntl_wait($status, WUNTRACED);
            if ($status == 0) {
                unset($workers[$pid]);
            } else {
                $workers[$pid] = false;
            } 
        }
    }

    private function processUrl($url) {
        // 发起HTTP请求，获取页面内容
        // ...
        // 解析页面内容，获取需要的信息
        // ...
        // 处理获取到的信息，进行逻辑处理或存储
        // ...
    }
}

위 코드에서는 먼저 ConcurrentCrawler 클래스를 정의하고 생성자를 통해 크롤링해야 하는 URL 집합을 전달합니다. 크롤링() 메소드에서는 동시 처리를 위해 다중 프로세스 방식을 사용합니다. pcntl_fork() 함수를 사용하면 URL의 일부가 각 하위 프로세스에서 처리되고 상위 프로세스는 하위 프로세스를 관리합니다. 마지막으로 pcntl_wait() 함수를 통해 모든 하위 프로세스가 끝날 때까지 기다립니다.

3. 멀티스레드 처리
동시 처리를 위해 여러 프로세스를 사용하는 것 외에도 PHP의 스레드 확장을 사용하여 멀티스레드 처리를 구현할 수도 있습니다.

class MultithreadCrawler extends Thread {
    private $url;

    public function __construct($url) {
        $this->url = $url;
    }

    public function run() {
        // 发起HTTP请求，获取页面内容
        // ...
        // 解析页面内容，获取需要的信息
        // ...
        // 处理获取到的信息，进行逻辑处理或存储
        // ...
    }
}

class Executor {
    private $urls;

    public function __construct($urls) {
        $this->urls = $urls;
    }

    public function execute() {
        $threads = [];
        foreach ($this->urls as $url) {
            $thread = new MultithreadCrawler($url);
            $thread->start();
            $threads[] = $thread;
        }

        foreach ($threads as $thread) {
            $thread->join();
        }
    }
}

위 코드에서는 먼저 Thread 클래스에서 상속되는 MultithreadCrawler 클래스를 정의하고 run() 메서드를 스레드의 기본 논리로 다시 작성합니다. Executor 클래스에서는 루프를 통해 여러 스레드를 생성하고 실행을 위해 시작합니다. 마지막으로 Join() 메소드를 통해 모든 스레드가 끝날 때까지 기다립니다.

결론:
PHP 크롤러의 동시성 및 멀티스레드 처리 기술 도입을 통해 동시성 처리와 멀티스레드 처리 모두 크롤러의 크롤링 효율성을 크게 향상시킬 수 있음을 알 수 있습니다. 그러나 실제 개발 과정에서는 구체적인 상황에 따라 적절한 처리 방법을 선택해야 합니다. 동시에 다중 스레드 또는 다중 프로세스의 안전을 보장하기 위해 처리 중에 적절한 동기화 작업도 수행해야 합니다.

위 내용은 PHP 크롤러를 위한 동시성 및 멀티스레딩 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP 세션의 개념을 간단한 용어로 설명하십시오.Apr 26, 2025 am 12:09 AM

phpsessionstrackuserdataacrossmultiplepagerequestsususingauniqueIdStoredInAcookie.here'showtomanagetheMeftically : 1) STARTASESSIONSTART_START () andSTAREDATAIN $ _SESSION.2) RegenerATERATESSESSIDIDAFTERLOGINWITHSESSION_RATERATERATES (True) TopreventSES

PHP 세션에 저장된 모든 값을 어떻게 반복합니까?Apr 26, 2025 am 12:06 AM

PHP에서 세션 데이터를 통한 반복은 다음 단계를 통해 달성 할 수 있습니다. 1. Session_start ()를 사용하여 세션을 시작하십시오. 2. $ _session 배열의 모든 키 값 쌍을 통해 Foreach 루프를 통과합니다. 3. 복잡한 데이터 구조를 처리 할 때 is_array () 또는 is_object () 함수를 사용하고 print_r ()를 사용하여 자세한 정보를 출력하십시오. 4. Traversal을 최적화 할 때 페이징을 사용하여 한 번에 많은 양의 데이터를 처리하지 않도록 할 수 있습니다. 이를 통해 실제 프로젝트에서 PHP 세션 데이터를보다 효율적으로 관리하고 사용하는 데 도움이됩니다.

사용자 인증에 세션을 사용하는 방법을 설명하십시오.Apr 26, 2025 am 12:04 AM

이 세션은 서버 측 상태 관리 메커니즘을 통해 사용자 인증을 인식합니다. 1) 세션 생성 및 고유 ID의 세션 생성, 2) ID는 쿠키를 통해 전달됩니다. 3) ID를 통해 서버 저장 및 세션 데이터에 액세스합니다. 4) 사용자 인증 및 상태 관리가 실현되어 응용 프로그램 보안 및 사용자 경험이 향상됩니다.

PHP 세션에 사용자 이름을 저장하는 방법의 예를 제시하십시오.Apr 26, 2025 am 12:03 AM

tostoreauser'snameinaphpsession, startSessionstart_start (), wathsignthenameto $ _session [ 'username']. 1) useSentess_start () toinitializethesession.2) assimeuser'snameto $ _session [ 'username']

PHP 세션이 실패 할 수있는 몇 가지 일반적인 문제는 무엇입니까?Apr 25, 2025 am 12:16 AM

phpsession 실패 이유에는 구성 오류, 쿠키 문제 및 세션 만료가 포함됩니다. 1. 구성 오류 : 올바른 세션을 확인하고 설정합니다. 2. 쿠키 문제 : 쿠키가 올바르게 설정되어 있는지 확인하십시오. 3. 세션 만료 : 세션 시간을 연장하기 위해 세션을 조정합니다 .GC_MAXLIFETIME 값을 조정하십시오.

PHP에서 세션 문제를 디버그하는 방법 : 1. 세션이 올바르게 시작되었는지 확인하십시오. 2. 세션 ID의 전달을 확인하십시오. 3. 세션 데이터의 저장 및 읽기를 확인하십시오. 4. 서버 구성을 확인하십시오. 세션 ID 및 데이터를 출력, 세션 파일 컨텐츠보기 등을 통해 세션 관련 문제를 효과적으로 진단하고 해결할 수 있습니다.

session_start ()가 여러 번 호출되면 어떻게됩니까?Apr 25, 2025 am 12:06 AM

Session_Start ()로 여러 통화를하면 경고 메시지와 가능한 데이터 덮어 쓰기가 발생합니다. 1) PHP는 세션이 시작되었다는 경고를 발행합니다. 2) 세션 데이터의 예상치 못한 덮어 쓰기를 유발할 수 있습니다. 3) Session_status ()를 사용하여 반복 통화를 피하기 위해 세션 상태를 확인하십시오.

PHP에서 세션 수명을 어떻게 구성합니까?Apr 25, 2025 am 12:05 AM

SESSION.GC_MAXLIFETIME 및 SESSION.COOKIE_LIFETIME을 설정하여 PHP에서 세션 수명을 구성 할 수 있습니다. 1) SESSION.GC_MAXLIFETIME 서버 측 세션 데이터의 생존 시간을 제어합니다. 2) 세션 .Cookie_Lifetime 클라이언트 쿠키의 수명주기를 제어합니다. 0으로 설정하면 브라우저가 닫히면 쿠키가 만료됩니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.