PHP单线程实现并行抓取网页_PHP教程-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP单线程实现并行抓取网页_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 13, 2016 am 10:22 AM

php단일 스레드성취하다할 것이다평행한기다지도 시간시뮬레이션실웹페이지

PHP单线程实现并行抓取网页

　　本PHP教程将模拟并行抓取多个页面信息的过程，关键在于单线程的并行处理。

　　一般情况下，大家写抓取多个页面信息的程序都采用串行方案，但获取周期过长，不实用。于是我想到用curl 去并行抓取。但是，最后发现，那个虚拟服务器上没有curl，这真是让人纠结。于是，我决定改变思路，用单个线程也实现多个线程的效果。我想对网络编程有点

　　了解的人肯定知道IO复用这个概念，当然PHP上也是支持的，而且，内部支持，不需要任何扩展。

　　可能有很多年编程经验的人对PHP的stream 函数可能不太了解。PHP的压缩文件流，文件流，tcp 协议下的应用都封装成一个stream。所以，读本地文件

　　和读网络文件没有任何的差别。说了这样多，我想大家都基本上明白了，直接贴上代码吧：

　　代码比较的粗糙，如果大家要实际用的话，还是要处理一些细节问题。

　　代码

　　function http_get_open($url)

　　{

　　$url = parse_url($url);

　　if (empty($url['host'])) {

　　return false;

　　}

　　$host = $url['host'];

　　if (empty($url['path'])) {

　　$url['path'] = "/";

　　}

　　$get = $url['path'] . "?" . @$url['query'];

　　$fp = stream_socket_client("tcp://{$host}:80", $errno, $errstr, 30);

　　if (!$fp) {

　　echo "$errstr ($errno)
\n";

　　return false;

　　} else {

　　fwrite($fp, "GET {$get} HTTP/1.0\r\nHost: {$host}\r\nAccept: */*\r\n\r\n");

　　}

　　return $fp;

　　}

　　function http_multi_get($urls)

　　{

　　$result = array();

　　$fps = array();

　　foreach ($urls as $key => $url)

　　{

　　$fp = http_get_open($url);

　　if ($fp === false) {

　　$result[$key] = false;

　　} else {

　　$result[$key] = '';

　　$fps[$key] = $fp;

　　}

　　while (1)

　　{

　　$reads = $fps;

　　if (empty($reads)) {

　　break;

　　}

　　if (($num = stream_select($reads, $w = null, $e = null, 30)) === false ) {

　　echo "error";

　　return false;

　　} else if ($num > 0) {//can read

　　foreach ($reads as $value)

　　{

　　$key = array_search($value, $fps);

　　if (!feof($value)) {

　　$result[$key] .= fread($value, 128);

　　} else {

　　unset($fps[$key]);

　　}

　　} else {//time out

　　echo "timeout";

　　return false;

　　}

　　foreach ($result as $key => &$value)

　　{

　　if ($value) {

　　$value = explode("\r\n\r\n", $value, 2);

　　}

　　return $result;

　　}

　　$urls = array();

　　$urls[] = "http://www.qq.com";

　　$urls[] = "http://www.sina.com.cn";

　　$urls[] = "http://www.sohu.com";

　　$urls[] = "http://www.blue1000.com";

　　//并行的抓取

　　$t1 = microtime(true);

　　$result = http_multi_get($urls);

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　//串行的抓取

　　$t1 = microtime(true);

　　foreach ($urls as $value)

　　{

　　file_get_contents($value);

　　}

　　$t1 = microtime(true) - $t1;

　　var_dump("cost: " . $t1);

　　最后运行的结果：

　　string 'cost: 3.2403128147125' (length=21)

　　string 'cost: 6.2333900928497' (length=21)

　　基本上是两倍的效率，当然，发现新浪非常的慢，要2.5s 左右，

　　基本上是被他给拖累了，360只要 0.2s

　　如果，所有网站都差不多的速度，并行的数目更大，那么差的倍数也就越大。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP의 현재 상태 : 웹 개발 동향을 살펴보십시오Apr 13, 2025 am 12:20 AM

PHP는 현대 웹 개발, 특히 컨텐츠 관리 및 전자 상거래 플랫폼에서 중요합니다. 1) PHP는 Laravel 및 Symfony와 같은 풍부한 생태계와 강력한 프레임 워크 지원을 가지고 있습니다. 2) Opcache 및 Nginx를 통해 성능 최적화를 달성 할 수 있습니다. 3) PHP8.0은 성능을 향상시키기 위해 JIT 컴파일러를 소개합니다. 4) 클라우드 네이티브 애플리케이션은 Docker 및 Kubernetes를 통해 배포되어 유연성과 확장 성을 향상시킵니다.

PHP 대 기타 언어 : 비교Apr 13, 2025 am 12:19 AM

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP vs. Python : 핵심 기능 및 기능Apr 13, 2025 am 12:16 AM

PHP와 Python은 각각 고유 한 장점이 있으며 다양한 시나리오에 적합합니다. 1.PHP는 웹 개발에 적합하며 내장 웹 서버 및 풍부한 기능 라이브러리를 제공합니다. 2. Python은 간결한 구문과 강력한 표준 라이브러리가있는 데이터 과학 및 기계 학습에 적합합니다. 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

PHP : 웹 개발의 핵심 언어Apr 13, 2025 am 12:08 AM

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7

PHP : 많은 웹 사이트의 기초Apr 13, 2025 am 12:07 AM

PHP가 많은 웹 사이트에서 선호되는 기술 스택 인 이유에는 사용 편의성, 강력한 커뮤니티 지원 및 광범위한 사용이 포함됩니다. 1) 배우고 사용하기 쉽고 초보자에게 적합합니다. 2) 거대한 개발자 커뮤니티와 풍부한 자원이 있습니다. 3) WordPress, Drupal 및 기타 플랫폼에서 널리 사용됩니다. 4) 웹 서버와 밀접하게 통합하여 개발 배포를 단순화합니다.

과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.