찾다
백엔드 개발PHP 튜토리얼PHP 웹 크롤링 기본 튜토리얼: cURL 라이브러리를 사용하여 웹 사이트에 액세스

인터넷이 발전하고 데이터가 증가함에 따라 웹 크롤러는 인터넷 정보를 얻는 중요한 방법 중 하나가 되었습니다. 웹 크롤러는 네트워크 요청을 통해 웹 사이트에 접속하여 웹 사이트의 정보를 크롤링하고 이를 처리 및 분석하는 자동화된 프로그램입니다. 이번 경우에는 PHP로 기본 웹 크롤러를 작성하는 방법, cURL 라이브러리를 사용하여 크롤링이 필요한 웹사이트에 접속하고, 획득한 정보를 처리하는 방법을 소개하겠습니다.

  1. cURL 라이브러리 설치

cURL 라이브러리는 명령줄에서 작동하는 URL 변환 도구를 위한 매우 강력한 도구이며 HTTP/HTTPS/FTP/TELNET과 같은 네트워크 프로토콜도 지원합니다. cURL 라이브러리를 사용하면 쉽게 웹 데이터를 크롤링하고, FTP, HTTP POST 및 PUT 데이터를 통해 파일을 업로드하고, 기본, 다이제스트 또는 GSS-Negotiate 인증 방법을 사용하여 원격 사이트 리소스에 액세스할 수 있습니다. cURL 라이브러리는 매우 편리하고 사용하기 쉽기 때문에 웹 크롤러 작성에 널리 사용됩니다.

이 튜토리얼에서는 CURL 확장을 사용하여 cURL을 사용하는 방법을 시연하므로 먼저 PHP에 cURL 확장 라이브러리를 설치해야 합니다. 다음 명령줄을 사용하여 cURL 확장을 설치할 수 있습니다.

sudo apt-get install php-curl

설치 후 확장 라이브러리가 정상적으로 실행될 수 있도록 php-fpm 서비스를 다시 시작해야 합니다.

  1. 기본 크롤러 스크립트 뼈대

다음으로 지정된 URL에 액세스하여 URL 웹 페이지의 일부 기본 정보를 얻는 기본 웹 크롤러를 작성하겠습니다. 다음은 기본 크롤러 스크립트 뼈대입니다.

<?php
$curl = curl_init();           
$url = "https://www.example.com/";
curl_setopt($curl, CURLOPT_URL, $url);     
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($curl);  
curl_close($curl);       
echo $result;
?>

위 코드는 다음을 수행합니다.

  • cURL 세션을 초기화합니다.
  • 정보를 추출하려는 URL을 설정하세요.
  • cURL이 데이터를 화면에 직접 출력하는 대신 데이터를 반환하도록 옵션을 설정합니다.
  • 요청을 실행하고 데이터를 얻으세요.
  • cURL 세션을 해제하세요.

필요에 따라 컬_setopt 옵션을 사용자 정의할 수도 있습니다. 예를 들어, 다음 코드 줄을 사용하여 시간 제한을 설정하는 옵션을 추가할 수 있습니다.

curl_setopt($curl, CURLOPT_TIMEOUT, 5); // 5秒超时

또한, 웹 사이트가 요청될 때 요청을 보내는 브라우저를 시뮬레이션하기 위해 컬_setopt 옵션을 사용하여 HTTP 헤더를 설정할 수 있습니다. 쿠키를 설정해야 하는 경우, 컬_setopt 옵션을 사용하여 쿠키 자리 표시자를 설정하거나 cURL 쿠키에서 관련 기능을 사용할 수 있습니다.

데이터를 얻은 후 이를 추출, 구문 분석 및 필터링해야 할 수도 있습니다. 이 과정에서 PHP의 문자열 처리 기능, 정규식 또는 기타 구문 분석 라이브러리를 사용해야 할 수도 있습니다.

  1. 예: 대상 웹사이트에서 정보 추출

웹 크롤러 작성 과정을 더 잘 이해하기 위해 다음은 웹사이트에서 정보를 추출하는 방법을 보여주는 예입니다. 본 웹사이트(www.example.com)는 의미 있는 데이터를 얻을 수 있는 테스트 웹사이트입니다.

먼저, 지정된 웹사이트에서 데이터를 가져오기 위해 cURL 라이브러리를 사용해야 합니다. 다음은 데이터를 가져오는 데 사용되는 코드 조각입니다.

<?php
$curl = curl_init();
$url = "https://www.example.com/";
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($curl);
curl_close($curl);
echo $result;
?>

위 코드를 실행하면 www.example.com의 전체 HTML 콘텐츠가 출력됩니다. 웹사이트. 획득한 웹사이트에서 특정 정보를 추출해야 하므로 HTML을 구문 분석해야 합니다. 다음 코드와 같이 DOMDocument 클래스를 사용하여 HTML을 구문 분석합니다.

<?php
$curl = curl_init();
$url = "https://www.example.com/";
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec($curl);
curl_close($curl);
$dom = new DOMDocument;
$dom->loadHTML($result);
foreach ($dom->getElementsByTagName('a') as $link) {
    echo $link->getAttribute('href'), PHP_EOL;
}
?>

위 코드는 DOMDocument 클래스를 사용하여 HTML을 로드하고 getElementsByTagName() 메서드를 사용하여 모든 요소를 가져옵니다. 그런 다음 getAttribute() 메소드를 사용하여 해당 요소의 href 속성을 가져올 수 있습니다. 코드를 실행하면 출력이 HTML 태그에 포함된 URL을 구문 분석하고 출력하는 것을 볼 수 있습니다.

  1. 요약

이 글에서는 cURL 라이브러리를 사용하여 기본 웹 크롤러를 작성하는 방법을 소개했습니다. 또한 웹사이트에서 데이터를 추출하는 방법과 HTML 문서를 구문 분석하는 방법도 다루었습니다. 이러한 기본 개념을 이해하면 웹 크롤러의 작동 방식을 더 잘 이해하고 직접 작성을 시작할 수 있습니다. 물론 웹 크롤러 작성에는 복잡한 기술과 문제가 많이 있지만 이 기사가 웹 크롤러 작성 여정을 시작하는 데 도움이 되기를 바랍니다.

위 내용은 PHP 웹 크롤링 기본 튜토리얼: cURL 라이브러리를 사용하여 웹 사이트에 액세스의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
과대 광고 : 오늘 PHP의 역할을 평가합니다과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

동시성에 대해 PHP 8.1의 섬유를 설명하십시오.동시성에 대해 PHP 8.1의 섬유를 설명하십시오.Apr 12, 2025 am 12:05 AM

섬유는 PHP8.1에 도입되어 동시 처리 기능을 향상시켰다. 1) 섬유는 코 루틴과 유사한 가벼운 동시성 모델입니다. 2) 개발자는 작업의 실행 흐름을 수동으로 제어 할 수 있으며 I/O 집약적 작업을 처리하는 데 적합합니다. 3) 섬유를 사용하면보다 효율적이고 반응이 좋은 코드를 작성할 수 있습니다.

PHP 커뮤니티 : 자원, 지원 및 개발PHP 커뮤니티 : 자원, 지원 및 개발Apr 12, 2025 am 12:04 AM

PHP 커뮤니티는 개발자 성장을 돕기 위해 풍부한 자원과 지원을 제공합니다. 1) 자료에는 공식 문서, 튜토리얼, 블로그 및 Laravel 및 Symfony와 같은 오픈 소스 프로젝트가 포함됩니다. 2) 지원은 StackoverFlow, Reddit 및 Slack 채널을 통해 얻을 수 있습니다. 3) RFC에 따라 개발 동향을 배울 수 있습니다. 4) 적극적인 참여, 코드에 대한 기여 및 학습 공유를 통해 커뮤니티에 통합 될 수 있습니다.

PHP vs. Python : 차이점 이해PHP vs. Python : 차이점 이해Apr 11, 2025 am 12:15 AM

PHP와 Python은 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1.PHP는 간단한 구문과 높은 실행 효율로 웹 개발에 적합합니다. 2. Python은 간결한 구문 및 풍부한 라이브러리를 갖춘 데이터 과학 및 기계 학습에 적합합니다.

PHP : 죽어 가거나 단순히 적응하고 있습니까?PHP : 죽어 가거나 단순히 적응하고 있습니까?Apr 11, 2025 am 12:13 AM

PHP는 죽지 않고 끊임없이 적응하고 진화합니다. 1) PHP는 1994 년부터 새로운 기술 트렌드에 적응하기 위해 여러 버전 반복을 겪었습니다. 2) 현재 전자 상거래, 컨텐츠 관리 시스템 및 기타 분야에서 널리 사용됩니다. 3) PHP8은 성능과 현대화를 개선하기 위해 JIT 컴파일러 및 기타 기능을 소개합니다. 4) Opcache를 사용하고 PSR-12 표준을 따라 성능 및 코드 품질을 최적화하십시오.

PHP의 미래 : 적응 및 혁신PHP의 미래 : 적응 및 혁신Apr 11, 2025 am 12:01 AM

PHP의 미래는 새로운 기술 트렌드에 적응하고 혁신적인 기능을 도입함으로써 달성 될 것입니다. 1) 클라우드 컴퓨팅, 컨테이너화 및 마이크로 서비스 아키텍처에 적응, Docker 및 Kubernetes 지원; 2) 성능 및 데이터 처리 효율을 향상시키기 위해 JIT 컴파일러 및 열거 유형을 도입합니다. 3) 지속적으로 성능을 최적화하고 모범 사례를 홍보합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경