찾다
백엔드 개발PHP 튜토리얼PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법

인터넷과 빅데이터 시대의 도래로 인해 점점 더 많은 데이터가 수집되고 활용될 수 있게 되었습니다. 웹페이지에서 데이터를 얻는 다양한 방법 중에서 크롤러 기술은 가장 강력하고 효율적인 기술이라고 할 수 있습니다.

실제 애플리케이션 시나리오에서는 웹 페이지에서 특정 데이터, 특히 웹 페이지의 테이블 데이터를 가져와야 하는 경우가 많습니다. 따라서 이 기사에서는 PHP 크롤러 기술을 사용하여 웹 페이지에서 표 형식의 데이터를 얻고 구문 분석하는 방법을 소개합니다.

  1. PHP 크롤러 라이브러리 설치 및 구성

크롤러 코드 작성을 시작하기 전에 PHP 크롤러 라이브러리를 설치하고 구성해야 합니다. 여기서는 HTML 문서의 태그와 속성을 쉽게 구문 분석할 수 있고 일반적으로 사용되는 DOM 작업 방법을 제공하는 경량 HTML 파서인 PHP Simple HTML DOM Parser 라이브러리를 사용하기로 선택했습니다. 라이브러리는 작성기 도구를 사용하여 쉽게 설치하고 구성할 수 있습니다.

  1. 대상 웹페이지 분석

웹페이지 데이터를 캡처하는 코드를 작성하기 전에 먼저 대상 웹페이지의 구조와 데이터 형식을 분석하여 필요한 데이터를 올바르게 찾고 얻을 수 있습니다. 여기서는 블로그 웹사이트의 기사 목록 페이지를 예로 들어 보겠습니다. 여기에는 아래와 같이 여러 행의 데이터와 일부 테이블 요소가 포함되어 있습니다.

<table>
  <thead>
    <tr>
      <th>编号</th>
      <th>标题</th>
      <th>作者</th>
      <th>发布时间</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>1</td>
      <td><a href="/articles/1">PHP爬虫实战</a></td>
      <td>张三</td>
      <td>2022-06-01 08:00:00</td>
    </tr>
    <tr>
      <td>2</td>
      <td><a href="/articles/2">Python数据可视化</a></td>
      <td>李四</td>
      <td>2022-06-02 09:00:00</td>
    </tr>
    <!-- more rows -->
  </tbody>
</table>

이 웹페이지의 테이블은 <table>로 구성됩니다. code>, <code><thead>, <code><tbody>, <code><tr> 등의 태그로 구성되며, 그 중 <code> <thead>는 테이블의 열 헤더를 정의하는 데 사용되며, <code><tbody>는 테이블의 행 데이터를 정의하는 데 사용됩니다. <code><td> code>는 셀 데이터를 정의하는 데 사용되며 <code> <a></a> 태그는 기사 제목에 대한 링크를 나타냅니다. <table>、<code><thead>、<code><tbody>和<code><tr>等标签组成,其中<code><thead>用于定义表格的列头,<code><tbody>用于定义表格的行数据,<code><td>用于定义单元格数据,而<code><a></a>标签则表示文章标题的链接。

  1. 编写爬虫代码

有了目标网页的分析结果,我们就可以编写爬虫代码来获取表格数据了。

首先,我们需要加载目标网页,然后使用file_get_html()方法将其转换成DOM对象。接着,我们可以使用find()方法来选择数据所在的元素,例如table > tbody > tr表示选择<table>的子元素<code><tbody>下的所有<code><tr>标签,即表格的所有行数据。代码如下:<pre class='brush:php;toolbar:false;'>$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html-&gt;find('table &gt; tbody &gt; tr') as $row) { // 解析表格数据 }</pre><p>然后,我们需要遍历每一行数据,解析其中的单元格数据并将其保存到数组中,以便后续处理。具体来说,我们可以使用<code>find('td')方法来选择每个行元素的子元素<td>,然后获取其文本内容或链接地址。代码如下:<pre class='brush:php;toolbar:false;'>$url = 'http://example.com/articles'; $html = file_get_html($url); $rows = array(); foreach ($html-&gt;find('table &gt; tbody &gt; tr') as $row) { $data = array(); // 获取单元格文本内容或链接地址 $columns = $row-&gt;find('td'); $data['id'] = $columns[0]-&gt;plaintext; $data['title'] = $columns[1]-&gt;find('a', 0)-&gt;plaintext; $data['link'] = $columns[1]-&gt;find('a', 0)-&gt;href; $data['author'] = $columns[2]-&gt;plaintext; $data['date'] = $columns[3]-&gt;plaintext; $rows[] = $data; }</pre><p>上述代码中,<code>$data数组保存当前行的数据,其中idtitleauthordate分别对应表格的列,而link则是文章标题的链接地址。使用$rows[] = $data语句将$data数组添加到$rows

    크롤러 코드 작성

      대상 웹페이지의 분석 결과를 바탕으로 크롤러 코드를 작성하여 테이블 데이터를 얻을 수 있습니다.
    1. 먼저 대상 웹페이지를 로드한 다음 file_get_html() 메서드를 사용하여 이를 DOM 객체로 변환해야 합니다. 그런 다음 find() 메서드를 사용하여 데이터가 있는 요소를 선택할 수 있습니다. 예를 들어 table > tr 하위 요소 <tbody> 아래의 모든 <code><tr> 태그, 즉 테이블의 모든 데이터 행입니다. 코드는 다음과 같습니다. rrreee<p> 그런 다음 데이터의 각 행을 반복하고 그 안의 셀 데이터를 구문 분석한 후 후속 처리를 위해 배열에 저장해야 합니다. 구체적으로 <code>find('td') 메소드를 사용하여 각 행 요소의 하위 요소 <td>를 선택한 다음 해당 텍스트 콘텐츠 또는 링크 주소를 얻을 수 있습니다. . 코드는 다음과 같습니다. rrreee🎜위 코드에서 <code>$data 배열은 현재 행의 데이터를 저장하며 그 중 id, title code>, <code>author, date는 각각 표의 열에 해당하고, link는 기사 제목의 링크 주소입니다. $rows[] = $data 문을 사용하여 $data 배열을 $rows 배열에 추가합니다. 🎜🎜마지막으로 데이터를 데이터베이스에 저장하거나 Excel 파일로 내보내는 등 필요에 따라 데이터를 추가로 처리하고 저장할 수 있습니다. 🎜🎜🎜요약🎜🎜🎜이 글에서는 PHP Simple HTML DOM Parser 라이브러리를 사용하여 웹 페이지 테이블 데이터를 크롤링하는 방법을 소개합니다. 대상 웹 페이지의 구조와 데이터 형식을 분석하고 해당 DOM 작업 방법을 사용하여 필요한 데이터를 신속하게 찾고 얻을 수 있으며 이를 통해 다양한 데이터 분석 및 응용 시나리오를 실현할 수 있습니다. 물론 크롤러 기술 역시 웹사이트의 이용 규정 및 정책을 준수하도록 주의를 기울여야 하며 타인의 권리를 남용하거나 침해할 수 없습니다. 🎜

위 내용은 PHP 크롤러 연습: 웹 테이블 데이터를 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
PHP와 Python : 다른 패러다임이 설명되었습니다PHP와 Python : 다른 패러다임이 설명되었습니다Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python : 그들의 역사에 깊은 다이빙PHP와 Python : 그들의 역사에 깊은 다이빙Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

PHP와 Python 중에서 선택 : 가이드PHP와 Python 중에서 선택 : 가이드Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP 및 프레임 워크 : 언어 현대화PHP 및 프레임 워크 : 언어 현대화Apr 18, 2025 am 12:14 AM

PHP는 현대화 프로세스에서 많은 웹 사이트 및 응용 프로그램을 지원하고 프레임 워크를 통해 개발 요구에 적응하기 때문에 여전히 중요합니다. 1.PHP7은 성능을 향상시키고 새로운 기능을 소개합니다. 2. Laravel, Symfony 및 Codeigniter와 같은 현대 프레임 워크는 개발을 단순화하고 코드 품질을 향상시킵니다. 3. 성능 최적화 및 모범 사례는 응용 프로그램 효율성을 더욱 향상시킵니다.

PHP의 영향 : 웹 개발 및 그 이상PHP의 영향 : 웹 개발 및 그 이상Apr 18, 2025 am 12:10 AM

phphassignificallyimpactedwebdevelopmentandextendsbeyondit

스칼라 유형, 반환 유형, 노조 유형 및 무효 유형을 포함한 PHP 유형의 힌트 작업은 어떻게 작동합니까?스칼라 유형, 반환 유형, 노조 유형 및 무효 유형을 포함한 PHP 유형의 힌트 작업은 어떻게 작동합니까?Apr 17, 2025 am 12:25 AM

PHP 유형은 코드 품질과 가독성을 향상시키기위한 프롬프트입니다. 1) 스칼라 유형 팁 : PHP7.0이므로 int, float 등과 같은 기능 매개 변수에 기본 데이터 유형을 지정할 수 있습니다. 2) 반환 유형 프롬프트 : 기능 반환 값 유형의 일관성을 확인하십시오. 3) Union 유형 프롬프트 : PHP8.0이므로 기능 매개 변수 또는 반환 값에 여러 유형을 지정할 수 있습니다. 4) Nullable 유형 프롬프트 : NULL 값을 포함하고 널 값을 반환 할 수있는 기능을 포함 할 수 있습니다.

PHP는 객체 클로닝 (클론 키워드) 및 __clone 마법 방법을 어떻게 처리합니까?PHP는 객체 클로닝 (클론 키워드) 및 __clone 마법 방법을 어떻게 처리합니까?Apr 17, 2025 am 12:24 AM

PHP에서는 클론 키워드를 사용하여 객체 사본을 만들고 \ _ \ _ Clone Magic 메소드를 통해 클로닝 동작을 사용자 정의하십시오. 1. 복제 키워드를 사용하여 얕은 사본을 만들어 객체의 속성을 복제하지만 객체의 속성은 아닙니다. 2. \ _ \ _ 클론 방법은 얕은 복사 문제를 피하기 위해 중첩 된 물체를 깊이 복사 할 수 있습니다. 3. 복제의 순환 참조 및 성능 문제를 피하고 클로닝 작업을 최적화하여 효율성을 향상시키기 위해주의를 기울이십시오.

PHP vs. Python : 사용 사례 및 응용 프로그램PHP vs. Python : 사용 사례 및 응용 프로그램Apr 17, 2025 am 12:23 AM

PHP는 웹 개발 및 컨텐츠 관리 시스템에 적합하며 Python은 데이터 과학, 기계 학습 및 자동화 스크립트에 적합합니다. 1.PHP는 빠르고 확장 가능한 웹 사이트 및 응용 프로그램을 구축하는 데 잘 작동하며 WordPress와 같은 CMS에서 일반적으로 사용됩니다. 2. Python은 Numpy 및 Tensorflow와 같은 풍부한 라이브러리를 통해 데이터 과학 및 기계 학습 분야에서 뛰어난 공연을했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)