이 기사의 예에서는 PHP가 simple_html_dom을 사용하여 HTML을 구문 분석하는 방법을 설명합니다. 참고로 자세한 내용은 다음과 같습니다.
오늘 크롤러 두 개를 작성했는데, 하나는 Python을 사용하고 다른 하나는 PHP를 사용하여 구현했습니다.
아래에서는 오픈 소스 클래스 simple_html_dom을 사용하여 HTML 코드를 구문 분석하는 방법에 대해 설명합니다.
1. simple_html_dom 다운로드:
http://sourceforge.net/projects/simplehtmldom/files/
또는 이 사이트에서 다운로드하려면 여기를 클릭하세요.
2. 사용 예:
<?php // example of how to use basic selector to retrieve HTML contents include('../simple_html_dom.php'); // get DOM from URL or file $html = file_get_html('http://www.google.com/'); // find all link foreach($html->find('a') as $e) echo $e->href . '<br>'; // find all image foreach($html->find('img') as $e) echo $e->src . '<br>'; // find all image with full tag foreach($html->find('img') as $e) echo $e->outertext . '<br>'; // find all div tags with id=gbar foreach($html->find('div#gbar') as $e) echo $e->innertext . '<br>'; // find all span tags with class=gb1 foreach($html->find('span.gb1') as $e) echo $e->outertext . '<br>'; // find all td tags with attribite align=center foreach($html->find('td[align=center]') as $e) echo $e->innertext . '<br>'; // extract text from table echo $html->find('td[align="center"]', 1)->plaintext.'<br><hr>'; // extract text from HTML echo $html->plaintext; ?>
더 많은 PHP 관련 콘텐츠에 관심이 있는 독자는 이 사이트의 특별 주제인 "PHP 인코딩 및 트랜스코딩 연산 기술" 요약", "PHP 객체 지향 프로그래밍 입문 튜토리얼", "PHP 수학적 연산 기술 요약", "완전한 PHP 배열 연산 기술", "PHP 문자열 사용법 요약", "PHP 데이터 구조 및 알고리즘 튜토리얼 " ", "php 프로그래밍 알고리즘 요약", "php 정규식 사용법 요약" 및 "php 일반적인 데이터베이스 조작 기술 요약"
이 기사가 PHP 프로그래밍에 종사하는 모든 사람에게 도움이 되기를 바랍니다.
위 내용은 관련 내용을 포함하여 PHP가 simple_html_dom을 사용하여 HTML을 구문 분석하는 방법에 대한 예를 소개했습니다. PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.