찾다
백엔드 개발PHP 튜토리얼PHP를 사용하여 페이지에서 정기적인 URL 크롤링을 구현하는 방법

페이지에서 페이지의 모든 링크를 잡아보세요. 물론 PHP 정규식을 사용하는 것이 가장 편리한 방법입니다. 정규식을 작성하려면 먼저 패턴을 요약해야 합니다. 그러면 페이지의 링크에는 몇 개의 양식이 포함됩니까? 아래를 살펴보겠습니다.

머리말

링크는 한 요소(텍스트, 그림, 비디오 등)에서 다른 요소(텍스트, 그림, 비디오 등)로의 링크인 하이퍼링크입니다. 웹 페이지에는 일반적으로 세 가지 유형의 링크가 있습니다. 하나는 페이지의 전체 경로인 절대 URL 하이퍼링크이고, 다른 하나는 일반적으로 동일한 웹 사이트의 다른 페이지로 연결되는 상대 URL 하이퍼링크입니다. 페이지 내의 하이퍼링크. 일반적으로 동일한 페이지 내의 다른 위치로 연결되는 하이퍼링크입니다.

링크의 종류를 이해하고 나면, 잡아야 할 주요 링크가 절대 URL 하이퍼링크와 상대 URL 하이퍼링크라는 것을 알게 될 것입니다. 올바른 정규식을 작성하려면 찾고 있는 개체의 패턴을 이해해야 합니다.

인터넷에서 고유한 리소스를 식별하는 URL(Uniform Resource Locator)이라고도 하는 절대 링크부터 시작해 보겠습니다. URL의 구조는 프로토콜, 서버 이름, 경로 및 파일 이름의 세 부분으로 구성됩니다.

프로토콜은 열려는 파일을 처리하는 방법을 브라우저에 알려주는 식별자입니다. 가장 일반적인 프로토콜은 http 프로토콜입니다. 이 기사에서는 HTTP 프로토콜만 고려하며, 다른 https, ftp, mailto, telnet 프로토콜 등도 필요에 따라 추가할 수 있습니다.

서버 이름은 브라우저에 이 서버에 도달하는 방법을 알려주는 방법으로, 일반적으로 도메인 이름이나 IP 주소, 때로는 포트 번호(기본값은 80)입니다. FTP 프로토콜에는 사용자 이름과 비밀번호도 포함될 수 있지만 이 기사에서는 이에 대해 고려하지 않습니다.

일반적으로 /로 구분되는 경로와 파일 이름은 파일의 경로와 파일 자체의 이름을 나타냅니다. 특정 파일 이름이 없으면 이 폴더의 기본 파일에 액세스합니다(서버 측에서 설정 가능).

이제 크롤링할 절대 링크의 일반적인 형태는 다음과 같이 요약할 수 있음이 분명해졌습니다.

<span style="color: #000000">http://www.xxx.com/xxx/yyy /zzz .html<code><span style="color: #000000">http://www.xxx.com/xxx/yyy/zzz.html</span>

每个部分可以使用的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。

/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i

解释如下:

(http|https)第一个括号内匹配的是协议部分。

([wd-_]+[.wd-_]+)第二个括号内匹配的是域名部分。

([/]?[w/.]+)第三个括号内匹配的是相对路径。

写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能使用其他奇怪的形式进行分割。

稍微修改一下,这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况,例如URL中有中文、有空格及其他特殊字符的情况,但是基本上能够满足我的需求了,就没有继续深化。

/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i

使用括号的好处是,在处理结果时,可以很容易的获取到协议、域名、相对路径这些内容,方便后续的处理。

例如使用 preg_match_all() 각 부분에 사용할 수 있는 문자 범위는 명확한 사양이 있습니다. 자세한 내용은 RFC1738을 참조하세요. 그러면 정규식을 작성할 수 있습니다.

rrreee

설명은 다음과 같습니다.

(http|https)첫 번째 괄호는 프로토콜 부분과 일치합니다. . ([wd-_]+[.wd-_]+)
두 번째 괄호는 도메인 이름 부분과 일치합니다.

([/]?[w/.]+)세 번째 괄호는 상대 경로와 일치합니다.

이 글을 쓰는 시점에서는 기본적으로 대부분의 URL이 일치하지만, 매개변수가 있는 URL은 크롤링이 불가능하여 다시 접속할 때 페이지에서 오류가 보고될 수 있습니다. RFC1738 사양에는 어떤 매개변수가 필요합니까? 분할하고 매개변수가 따라오지만 최신 RIA 애플리케이션은 분할을 위해 다른 이상한 형식을 사용할 수 있습니다.

Query Parameter 부분을 검색할 수 있도록 살짝 수정해주세요. URL에 한자, 공백, 기타 특수 문자가 포함된 상황 등 여전히 모든 상황을 다루지는 않지만 기본적으로 내 요구 사항을 충족하므로 더 이상 진행하지 않겠습니다.

rrreee

🎜대괄호를 사용하면 결과를 처리할 때 프로토콜, 도메인 이름, 상대 경로를 쉽게 얻을 수 있어 후속 처리가 용이하다는 장점이 있습니다. 🎜🎜예를 들어 preg_match_all() 을 사용하여 일치시키는 경우 결과 배열 🎜index 0은 모든 결과, 1은 프로토콜, 2는 도메인 이름, 3은 상대 경로🎜입니다. 🎜🎜요약: 위 내용이 이 글의 전체 내용입니다. 모든 분들의 공부에 도움이 되었으면 좋겠습니다. 🎜🎜관련 권장 사항: 🎜🎜🎜 PHP에서 다중 필드 퍼지 일치 쿼리를 구현하는 방법 🎜🎜🎜🎜🎜🎜php🎜mailer 바인딩 사서함을 구현하는 방법 🎜🎜🎜🎜🎜 PHP에서 첫 번째 문자를 가져오기 위해 사용자 정의 기능을 구현하는 방법 한자🎜🎜 🎜🎜🎜🎜🎜🎜🎜

위 내용은 PHP를 사용하여 페이지에서 정기적인 URL 크롤링을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
PHP 실행 : 실제 예제 및 응용 프로그램PHP 실행 : 실제 예제 및 응용 프로그램Apr 14, 2025 am 12:19 AM

PHP는 전자 상거래, 컨텐츠 관리 시스템 및 API 개발에 널리 사용됩니다. 1) 전자 상거래 : 쇼핑 카트 기능 및 지불 처리에 사용됩니다. 2) 컨텐츠 관리 시스템 : 동적 컨텐츠 생성 및 사용자 관리에 사용됩니다. 3) API 개발 : 편안한 API 개발 및 API 보안에 사용됩니다. 성능 최적화 및 모범 사례를 통해 PHP 애플리케이션의 효율성과 유지 보수 성이 향상됩니다.

PHP : 대화식 웹 컨텐츠를 쉽게 만들 수 있습니다PHP : 대화식 웹 컨텐츠를 쉽게 만들 수 있습니다Apr 14, 2025 am 12:15 AM

PHP를 사용하면 대화식 웹 컨텐츠를 쉽게 만들 수 있습니다. 1) HTML을 포함하여 컨텐츠를 동적으로 생성하고 사용자 입력 또는 데이터베이스 데이터를 기반으로 실시간으로 표시합니다. 2) 프로세스 양식 제출 및 동적 출력을 생성하여 htmlspecialchars를 사용하여 XSS를 방지합니다. 3) MySQL을 사용하여 사용자 등록 시스템을 작성하고 Password_Hash 및 전처리 명세서를 사용하여 보안을 향상시킵니다. 이러한 기술을 마스터하면 웹 개발의 효율성이 향상됩니다.

PHP 및 Python : 두 가지 인기있는 프로그래밍 언어를 비교합니다PHP 및 Python : 두 가지 인기있는 프로그래밍 언어를 비교합니다Apr 14, 2025 am 12:13 AM

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

PHP의 지속적인 관련성 : 여전히 살아 있습니까?PHP의 지속적인 관련성 : 여전히 살아 있습니까?Apr 14, 2025 am 12:12 AM

PHP는 여전히 역동적이며 현대 프로그래밍 분야에서 여전히 중요한 위치를 차지하고 있습니다. 1) PHP의 단순성과 강력한 커뮤니티 지원으로 인해 웹 개발에 널리 사용됩니다. 2) 유연성과 안정성은 웹 양식, 데이터베이스 작업 및 파일 처리를 처리하는 데 탁월합니다. 3) PHP는 지속적으로 발전하고 최적화하며 초보자 및 숙련 된 개발자에게 적합합니다.

PHP의 현재 상태 : 웹 개발 동향을 살펴보십시오PHP의 현재 상태 : 웹 개발 동향을 살펴보십시오Apr 13, 2025 am 12:20 AM

PHP는 현대 웹 개발, 특히 컨텐츠 관리 및 전자 상거래 플랫폼에서 중요합니다. 1) PHP는 Laravel 및 Symfony와 같은 풍부한 생태계와 강력한 프레임 워크 지원을 가지고 있습니다. 2) Opcache 및 Nginx를 통해 성능 최적화를 달성 할 수 있습니다. 3) PHP8.0은 성능을 향상시키기 위해 JIT 컴파일러를 소개합니다. 4) 클라우드 네이티브 애플리케이션은 Docker 및 Kubernetes를 통해 배포되어 유연성과 확장 성을 향상시킵니다.

PHP 대 기타 언어 : 비교PHP 대 기타 언어 : 비교Apr 13, 2025 am 12:19 AM

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP vs. Python : 핵심 기능 및 기능PHP vs. Python : 핵심 기능 및 기능Apr 13, 2025 am 12:16 AM

PHP와 Python은 각각 고유 한 장점이 있으며 다양한 시나리오에 적합합니다. 1.PHP는 웹 개발에 적합하며 내장 웹 서버 및 풍부한 기능 라이브러리를 제공합니다. 2. Python은 간결한 구문과 강력한 표준 라이브러리가있는 데이터 과학 및 기계 학습에 적합합니다. 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

PHP : 웹 개발의 핵심 언어PHP : 웹 개발의 핵심 언어Apr 13, 2025 am 12:08 AM

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 ​​있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음