페이지에서 페이지의 모든 링크를 잡아보세요. 물론 PHP 정규식을 사용하는 것이 가장 편리한 방법입니다. 정규식을 작성하려면 먼저 패턴을 요약해야 합니다. 그러면 페이지의 링크에는 몇 개의 양식이 포함됩니까? 아래를 살펴보겠습니다.
머리말
링크는 한 요소(텍스트, 그림, 비디오 등)에서 다른 요소(텍스트, 그림, 비디오 등)로의 링크인 하이퍼링크입니다. 웹 페이지에는 일반적으로 세 가지 유형의 링크가 있습니다. 하나는 페이지의 전체 경로인 절대 URL 하이퍼링크이고, 다른 하나는 일반적으로 동일한 웹 사이트의 다른 페이지로 연결되는 상대 URL 하이퍼링크입니다. 페이지 내의 하이퍼링크. 일반적으로 동일한 페이지 내의 다른 위치로 연결되는 하이퍼링크입니다.
링크의 종류를 이해하고 나면, 잡아야 할 주요 링크가 절대 URL 하이퍼링크와 상대 URL 하이퍼링크라는 것을 알게 될 것입니다. 올바른 정규식을 작성하려면 찾고 있는 개체의 패턴을 이해해야 합니다.
인터넷에서 고유한 리소스를 식별하는 URL(Uniform Resource Locator)이라고도 하는 절대 링크부터 시작해 보겠습니다. URL의 구조는 프로토콜, 서버 이름, 경로 및 파일 이름의 세 부분으로 구성됩니다.
프로토콜은 열려는 파일을 처리하는 방법을 브라우저에 알려주는 식별자입니다. 가장 일반적인 프로토콜은 http 프로토콜입니다. 이 기사에서는 HTTP 프로토콜만 고려하며, 다른 https, ftp, mailto, telnet 프로토콜 등도 필요에 따라 추가할 수 있습니다.
서버 이름은 브라우저에 이 서버에 도달하는 방법을 알려주는 방법으로, 일반적으로 도메인 이름이나 IP 주소, 때로는 포트 번호(기본값은 80)입니다. FTP 프로토콜에는 사용자 이름과 비밀번호도 포함될 수 있지만 이 기사에서는 이에 대해 고려하지 않습니다.
일반적으로 /로 구분되는 경로와 파일 이름은 파일의 경로와 파일 자체의 이름을 나타냅니다. 특정 파일 이름이 없으면 이 폴더의 기본 파일에 액세스합니다(서버 측에서 설정 가능).
이제 크롤링할 절대 링크의 일반적인 형태는 다음과 같이 요약할 수 있음이 분명해졌습니다.
<span style="color: #000000">http://www.xxx.com/xxx/yyy /zzz .html<code><span style="color: #000000">http://www.xxx.com/xxx/yyy/zzz.html</span>
每个部分可以使用的字符范围有明确的规范,具体可以参考RFC1738。那么正则表达式就可以写出来了。
/(http|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.]+)/i
解释如下:
(http|https)第一个括号内匹配的是协议部分。
([wd-_]+[.wd-_]+)第二个括号内匹配的是域名部分。
([/]?[w/.]+)第三个括号内匹配的是相对路径。
写到这个时候,基本上大部分的网址都能匹配到了,但是对于URL中带有参数的还不能抓取,这样有可能造成再次访问的时候页面报错。关于参数RFC1738规范中要求是用?来分割,后面带上参数,但是现代的RIA应用有可能使用其他奇怪的形式进行分割。
稍微修改一下,这样就可以将查询参数部分搜索出来。这里仍然没有涵盖全部的情况,例如URL中有中文、有空格及其他特殊字符的情况,但是基本上能够满足我的需求了,就没有继续深化。
/(http|ftp|https):\/\/([\w\d\-_]+[\.\w\d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i
使用括号的好处是,在处理结果时,可以很容易的获取到协议、域名、相对路径这些内容,方便后续的处理。
例如使用 preg_match_all()
각 부분에 사용할 수 있는 문자 범위는 명확한 사양이 있습니다. 자세한 내용은 RFC1738을 참조하세요. 그러면 정규식을 작성할 수 있습니다.
rrreee
(http|https)첫 번째 괄호는 프로토콜 부분과 일치합니다. . ([wd-_]+[.wd-_]+)
두 번째 괄호는 도메인 이름 부분과 일치합니다.
([/]?[w/.]+)세 번째 괄호는 상대 경로와 일치합니다.
rrreee
🎜대괄호를 사용하면 결과를 처리할 때 프로토콜, 도메인 이름, 상대 경로를 쉽게 얻을 수 있어 후속 처리가 용이하다는 장점이 있습니다. 🎜🎜예를 들어preg_match_all()
을 사용하여 일치시키는 경우 결과 배열 🎜index 0은 모든 결과, 1은 프로토콜, 2는 도메인 이름, 3은 상대 경로🎜입니다. 🎜🎜요약: 위 내용이 이 글의 전체 내용입니다. 모든 분들의 공부에 도움이 되었으면 좋겠습니다. 🎜🎜관련 권장 사항: 🎜🎜🎜 PHP에서 다중 필드 퍼지 일치 쿼리를 구현하는 방법 🎜🎜🎜🎜🎜🎜php🎜mailer 바인딩 사서함을 구현하는 방법 🎜🎜🎜🎜🎜 PHP에서 첫 번째 문자를 가져오기 위해 사용자 정의 기능을 구현하는 방법 한자🎜🎜 🎜🎜🎜🎜🎜🎜🎜위 내용은 PHP를 사용하여 페이지에서 정기적인 URL 크롤링을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

PHP는 전자 상거래, 컨텐츠 관리 시스템 및 API 개발에 널리 사용됩니다. 1) 전자 상거래 : 쇼핑 카트 기능 및 지불 처리에 사용됩니다. 2) 컨텐츠 관리 시스템 : 동적 컨텐츠 생성 및 사용자 관리에 사용됩니다. 3) API 개발 : 편안한 API 개발 및 API 보안에 사용됩니다. 성능 최적화 및 모범 사례를 통해 PHP 애플리케이션의 효율성과 유지 보수 성이 향상됩니다.

PHP를 사용하면 대화식 웹 컨텐츠를 쉽게 만들 수 있습니다. 1) HTML을 포함하여 컨텐츠를 동적으로 생성하고 사용자 입력 또는 데이터베이스 데이터를 기반으로 실시간으로 표시합니다. 2) 프로세스 양식 제출 및 동적 출력을 생성하여 htmlspecialchars를 사용하여 XSS를 방지합니다. 3) MySQL을 사용하여 사용자 등록 시스템을 작성하고 Password_Hash 및 전처리 명세서를 사용하여 보안을 향상시킵니다. 이러한 기술을 마스터하면 웹 개발의 효율성이 향상됩니다.

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

PHP는 여전히 역동적이며 현대 프로그래밍 분야에서 여전히 중요한 위치를 차지하고 있습니다. 1) PHP의 단순성과 강력한 커뮤니티 지원으로 인해 웹 개발에 널리 사용됩니다. 2) 유연성과 안정성은 웹 양식, 데이터베이스 작업 및 파일 처리를 처리하는 데 탁월합니다. 3) PHP는 지속적으로 발전하고 최적화하며 초보자 및 숙련 된 개발자에게 적합합니다.

PHP는 현대 웹 개발, 특히 컨텐츠 관리 및 전자 상거래 플랫폼에서 중요합니다. 1) PHP는 Laravel 및 Symfony와 같은 풍부한 생태계와 강력한 프레임 워크 지원을 가지고 있습니다. 2) Opcache 및 Nginx를 통해 성능 최적화를 달성 할 수 있습니다. 3) PHP8.0은 성능을 향상시키기 위해 JIT 컴파일러를 소개합니다. 4) 클라우드 네이티브 애플리케이션은 Docker 및 Kubernetes를 통해 배포되어 유연성과 확장 성을 향상시킵니다.

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP와 Python은 각각 고유 한 장점이 있으며 다양한 시나리오에 적합합니다. 1.PHP는 웹 개발에 적합하며 내장 웹 서버 및 풍부한 기능 라이브러리를 제공합니다. 2. Python은 간결한 구문과 강력한 표준 라이브러리가있는 데이터 과학 및 기계 학습에 적합합니다. 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음
