어떤 사람들은 소설을 읽는 데 익숙하고 가끔 몇 장을 읽습니다. 모두 Baidu에서 출판한 것이지만 기본적으로 매우 짜증나는 광고가 있거나 전체 div에 링크가 추가되어 있으면 바로 이동합니다. 일부 웹사이트나 무한 루프도 있습니다. 일부 휴대폰 앱에도 광고가 많아서 광고의 귀찮음을 피하기 위해 작은 프로그램을 작성하는 것 외에는 할 일이 없습니다
이 기사에서는 php 컬을 사용하여 simple_html_dom 페이지를 수집합니다. 그리고 그것을 분석하여 광고를 완전히 제거하세요.
노벨 웹사이트에서 책을 찾아보세요. 하지만 이 사이트는 휴대폰에서 특히 까다롭고 위와 같은 문제가 있습니다.
이 소설을 이용하여 수술을 합시다. (면책조항: 이는 절대 홍보, 침해 또는 삭제가 아닙니다.)
1. 컬의 get 메소드 이해
curl은 지정된 URL을 통해 데이터를 업로드 또는 다운로드하고 해당 데이터를 표시하는 명령줄 도구입니다. 컬의 c는 클라이언트를 의미하고 URL은 URL을 의미합니다.
PHP에서 cURL을 사용하면 Get 및 Post 요청 메서드를 구현할 수 있습니다.
간단한 소설 크롤링에는 get 메서드만 필요합니다.
다음 샘플 코드는 get 요청을 통해 첫 장 소설 페이지의 html을 가져오는 예입니다. URL 매개변수만 변경하면 됩니다.
초기화, 옵션 설정, 인증서 확인, 실행, 종료
<?php header("Content-Type:text/html;charset=utf-8"); $url="https://www.7kzw.com/85/85445/27248636.html"; $ch = curl_init($url); //初始化 //设置选项 curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间(必须) curl_setopt($ch, CURLOPT_HEADER,0);// 启用时会将头文件的信息作为数据流输出。 //参数为1表示输出信息头,为0表示不输出 curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书 // 3.执行 $res = curl_exec($ch); // 4.关闭 curl_close($ch); print_r($res); ?>
댓글은 특히 컬 가져오기 요청 보내기 단계에 따라 설정해야 합니다. post 옵션을 지정하고 매개변수를 전달하고 최종적으로 얻은 정보를 CSS 렌더링 없이 출력합니다.
2. 페이지 구문 분석
출력 페이지에는 각 장의 제목과 내용 등 모든 내용에서 불필요한 내용이 많이 포함되어 있습니다. 이 경우 페이지를 구문 분석해야 합니다.
페이지를 구문 분석하는 방법은 다양합니다. 여기서는 simple_html_dom.php 클래스, 인스턴스 객체를 다운로드하고 참조하고 내부 메서드를 호출해야 합니다. 구체적인 방법은 공식 홈페이지나 중국 홈페이지의 기타 문서를 확인하실 수 있습니다.
먼저 이 소설 페이지의 소스 코드를 분석하고 이 장의 제목과 내용에 해당하는 요소를 살펴보세요
첫 번째 제목은 클래스 책 이름 아래 h1입니다
그 다음 내용은 다음과 같습니다. 콘텐츠 ID 아래 div
simple_html_dom 아래에서 jquery와 유사한 찾기 메서드를 사용할 수 있으며 선택기를 사용하여 위치가 지정된 요소를 찾을 수 있습니다. 예:
find('.bookname h1'); //bookname 클래스 아래에서 h1 제목 요소를 찾습니다.
find('#content') //콘텐츠 ID가 있는 장 콘텐츠를 찾습니다.
코드는 다음과 같습니다. 위 내용을 바탕으로 다음이 추가되었습니다.
include "simple_html_dom.php"; $html = new simple_html_dom(); @$html->load($res); $h1 = $html->find('.bookname h1'); foreach ($h1 as $k=>$v) { $artic['title'] = $v->innertext; } // 查找小说的具体内容 $divs = $html->find('#content'); foreach ($divs as $k=>$v) { $content = $v->innertext; } // 正则替换去除多余部分 $pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/"; $artic['content'] = preg_replace($pattern,'',$content); echo $artic['title'].'<br>'; echo $artic['content'];
위 구문 분석 방법을 사용하여 얻은 내용은 배열 내용을 얻기 위해 foreach를 사용합니다. 텍스트를 입력하고 제목과 소설 내용을 배열에 넣습니다. 가장 간단한 작성 방법이 완성되었습니다. 실행 결과는 다음과 같습니다.
물론 이런 식으로 작성하는 것이 불편해 보이지만 함수 클래스를 직접 캡슐화할 수 있습니다. 다음은 제가 직접 작성한 코드 예시입니다. 물론 부족한 부분도 있지만 확장을 위한 참고자료로 활용 가능합니다.
<?php include "simple_html_dom.php"; include "mySpClass.php"; header("Content-Type:text/html;charset=utf-8"); $get_html = get_html($_GET['n']); $artic = getContent($get_html); echo $artic['title'].'<br>'; echo $artic['content']; /** * 获取www.7kzw.com 获取每一章的页面html * @param type $num 第几章,从第一开始(int) * @return 返回字符串 */ function get_html($num){ $start = 27248636; $real_num = $num+$start-1; $url = 'https://www.7kzw.com/85/85445/'.$real_num.'.html'; $header = [ 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0' ]; return mySpClass()->getCurl($url,$header); } /** * 获取www.7kzw.com小说标题数组 * @param type $get_html 得到的每一章的页面html * @return 返回$artic数组,['title'=>'','content'=>''] */ function getContent($get_html){ $html = new simple_html_dom(); @$html->load($get_html); $h1 = $html->find('.bookname h1'); foreach ($h1 as $k=>$v) { $artic['title'] = $v->innertext; } // 查找小说的具体内容 $divs = $html->find('#content'); foreach ($divs as $k=>$v) { $content = $v->innertext; } // 正则替换去除多余部分 $pattern = "/(<p>.*?<\/p>)|(<div .*?>.*?<\/div>)/"; $artic['content'] = preg_replace($pattern,'',$content); return $artic; } ?>
<?php class mySpClass{ //单例对象 private static $ins = null; /** * 单例化对象 */ public static function exec() { if (self::$ins) { return self::$ins; } return self::$ins = new self(); } /** * 禁止克隆对象 */ public function __clone() { throw new curlException('错误:不能克隆对象'); } // 向服务器发送最简单的get请求 public static function getCurl($url,$header){ // 1.初始化 $ch = curl_init($url); //请求的地址 // 2.设置选项 curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//获取的信息以字符串返回,而不是直接输出(必须) curl_setopt($ch,CURLOPT_TIMEOUT,10);//超时时间(必须) curl_setopt($ch, CURLOPT_HEADER,0);// 启用时会将头文件的信息作为数据流输出。 //参数为1表示输出信息头,为0表示不输出 curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,false); //不验证证书 curl_setopt($ch,CURLOPT_SSL_VERIFYHOST,false); //不验证证书 if(!empty($header)){ curl_setopt($ch,CURLOPT_HTTPHEADER,$header);//设置头信息 } // 3.执行 $res = curl_exec($ch); // 4.关闭 curl_close($ch); return $res; } } //curl方法不存在就设置一个curl方法 if (!function_exists('mySpClass')) { function mySpClass() { return mySpClass::exec(); } } ?>
위 샘플 코드의 최종 실행 결과: 장에 있는 숫자를 입력하고 $_GET['n']
지식 포인트: 컬(팁:
curl 모듈 웹페이지 PHP 클래스 수집), 일반, 파싱 도구 simple_html_dom작성 방법은 처음에는 완벽했지만, 최고의 효과를 얻으려면 자체 서버를 배포하는 것이 가장 좋습니다. 그렇지 않으면 컴퓨터에서만 볼 수 있습니다. , 이는 그다지 편리하지 않습니다. , 광고를 더 기꺼이 용납할 수 있습니다.
위 내용은 php 컬을 사용하여 페이지를 수집하고 simple_html_dom을 사용하여 파싱하는 내용입니다. 자세한 내용은 php 중국어 사이트의 다른 관련 글을 참고해주세요!
위 내용은 프로그래머들은 아직도 광고가 나오는 소설을 읽는다?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

PHP와 Python은 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1.PHP는 간단한 구문과 높은 실행 효율로 웹 개발에 적합합니다. 2. Python은 간결한 구문 및 풍부한 라이브러리를 갖춘 데이터 과학 및 기계 학습에 적합합니다.

PHP는 죽지 않고 끊임없이 적응하고 진화합니다. 1) PHP는 1994 년부터 새로운 기술 트렌드에 적응하기 위해 여러 버전 반복을 겪었습니다. 2) 현재 전자 상거래, 컨텐츠 관리 시스템 및 기타 분야에서 널리 사용됩니다. 3) PHP8은 성능과 현대화를 개선하기 위해 JIT 컴파일러 및 기타 기능을 소개합니다. 4) Opcache를 사용하고 PSR-12 표준을 따라 성능 및 코드 품질을 최적화하십시오.

PHP의 미래는 새로운 기술 트렌드에 적응하고 혁신적인 기능을 도입함으로써 달성 될 것입니다. 1) 클라우드 컴퓨팅, 컨테이너화 및 마이크로 서비스 아키텍처에 적응, Docker 및 Kubernetes 지원; 2) 성능 및 데이터 처리 효율을 향상시키기 위해 JIT 컴파일러 및 열거 유형을 도입합니다. 3) 지속적으로 성능을 최적화하고 모범 사례를 홍보합니다.

PHP에서, 특성은 방법 재사용이 필요하지만 상속에 적합하지 않은 상황에 적합합니다. 1) 특성은 클래스에서 다중 상속의 복잡성을 피할 수 있도록 수많은 방법을 허용합니다. 2) 특성을 사용할 때는 대안과 키워드를 통해 해결할 수있는 방법 충돌에주의를 기울여야합니다. 3) 성능을 최적화하고 코드 유지 보수성을 향상시키기 위해 특성을 과도하게 사용해야하며 단일 책임을 유지해야합니다.

의존성 주입 컨테이너 (DIC)는 PHP 프로젝트에 사용하기위한 객체 종속성을 관리하고 제공하는 도구입니다. DIC의 주요 이점에는 다음이 포함됩니다. 1. 디커플링, 구성 요소 독립적 인 코드는 유지 관리 및 테스트가 쉽습니다. 2. 유연성, 의존성을 교체 또는 수정하기 쉽습니다. 3. 테스트 가능성, 단위 테스트를 위해 모의 객체를 주입하기에 편리합니다.

SplfixedArray는 PHP의 고정 크기 배열로, 고성능 및 메모리 사용이 필요한 시나리오에 적합합니다. 1) 동적 조정으로 인한 오버 헤드를 피하기 위해 생성 할 때 크기를 지정해야합니다. 2) C 언어 배열을 기반으로 메모리 및 빠른 액세스 속도를 직접 작동합니다. 3) 대규모 데이터 처리 및 메모리에 민감한 환경에 적합하지만 크기가 고정되어 있으므로주의해서 사용해야합니다.

PHP는 $ \ _ 파일 변수를 통해 파일 업로드를 처리합니다. 보안을 보장하는 방법에는 다음이 포함됩니다. 1. 오류 확인 확인, 2. 파일 유형 및 크기 확인, 3 파일 덮어 쓰기 방지, 4. 파일을 영구 저장소 위치로 이동하십시오.

JavaScript에서는 NullCoalescingOperator (??) 및 NullCoalescingAssignmentOperator (?? =)를 사용할 수 있습니다. 1. 2. ??= 변수를 오른쪽 피연산자의 값에 할당하지만 변수가 무효 또는 정의되지 않은 경우에만. 이 연산자는 코드 로직을 단순화하고 가독성과 성능을 향상시킵니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Dreamweaver Mac版
시각적 웹 개발 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기
