>  기사  >  백엔드 개발  >  PHP_php 팁에서 중국어로 잘못된 웹 페이지를 크롤링하기 위해 file_get_contents를 사용하는 문제에 대한 솔루션

PHP_php 팁에서 중국어로 잘못된 웹 페이지를 크롤링하기 위해 file_get_contents를 사용하는 문제에 대한 솔루션

WBOY
WBOY원래의
2016-05-16 20:28:111165검색

이 기사의 예에서는 PHP에서 file_get_contents를 사용하여 중국어로 왜곡된 웹페이지를 크롤링하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 구체적인 방법은 다음과 같습니다.

file_get_contents 함수는 원래 PHP와 함께 제공되는 매우 뛰어난 로컬 및 원격 파일 작업 함수입니다. 이를 사용하면 아무런 노력 없이 원격 데이터를 직접 다운로드할 수 있지만 웹 페이지를 읽는 데 사용할 때 몇 가지 문제가 발생합니다. 페이지가 깨졌습니다. 여기에는 귀하를 위한 구체적인 솔루션이 요약되어 있습니다.

인터넷상의 친구들에 따르면, 그 이유는 서버가 GZIP 압축을 켰기 때문일 수 있습니다. 다음은 내 웹사이트의 헤더 정보를 확인하기 위해 Firebug를 사용하기 위한 것입니다. 요청 헤더 정보는 다음과 같습니다.

코드 복사 코드는 다음과 같습니다.
받아들임 text/html,application/xhtml xml,application/xml;q =0.9, */*;q=0.8
수락-인코딩 gzip, 수축
Accept-Language zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
연결 유지
쿠키 __utma=225240837.787252530.1317310581.1335406161.1335411401.1537; __utmz=225240837.1326850415.887.3.utmcsr=google|utmccn=(유기)|utmcmd=유기| utmctr=이렇게 간단한 프로젝트는 없습니다:www.nowamagic.net PHPSESSID=888mj4425p8s0m7s0frre3ovc7; 225240837; __utmb=225240837.1.10.1335411401
호스트 www.jb51.net
사용자 에이전트 Mozilla/5.0(Windows NT 5.1; rv:12.0) Gecko/20100101 Firefox/12.0

Content-Encoding 항목은 헤더정보에서 확인할 수 있으며, Gzip입니다.

해결책은 상대적으로 간단합니다. file_get_contents 대신 컬을 사용하여 얻은 다음 컬 구성 매개변수에 하나를 추가하는 것입니다.

코드 복사 코드는 다음과 같습니다.
curl_setopt($ch, CURLOPT_ENCODING, "gzip");

오늘 file_get_contents를 이용해 사진을 캡쳐했는데 처음에는 이 문제를 인지하지 못했고, 이를 찾는데 많은 노력이 필요했습니다.

내장된 zlib 라이브러리를 사용하세요. 서버에 zlib 라이브러리가 설치되어 있는 경우 다음 코드를 사용하면 잘못된 코드 문제를 쉽게 해결할 수 있습니다.

코드 복사 코드는 다음과 같습니다.
$data = file_get_contents("compress.zlib://".$ URL)

이 기사가 모든 사람의 PHP 프로그래밍 설계에 도움이 되기를 바랍니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.