>  기사  >  백엔드 개발  >  PHP는 HTTPS 콘텐츠 크롤링을 위한 메서드 및 오류 처리를 구현합니다.

PHP는 HTTPS 콘텐츠 크롤링을 위한 메서드 및 오류 처리를 구현합니다.

高洛峰
高洛峰원래의
2016-10-20 14:41:07920검색

최근 Hacker News API를 조사하는 동안 HTTPS 문제가 발생했습니다. 모든 Hacker News API는 일반 HTTP 프로토콜과 다르게 암호화된 HTTPS 프로토콜을 통해 접근하기 때문에, API에서 제공하는 데이터를 얻기 위해 PHP에서 file_get_contents() 함수를 사용할 때 사용되는 코드는 다음과 같습니다. :

<?php
$data = file_get_contents("https://www.liqingbo.cn/son?print=pretty");
......

위 코드를 실행하면 다음과 같은 오류 메시지가 나타납니다.

PHP Warning:  file_get_contents(): Unable to find the wrapper "https" - did you forget to enable it when you configured PHP?

다음은 스크린샷입니다.

PHP는 HTTPS 콘텐츠 크롤링을 위한 메서드 및 오류 처리를 구현합니다.

이 오류는 왜 발생하나요?

인터넷에서 검색한 결과 많은 사람들이 이 오류를 발견했습니다. 문제는 매우 직접적인데, 이는 내 로컬 컴퓨터의 /apache에 활성화된 매개변수가 없기 때문입니다. / bin/php.ini에 있는 ;extension=php_openssl.dll 항목의 경우 앞의 세미콜론을 제거해야 합니다. 다음 스크립트를 사용하여 PHP 환경의 구성을 확인할 수 있습니다:

$w = stream_get_wrappers();

echo 'openssl: ', Extension_loaded ('openssl ') ? 'yes':'no', "n";

echo 'http 래퍼: ', in_array('http', $w) ? 'yes':'no', "n";

echo 'https 래퍼: ', in_array('https', $w) ? 'yes':'no', "n";

echo '래퍼: ', var_dump($ w);

위 스크립트 조각을 실행하면 내 컴퓨터의 결과는 다음과 같습니다.

openssl: no
http wrapper: yes
https wrapper: no
wrappers: array(10) {
  [0]=>
  string(3) "php"
  [1]=>
  string(4) "file"
  [2]=>
  string(4) "glob"
  [3]=>
  string(4) "data"
  [4]=>
  string(4) "http"
  [5]=>
  string(3) "ftp"
  [6]=>
  string(3) "zip"
  [7]=>
  string(13) "compress.zlib"
  [8]=>
  string(14) "compress.bzip2"
  [9]=>
  string(4) "phar"
}

대안

오류를 찾아서 수정하는 것은 매우 간단합니다. 어려운 점은 오류를 찾은 후에는 수정할 수 없다는 것입니다. 원래는 이 스크립트 메소드를 원격 호스트에 넣고 싶었지만 원격 호스트의 PHP 구성을 수정할 수 없었습니다. 결과적으로 이 솔루션을 사용할 수 없었지만 우리는 나무에 매달릴 수 없었습니다. 이 도로는 작동하지 않습니다. 다른 방법이 있나요?

내가 PHP에서 콘텐츠를 가져오는 데 자주 사용하는 또 다른 함수는 file_get_contents()보다 더 강력하고 많은 선택적 매개변수를 제공하는 것입니다. HTTPS 콘텐츠에 액세스하는 문제의 경우 사용해야 하는 CURL 구성 매개변수는 다음과 같습니다.

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);

의미론적으로는 무시/ 점프 SSL 보안 검증을 통과했습니다. 어쩌면 이것은 좋은 생각이 아닐 수도 있지만 일반적인 시나리오에서는 이것으로 충분합니다.

다음은 HTTPS 콘텐츠에 접근할 수 있도록 Curl로 캡슐화한 함수입니다.

function getHTTPS($url) {
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, FALSE);
  curl_setopt($ch, CURLOPT_HEADER, false);
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_REFERER, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
  $result = curl_exec($ch);
  curl_close($ch);
  return $result;
}

위는 https를 획득하는 전체 과정입니다. content in PHP 매우 간단하고 실용적입니다. 동일한 프로젝트 요구사항을 가진 친구들에게 추천합니다.


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.