cURL을 사용하여 페이지 콘텐츠를 검색하는 방법
Google 검색 결과에서 콘텐츠를 추출하는 과정에서 리디렉션 및 cURL을 사용할 때 "페이지 이동" 오류가 발생합니다. 인코딩된 쿼리 문자열로 인해 이러한 장애가 발생하는 경우가 많습니다.
원하는 콘텐츠를 효과적으로 검색하려면 다음 PHP 구현을 고려하세요.
<code class="php">/** * Get a web file (HTML, XHTML, XML, image, etc.) from a URL. Return an * array containing the HTTP server response header fields and content. */ function get_web_page( $url ) { $user_agent='Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0'; $options = array( CURLOPT_CUSTOMREQUEST => "GET", // set request type post or get CURLOPT_POST => false, // set to GET CURLOPT_USERAGENT => $user_agent, // set user agent CURLOPT_COOKIEFILE => "cookie.txt", // set cookie file CURLOPT_COOKIEJAR => "cookie.txt", // set cookie jar CURLOPT_RETURNTRANSFER => true, // return web page CURLOPT_HEADER => false, // don't return headers CURLOPT_FOLLOWLOCATION => true, // follow redirects CURLOPT_ENCODING => "", // handle all encodings CURLOPT_AUTOREFERER => true, // set referer on redirect CURLOPT_CONNECTTIMEOUT => 120, // timeout on connect CURLOPT_TIMEOUT => 120, // timeout on response CURLOPT_MAXREDIRS => 10, // stop after 10 redirects ); $ch = curl_init( $url ); curl_setopt_array( $ch, $options ); $content = curl_exec( $ch ); $err = curl_errno( $ch ); $errmsg = curl_error( $ch ); $header = curl_getinfo( $ch ); curl_close( $ch ); $header['errno'] = $err; $header['errmsg'] = $errmsg; $header['content'] = $content; return $header; }</code>
예:
<code class="php">// Read a web page and check for errors: $result = get_web_page( $url ); if ( $result['errno'] != 0 ) ... error: bad url, timeout, redirect loop ... if ( $result['http_code'] != 200 ) ... error: no page, no permissions, no service ... $page = $result['content'];</code>
위 내용은 cURL을 사용하여 URL 리디렉션 및 페이지 이동 오류를 처리하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!