ホームページ  >  記事  >  バックエンド開発  >  Curl が文字化けを収集し、PHP の収集に失敗する

Curl が文字化けを収集し、PHP の収集に失敗する

WBOY
WBOYオリジナル
2016-06-23 14:03:08846ブラウズ

PHP プログラムは gbk2312 でエンコードされます:

$url = "http://www.sina.com.cn";//gbk2312 エンコード
//$url = "http://www. 163.com";//gbk2312 エンコード
//$url = "http://www.sohu.com";//gbk2312 エンコード


$ch =curl_init($url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER) , true);// 取得した出力のテキスト ストリームを返します
$ret =curl_exec($ch);
curl_close($ch);
echo $ret; >

sina.com.cn を収集するときは正常ですが、163.com を収集するときは空で、sohu.com を収集するときはコードが失われます
何が起こっていますか?の解き方?誰かが間違っているのですか?まず、ありがとうございます! ! !残りポイントが少なくなりました、申し訳ありません。


ディスカッション (解決策) への返信
NetEase は API 収集を制限しています。捜狐も制限されるかもしれない。

fopen または file_get_content を使用できますが、file_get_content はタイムアウトになりやすく、プログラムの実行が停止します。

何もなければ、私はポイントを獲得するためにここに来ました。投稿者はフルポイントを与えることを忘れていません

$curl=curl_init('http://www.163.com');curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)');$html=curl_exec($curl);var_dump($html);$curl=curl_init('http://www.sohu.com');curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)');$html=curl_exec($curl);//$html=strstr($html,'<');$html=gzdecode($html);var_dump($html);function gzdecode($data) {     $len = strlen($data);     if ($len < 18 || strcmp(substr($data,0,2),"\x1f\x8b")) {      return null;  // Not GZIP format (See RFC 1952)     }     $method = ord(substr($data,2,1));  // Compression method     $flags  = ord(substr($data,3,1));  // Flags     if ($flags & 31 != $flags) {      // Reserved bits are set -- NOT ALLOWED by RFC 1952      return null;     }     // NOTE: $mtime may be negative (PHP integer limitations)     $mtime = unpack("V", substr($data,4,4));     $mtime = $mtime[1];     $xfl  = substr($data,8,1);     $os    = substr($data,8,1);     $headerlen = 10;     $extralen  = 0;     $extra    = "";     if ($flags & 4) {      // 2-byte length prefixed EXTRA data in header      if ($len - $headerlen - 2 < 8) {        return false;    // Invalid format      }      $extralen = unpack("v",substr($data,8,2));      $extralen = $extralen[1];      if ($len - $headerlen - 2 - $extralen < 8) {        return false;    // Invalid format      }      $extra = substr($data,10,$extralen);      $headerlen += 2 + $extralen;     }       $filenamelen = 0;     $filename = "";     if ($flags & 8) {      // C-style string file NAME data in header      if ($len - $headerlen - 1 < 8) {        return false;    // Invalid format      }      $filenamelen = strpos(substr($data,8+$extralen),chr(0));      if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) {        return false;    // Invalid format      }      $filename = substr($data,$headerlen,$filenamelen);      $headerlen += $filenamelen + 1;     }       $commentlen = 0;     $comment = "";     if ($flags & 16) {      // C-style string COMMENT data in header      if ($len - $headerlen - 1 < 8) {        return false;    // Invalid format      }      $commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0));      if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) {        return false;    // Invalid header format      }      $comment = substr($data,$headerlen,$commentlen);      $headerlen += $commentlen + 1;     }       $headercrc = "";     if ($flags & 1) {      // 2-bytes (lowest order) of CRC32 on header present      if ($len - $headerlen - 2 < 8) {        return false;    // Invalid format      }      $calccrc = crc32(substr($data,0,$headerlen)) & 0xffff;      $headercrc = unpack("v", substr($data,$headerlen,2));      $headercrc = $headercrc[1];      if ($headercrc != $calccrc) {        return false;    // Bad header CRC      }      $headerlen += 2;     }       // GZIP FOOTER - These be negative due to PHP's limitations     $datacrc = unpack("V",substr($data,-8,4));     $datacrc = $datacrc[1];     $isize = unpack("V",substr($data,-4));     $isize = $isize[1];       // Perform the decompression:     $bodylen = $len-$headerlen-8;     if ($bodylen < 1) {      // This should never happen - IMPLEMENTATION BUG!      return null;     }     $body = substr($data,$headerlen,$bodylen);     $data = "";     if ($bodylen > 0) {      switch ($method) {        case 8:          // Currently the only supported compression method:          $data = gzinflate($body);          break;        default:          // Unknown compression method          return false;      }     } else {      // I'm not sure if zero-byte body content is allowed.      // Allow it for now...  Do nothing...     }       // Verifiy decompressed size and CRC32:     // NOTE: This may fail with large data sizes depending on how     //      PHP's integer limitations affect strlen() since $isize     //      may be negative for large sizes.     if ($isize != strlen($data) || crc32($data) != $datacrc) {      // Bad format!  Length or CRC doesn't match!      return false;     }     return $data;   } 


ポイントを与えてくれた young5335 に感謝します。しかし、それがほんの少しだけであるのは残念です、私はできます。私が望むなら、それ以上は与えないでください。

curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/4.0 (互換性; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)');

たくさんのコードがありますが、この文が最も便利です。解決策の質問

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
前の記事:PHPの文字列操作次の記事:PHPの文字列操作