ホームページ  >  記事  >  バックエンド開発  >  curl と file_get_contents を使用して文字化けした Web ページをクロールする解決策

curl と file_get_contents を使用して文字化けした Web ページをクロールする解決策

巴扎黑
巴扎黑オリジナル
2016-11-09 11:23:401221ブラウズ

今日、curl_init関数を使用してSohuのWebページをクロールしたところ、分析の結果、サーバーがgzip圧縮機能をオンにしていることがわかりました。 gzip を解析するために関数curl_setopt に複数のオプション CURLOPT_ENCODING を追加するだけで、正しくデコードできます。


また、キャプチャされた Web ページが GBK でエンコードされているが、スクリプトが実際には utf-8 でエンコードされている場合、キャプチャされた Web ページは関数 mb_convert_encoding を使用して変換する必要があります。

るれーるー


声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。