Heim  >  Artikel  >  Backend-Entwicklung  >  So lösen Sie das verstümmelte Problem des PHP-Webcrawlens

So lösen Sie das verstümmelte Problem des PHP-Webcrawlens

藏色散人
藏色散人Original
2020-09-04 10:14:062914Durchsuche

Lösung für das Crawlen verstümmelter PHP-Webseiten: 1. Verwenden Sie „mbconvertencoding“, um die Codierung zu konvertieren. 2. Legen Sie die Option „curl_setopt($ch, CURLOPT_ENCODING, ‚gzip‘)“ fest.

So lösen Sie das verstümmelte Problem des PHP-Webcrawlens

Empfohlen: „PHP-Video-Tutorial

php crawlt die Seite mit verstümmelten Zeichen

Beim Crawlen der Seite erscheinen verstümmelte Zeichen wie ������. Die Lösung ist wie folgt

1. Konvertieren Sie die Kodierung

str=mbconvertencoding(str, “utf-8”, “GBK”);

2. Die Daten werden von gzip komprimiert

Wenn Curl die Daten erhält, legen Sie die folgenden Optionen fest und fügen Sie sie hinzu:

curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

Die Verwendung der Funktion „file_get_contents“ erfordert die Installation der zlib-Bibliothek

$data = file_get_contents("compress.zlib://".$url);

3. Nach Erhalt der Daten werden verstümmelte Zeichen angezeigt

Fügen Sie oben den folgenden Code für

header("Content-type: text/html; charset=utf-8");
hinzu

Das obige ist der detaillierte Inhalt vonSo lösen Sie das verstümmelte Problem des PHP-Webcrawlens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn