Maison >développement back-end >tutoriel php >Comment récupérer le contenu d'une page à l'aide de cURL malgré les erreurs « Page déplacée » ?

Comment récupérer le contenu d'une page à l'aide de cURL malgré les erreurs « Page déplacée » ?

Patricia Arquetteoriginal: 2024-10-22 20:52:03576parcourir

How to Retrieve Page Content Using cURL Despite

Récupération du contenu d'une page à l'aide de cURL

Dans ce contexte, vous cherchez à scraper le contenu d'une page de résultats de recherche Google à l'aide de cURL. Malgré vos tentatives de définition d'agents utilisateurs et de diverses options, la récupération réussie du contenu de la page vous a échappé. Les redirections ou les erreurs de « page déplacée » continuent de nuire à vos efforts.

On pense que le problème peut provenir de l'encodage de caractères spéciaux dans la chaîne de requête. Pour atténuer cela, des modifications de votre code PHP sont nécessaires.

Voici l'approche :

<code class="php">function get_web_page($url)
{
    $user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0';

    $options = array(
        CURLOPT_CUSTOMREQUEST => "GET",
        CURLOPT_POST           => false,
        CURLOPT_USERAGENT      => $user_agent,
        CURLOPT_COOKIEFILE     => "cookie.txt",
        CURLOPT_COOKIEJAR      => "cookie.txt",
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_HEADER         => false,
        CURLOPT_FOLLOWLOCATION => true,
        CURLOPT_ENCODING       => "",
        CURLOPT_AUTOREFERER    => true,
        CURLOPT_CONNECTTIMEOUT => 120,
        CURLOPT_TIMEOUT        => 120,
        CURLOPT_MAXREDIRS      => 10
    );

    $ch = curl_init($url);
    curl_setopt_array($ch, $options);
    $content = curl_exec($ch);
    $err = curl_errno($ch);
    $errmsg = curl_error($ch);
    $header = curl_getinfo($ch);
    curl_close($ch);

    $header['errno']   = $err;
    $header['errmsg']  = $errmsg;
    $header['content'] = $content;
    return $header;
}</code>

Utilisation :

<code class="php">$result = get_web_page($url);

if ($result['errno'] != 0) {
    // Handle errors: bad URL, timeout, redirect loop
}

if ($result['http_code'] != 200) {
    // Handle errors: no page, no permissions, no service
}

$page = $result['content'];</code>

Avec ceci code, vous pouvez maintenant récupérer le contenu exact de la page tel qu'affiché dans votre navigateur. En tenant compte des caractères spéciaux dans la chaîne de requête, vous pouvez surmonter les obstacles auxquels vous avez été confronté précédemment.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

php String for cURL continue using this issue

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：PCRE peut-il gérer les grammaires contextuelles comme {anbncn ; n>0} ?Article suivant：PCRE peut-il gérer les grammaires contextuelles comme {anbncn ; n>0} ?

Articles Liés

Voir plus