Maison >développement back-end >tutoriel php >Comment puis-je vérifier efficacement les erreurs 404 dans PHP avant le Web Scraping ?

Comment puis-je vérifier efficacement les erreurs 404 dans PHP avant le Web Scraping ?

Linda Hamilton
Linda Hamiltonoriginal
2024-12-19 17:44:10654parcourir

How Can I Efficiently Check for 404 Errors in PHP Before Web Scraping?

Un moyen simple de tester une URL pour 404 en PHP

Découvrir que votre code rencontre des problèmes en raison d'URL renvoyant 404 est un problème courant dans le web scraping. Pour résoudre ce problème efficacement, il est essentiel d'implémenter un test au début du code pour vérifier si une URL a une réponse 404.

Bien que des suggestions telles que l'utilisation de @fsockopen() ne tiennent pas compte des redirections, une approche plus appropriée consiste à utiliser La fonction curl_getinfo() de curl. Voici comment :

// Initialize a cURL handle with the given URL
$handle = curl_init($url);
// Enable return of transfer as a string
curl_setopt($handle, CURLOPT_RETURNTRANSFER, TRUE);
// Get the response (HTML or data linked to the URL)
$response = curl_exec($handle);
// Check for 404 (file not found) response
$httpCode = curl_getinfo($handle, CURLINFO_HTTP_CODE);
// Handle 404
if ($httpCode == 404) {

    /* Perform your custom 404 handling here. */
}
// Close the curl session
curl_close($handle);
// Continue processing with the retrieved $response

En incorporant ce code, vous pouvez vérifier efficacement les réponses 404, permettant à votre code d'ignorer les URL problématiques et de passer à celles disponibles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn