Heim  >  Artikel  >  Backend-Entwicklung  >  PHP verwendet die Snoopy-Klasse, um das Seiten-Crawling zu implementieren

PHP verwendet die Snoopy-Klasse, um das Seiten-Crawling zu implementieren

墨辰丷
墨辰丷Original
2018-06-09 14:37:381717Durchsuche

Dieser Artikel stellt hauptsächlich vor, wie PHP die Snoopy-Klasse zum Implementieren des Seiten-Crawlings verwendet. Ich hoffe, dass er für alle hilfreich ist.

Das Beispiel in diesem Artikel beschreibt die Verwendung der Snoopy-Klasse in PHP. Die spezifische Analyse lautet wie folgt:

Hier ist eine Demonstration, wie man Webseiteninformationen durch Snoopy in PHP crawlt

/*
You need the snoopy.class.php from 
http://snoopy.sourceforge.net/
*/
include("snoopy.class.php");
$snoopy = new Snoopy;
// need an proxy?:
//$snoopy->proxy_host = "my.proxy.host";
//$snoopy->proxy_port = "8080";
// set browser and referer:
$snoopy->agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)";
$snoopy->referer = "http://www.jonasjohn.de/";
// set some cookies:
$snoopy->cookies["SessionID"] = '238472834723489';
$snoopy->cookies["favoriteColor"] = "blue";
// set an raw-header:
$snoopy->rawheaders["Pragma"] = "no-cache";
// set some internal variables:
$snoopy->maxredirs = 2;
$snoopy->offsiteok = false;
$snoopy->expandlinks = false;
// set username and password (optional)
//$snoopy->user = "joe";
//$snoopy->pass = "bloe";
// fetch the text of the website www.google.com:
if($snoopy->fetchtext("http://www.google.com")){ 
  // other methods: fetch, fetchform, fetchlinks, submittext and submitlinks
  // response code:
  print "response code: ".$snoopy->response_code."<br/>\n";
  // print the headers:
  print "<b>Headers:</b><br/>";
  while(list($key,$val) = each($snoopy->headers)){
    print $key.": ".$val."<br/>\n";
  }
  print "<br/>\n";
 
  // print the texts of the website:
  print "<pre class="brush:php;toolbar:false">".htmlspecialchars($snoopy->results)."
\n"; } else { print "Snoopy: error while fetching document: ".$snoopy->error."\n"; }

Zusammenfassung: Das Obige ist der gesamte Inhalt dieses Artikels, ich hoffe, er wird für das Studium aller hilfreich sein.

Verwandte Empfehlungen:

PHPs Methode zur Implementierung einer Ringwarteschlange basierend auf Memcache

PHP-Betrieb Größenänderung von Bildern, Wasserzeichen, Generieren von Bestätigungscode, Ausgabe und Speichern

PHP liest Instanz der Konfigurationsdateiklasse

Das obige ist der detaillierte Inhalt vonPHP verwendet die Snoopy-Klasse, um das Seiten-Crawling zu implementieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn