Heim  >  Artikel  >  Backend-Entwicklung  >  Praktische Crawler-Praxis: Verwendung von PHP zum Crawlen von Bestandsinformationen

Praktische Crawler-Praxis: Verwendung von PHP zum Crawlen von Bestandsinformationen

王林
王林Original
2023-06-13 17:32:051398Durchsuche

Der Aktienmarkt war schon immer ein Thema großer Besorgnis. Der tägliche Anstieg, Rückgang und die Veränderungen der Aktien wirken sich direkt auf die Entscheidungen der Anleger aus. Wenn Sie die neuesten Entwicklungen am Aktienmarkt verstehen möchten, müssen Sie Aktieninformationen zeitnah einholen und analysieren. Die traditionelle Methode besteht darin, große Finanzwebsites manuell zu öffnen, um die Aktiendaten einzeln anzuzeigen. Diese Methode ist offensichtlich zu umständlich und ineffizient. Mittlerweile sind Crawler zu einer sehr effizienten und automatisierten Lösung geworden.

Als nächstes zeigen wir, wie man mit PHP ein einfaches Aktien-Crawler-Programm schreibt, um Aktiendaten zu erhalten.

Vorbereitungsarbeiten

Bevor Sie das Crawler-Programm schreiben, müssen Sie die folgenden Arbeiten vorbereiten:

  1. Installieren Sie die PHP-Entwicklungsumgebung
  2. Installieren Sie die PHP-bezogene HTTP-Anforderungsbibliothek
  3. Verstehen Sie die Grundkenntnisse von HTML DOM
  4. Be mit der XPath-Syntax vertraut

Unter anderem wird die HTTP-Anforderungsbibliothek zum Senden von HTTP-Anforderungen verwendet, um den HTML-Quellcode der Zielwebsite zu erhalten. HTML DOM wird zum Parsen und Durchlaufen von HTML-Seiten verwendet XML- und HTML-Dokumente.

Programmierung

Bevor wir mit dem Schreiben des Crawler-Programms beginnen, müssen wir die URL der Zielwebsite und den zu beschaffenden Aktiencode kennen. Am Beispiel von Sina Finance lautet die URL der Aktiendaten wie folgt:

http://finance.sina.com.cn/realstock/company/sh600000/nc.shtml

Unter diesen steht sh600000 für den Aktiencode der Shanghai Stock Exchange. Ebenso beginnt der Börsencode der Shenzhen Stock Exchange mit sz. Wir können eine URL basierend auf dem Bestandscode erstellen, den wir benötigen, und die HTTP-Anforderungsbibliothek verwenden, um den HTML-Quellcode abzurufen.

Nachdem wir den HTML-Quellcode erhalten haben, müssen wir den HTML-DOM-Parser verwenden, um die HTML-Seite zu analysieren und die XPath-Syntax verwenden, um die erforderlichen Bestandsdaten herauszufiltern. In diesem Beispiel müssen wir den Namen und den aktuellen Preis der Aktie herausfiltern.

Abschließend können wir die erhaltenen Bestandsdaten ausdrucken. Der spezifische Code lautet wie folgt:

$code = 'sh600000'; // 股票代码
$url = 'http://finance.sina.com.cn/realstock/company/' . $code . '/nc.shtml'; // 构建URL

$html = file_get_contents($url); // 获取HTML源码
$dom = new DOMDocument();
@$dom->loadHTML($html); // 解析HTML

$xpath = new DOMXPath($dom);
$name = $xpath->query('//h1[@class="name"]/text()')->item(0)->nodeValue; // 筛选股票名称
$price = $xpath->query('//span[@class="price"]/text()')->item(0)->nodeValue; // 筛选当前价格

echo $name . '的当前价格为' . $price;

Programmtest

Bevor wir den Test ausführen, müssen wir sicherstellen, dass die HTTP-Anforderungsbibliothek und zugehörige Erweiterungen in der lokalen PHP-Umgebung installiert wurden. Am Beispiel des Windows-Systems können Sie es mit dem folgenden Befehl installieren:

composer require php-http/guzzle6-adapter
composer require php-http/message

Als nächstes können wir versuchen, die Bestandsdaten des Shanghai Composite Index (Börsencode sh000001) abzurufen:

$code = 'sh000001'; // 上证指数
$url = 'http://finance.sina.com.cn/realstock/company/' . $code . '/nc.shtml';

$client = new HttpAdapterGuzzle6Client();
$request = new HttpMessageRequest('GET', $url);
$response = $client->sendRequest($request);

$html = $response->getBody()->getContents();
$dom = new DOMDocument();
@$dom->loadHTML($html); // 解析HTML

$xpath = new DOMXPath($dom);
$name = $xpath->query('//h1[@class="name"]/text()')->item(0)->nodeValue;
$price = $xpath->query('//span[@class="price"]/text()')->item(0)->nodeValue;

echo $name . '的当前价格为' . $price;

Nachdem wir den Code ausgeführt haben Sie können die Ausgabe des Shanghai Composite Index auf der Konsole sehen. Aktuelle Preisinformationen für den Index.

Programmoptimierung

Der obige Code ist nur ein einfaches Beispiel. In tatsächlichen Anwendungen müssen die folgenden Faktoren zur Optimierung berücksichtigt werden:

  1. Fügen Sie eine Fehlerbehandlung hinzu, um die Situation zu bewältigen, in der der HTML-Quellcode aufgrund des Netzwerks nicht abgerufen werden kann oder aus anderen Gründen.
  2. Kann nach dem Zeitpunkt des letzten Zugriffs zwischengespeichert werden, um zu vermeiden, dass bei jeder Ausführung des Programms HTTP-Anfragen gesendet werden.
  3. Sie können mehrere Aktien in einer Endlosschleife überwachen. Wenn sich der Aktienkurs ändert, wird automatisch eine E-Mail-Benachrichtigung ausgelöst.

Kurz gesagt, beim Schreiben von Stock-Crawler-Programmen müssen viele Aspekte wie Sicherheit, Effizienz und Praktikabilität berücksichtigt und so konzipiert und implementiert werden, dass die besten Ergebnisse erzielt werden.

Referenz

  1. [PHP HTTP Client · php-http.org](http://docs.php-http.org/en/latest/)
  2. [HTML DOM · w3school.com.cn](https: //www.w3school.com.cn/php/php_ref_dom.asp)
  3. [XPath · zh.wikipedia.org](https://zh.wikipedia.org/wiki/XPath)

Das obige ist der detaillierte Inhalt vonPraktische Crawler-Praxis: Verwendung von PHP zum Crawlen von Bestandsinformationen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn