Heim > Artikel > Backend-Entwicklung > Teilen Sie Tipps zur Erfassung von Douban-Filmdaten mit PHP und phpSpider!
Tipps zum Erfassen von Douban-Filmdaten mit PHP und phpSpider!
【Einführung】
Im Internetzeitalter mit der Informationsexplosion müssen Menschen effektive Informationen erhalten, um ihre Bedürfnisse zu erfüllen. Als bekannte Filminformationsplattform bietet Douban Movies eine große Menge an Filminformationen und ist eine unverzichtbare Ressource für Filmliebhaber. In diesem Artikel wird eine Technik zur Verwendung von PHP und der phpSpider-Bibliothek zum Erfassen von Douban-Filmdaten vorgestellt, um den Lesern zu helfen, schnell die erforderlichen Daten zu erhalten.
[Hintergrund]
Die offizielle API von Douban Movies bietet Schnittstellen zum Abfragen von Filmen und zum Abrufen von Filmdetails, es gibt jedoch Einschränkungen hinsichtlich des häufigen Zugriffs und der Erfassung umfangreicher Daten. Daher können wir phpSpider, ein einfaches und benutzerfreundliches PHP-Crawler-Framework, verwenden, um Daten aus Douban-Filmen zu erfassen. phpSpider verfügt über Funktionen wie gleichzeitiges Crawlen, automatische Deduplizierung und Webseitenanalyse und eignet sich sehr gut für das Crawlen kleiner Daten.
【Code-Implementierung】
Zuerst müssen wir die phpSpider-Bibliothek in der PHP-Umgebung installieren. Es kann über Composer installiert werden:
composer require phpspider/phpspider
Das Folgende ist der Beispielcode zum Erfassen von Douban-Filmdaten:
<?php require 'vendor/autoload.php'; use phpspidercorephpspider; use phpspidercoreequests; // 设置要抓取的网页地址 $url = 'https://movie.douban.com/top250'; // 使用phpSpider进行数据抓取 $config = [ 'name' => 'douban_movie', 'log_show' => false, 'interval' => 1000, 'user_agent' => 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0', 'domains' => [ 'movie.douban.com' ], 'scan_urls' => [ $url ], 'content_url_regexes' => [ 'https://movie.douban.com/subject/[0-9]+/' ], 'fields' => [ [ 'name' => 'title', 'selector' => '#content h1 span:first', 'required' => true ], [ 'name' => 'rating', 'selector' => '.rating_num', 'required' => true ], [ 'name' => 'summary', 'selector' => '#link-report span[property="v:summary"]', 'required' => true ], ] ]; // 在on_extract_page回调函数中处理抓取到的数据 function on_extract_page($page, $data){ // 将抓取到的数据存储到数据库中或做其他处理 $title = $data['title']; $rating = $data['rating']; $summary = $data['summary']; // 这里假设将数据存储到数据库中 $db = new PDO('mysql:host=localhost;dbname=test', 'username', 'password'); $stmt = $db->prepare('INSERT INTO movie(title, rating, summary) VALUES(?, ?, ?)'); $stmt->execute([$title, $rating, $summary]); } // 启动phpSpider进行抓取 $request = new requests(); $request::$input_encoding = 'utf-8'; $spider = new phpspider($config); $spider->on_extract_page = 'on_extract_page'; $spider->start();
Im obigen Beispielcode geben wir die zu erfassende Webseitenadresse, das Datenfeld und die Rückruffunktion an, indem wir Konfigurationsinformationen festlegen Warten. Verarbeiten Sie die erfassten Daten in der Callback-Funktion on_extract_page
. Der Beispielcode erfasst die Filmtitel, Bewertungen und Einführungen der 250 besten Douban-Filme und speichert die Daten in der Datenbank.
【Zusammenfassung】
Dieser Artikel stellt die Techniken zur Verwendung von PHP und der phpSpider-Bibliothek zum Erfassen von Douban-Filmdaten vor und enthält detaillierte Codebeispiele. Der Leser muss lediglich entsprechende Konfigurationen und Änderungen gemäß den Beispielen vornehmen, um die benötigte Datenerfassung zu erreichen. Natürlich muss beim eigentlichen Crawling-Vorgang auch darauf geachtet werden, die Zugriffshäufigkeit entsprechend einzustellen, um eine übermäßige Belastung der Zielwebsite zu vermeiden. Ich hoffe, dass dieser Artikel den Lesern hilfreich sein kann, damit jeder einfacher an die benötigten Douban-Filmdaten gelangen kann.
Das obige ist der detaillierte Inhalt vonTeilen Sie Tipps zur Erfassung von Douban-Filmdaten mit PHP und phpSpider!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!