Rumah >pangkalan data >Redis >Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat
Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat
Pengenalan:
Perangkak web ialah alat program yang memperoleh maklumat daripada Internet Ia boleh mengakses halaman web secara automatik dan menghuraikan data di dalamnya. Menggunakan perangkak web, kami boleh merangkak dengan pantas sejumlah besar data untuk menyediakan sokongan untuk analisis data dan keputusan perniagaan. Artikel ini akan memperkenalkan cara membina perangkak web mudah menggunakan Redis dan JavaScript serta menunjukkan cara merangkak data dengan cepat.
const redis = require('redis'); const client = redis.createClient(); // 添加待抓取的URL到队列 const enqueueUrl = (url, priority = 0) => { client.zadd('urls', priority, url); } // 从队列中获取待抓取的URL const dequeueUrl = () => { return new Promise((resolve, reject) => { client.zrange('urls', 0, 0, (err, urls) => { if (err) reject(err); else resolve(urls[0]); }) }) } // 判断URL是否已经被抓取过 const isUrlVisited = (url) => { return new Promise((resolve, reject) => { client.sismember('visited_urls', url, (err, result) => { if (err) reject(err); else resolve(!!result); }) }) } // 将URL标记为已经被抓取过 const markUrlVisited = (url) => { client.sadd('visited_urls', url); }
Dalam kod di atas, kami menggunakan struktur data pengumpulan dan pengumpulan yang dipesan Redis, koleksi terperintah visited_urls
digunakan untuk menyimpan URL yang telah dirangkak. urls
用于存储待抓取的URL,集合visited_urls
用于存储已经被抓取过的URL。
const request = require('request'); const cheerio = require('cheerio'); // 从指定的URL中解析数据 const parseData = (url) => { return new Promise((resolve, reject) => { request(url, (error, response, body) => { if (error) reject(error); else { const $ = cheerio.load(body); // 在这里对页面进行解析,并提取数据 // ... resolve(data); } }) }) } // 爬虫节点的主逻辑 const crawler = async () => { while (true) { const url = await dequeueUrl(); if (!url) break; if (await isUrlVisited(url)) continue; try { const data = await parseData(url); // 在这里将数据存储到Redis中 // ... markUrlVisited(url); } catch (error) { console.error(`Failed to parse data from ${url}`, error); } } } crawler();
在上面的代码中,我们使用了request
库发送HTTP请求,使用cheerio
库解析页面。在parseData
函数中,我们可以根据具体的页面结构和数据提取需求,使用cheerio
Contoh kod nod crawler adalah seperti berikut:
request
untuk menghantar HTTP permintaan, gunakan perpustakaan cheerio menghuraikan halaman. Dalam fungsi parseData
, kita boleh menggunakan pustaka cheerio
untuk menghuraikan halaman dan mengekstrak data mengikut struktur halaman tertentu dan keperluan pengekstrakan data. Dalam logik utama nod perangkak, kami gelung untuk mendapatkan URL untuk dirangkak daripada baris gilir Redis dan melakukan penghuraian halaman dan penyimpanan data. 🎜🎜Ringkasan: 🎜Dengan memanfaatkan Redis dan JavaScript, kami boleh membina perangkak web yang ringkas tetapi berkuasa untuk merangkak dengan pantas sejumlah besar data. Kami boleh menggunakan penjadual tugas untuk menambah URL untuk dirangkak ke baris gilir Redis dan mendapatkan URL daripada baris gilir dalam nod perangkak untuk penghuraian halaman dan penyimpanan data. Seni bina yang diedarkan ini boleh meningkatkan kecekapan merangkak, dan melalui storan data dan ciri berprestasi tinggi Redis, sejumlah besar data boleh diproses dengan mudah. 🎜Atas ialah kandungan terperinci Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!