Rumah >pangkalan data >Redis >Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat

Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat

WBOY
WBOYasal
2023-07-30 08:37:181334semak imbas

Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat

Pengenalan:
Perangkak web ialah alat program yang memperoleh maklumat daripada Internet Ia boleh mengakses halaman web secara automatik dan menghuraikan data di dalamnya. Menggunakan perangkak web, kami boleh merangkak dengan pantas sejumlah besar data untuk menyediakan sokongan untuk analisis data dan keputusan perniagaan. Artikel ini akan memperkenalkan cara membina perangkak web mudah menggunakan Redis dan JavaScript serta menunjukkan cara merangkak data dengan cepat.

  1. Persediaan persekitaran
    Sebelum bermula, kita perlu menyediakan persekitaran berikut:
  2. Redis: digunakan sebagai penjadual tugas dan penyimpanan data perangkak.
  3. Node.js: Jalankan kod JavaScript.
  4. Cheerio: Pustaka untuk menghuraikan halaman HTML.
  5. Reka bentuk seni bina crawler
    Perangkak kami akan menggunakan seni bina teragih dan dibahagikan kepada dua bahagian: penjadual tugas dan nod perangkak.
  • Penjadual Tugas: Bertanggungjawab untuk menambahkan URL untuk dirangkak ke baris gilir Redis, dan melaksanakan tetapan penyahduplikasian dan keutamaan mengikut keperluan.
  • Nod crawler: Bertanggungjawab untuk mendapatkan URL yang akan dirangkak daripada baris gilir Redis, menghuraikan halaman, mengekstrak data dan menyimpannya dalam Redis.
  1. Contoh kod penjadual tugas
    Contoh kod penjadual tugas adalah seperti berikut:
const redis = require('redis');
const client = redis.createClient();

// 添加待抓取的URL到队列
const enqueueUrl = (url, priority = 0) => {
  client.zadd('urls', priority, url);
}

// 从队列中获取待抓取的URL
const dequeueUrl = () => {
  return new Promise((resolve, reject) => {
    client.zrange('urls', 0, 0, (err, urls) => {
      if (err) reject(err);
      else resolve(urls[0]);
    })
  })
}

// 判断URL是否已经被抓取过
const isUrlVisited = (url) => {
  return new Promise((resolve, reject) => {
    client.sismember('visited_urls', url, (err, result) => {
      if (err) reject(err);
      else resolve(!!result);
    })
  })
}

// 将URL标记为已经被抓取过
const markUrlVisited = (url) => {
  client.sadd('visited_urls', url);
}

Dalam kod di atas, kami menggunakan struktur data pengumpulan dan pengumpulan yang dipesan Redis, koleksi terperintah url code> ialah digunakan untuk menyimpan URL untuk dirangkak dan koleksi visited_urls digunakan untuk menyimpan URL yang telah dirangkak. urls用于存储待抓取的URL,集合visited_urls用于存储已经被抓取过的URL。

  1. 爬虫节点代码示例
    爬虫节点的代码示例如下:
const request = require('request');
const cheerio = require('cheerio');

// 从指定的URL中解析数据
const parseData = (url) => {
  return new Promise((resolve, reject) => {
    request(url, (error, response, body) => {
      if (error) reject(error);
      else {
        const $ = cheerio.load(body);
        // 在这里对页面进行解析,并提取数据
        // ...

        resolve(data);
      }
    })
  })
}

// 爬虫节点的主逻辑
const crawler = async () => {
  while (true) {
    const url = await dequeueUrl();
    if (!url) break;

    if (await isUrlVisited(url)) continue;

    try {
      const data = await parseData(url);

      // 在这里将数据存储到Redis中
      // ...

      markUrlVisited(url);
    } catch (error) {
      console.error(`Failed to parse data from ${url}`, error);
    }
  }
}

crawler();

在上面的代码中,我们使用了request库发送HTTP请求,使用cheerio库解析页面。在parseData函数中,我们可以根据具体的页面结构和数据提取需求,使用cheerio

    Contoh kod nod crawler

    Contoh kod nod crawler adalah seperti berikut:

    rrreee🎜Dalam kod di atas, kami menggunakan perpustakaan request untuk menghantar HTTP permintaan, gunakan perpustakaan cheerio menghuraikan halaman. Dalam fungsi parseData, kita boleh menggunakan pustaka cheerio untuk menghuraikan halaman dan mengekstrak data mengikut struktur halaman tertentu dan keperluan pengekstrakan data. Dalam logik utama nod perangkak, kami gelung untuk mendapatkan URL untuk dirangkak daripada baris gilir Redis dan melakukan penghuraian halaman dan penyimpanan data. 🎜🎜Ringkasan: 🎜Dengan memanfaatkan Redis dan JavaScript, kami boleh membina perangkak web yang ringkas tetapi berkuasa untuk merangkak dengan pantas sejumlah besar data. Kami boleh menggunakan penjadual tugas untuk menambah URL untuk dirangkak ke baris gilir Redis dan mendapatkan URL daripada baris gilir dalam nod perangkak untuk penghuraian halaman dan penyimpanan data. Seni bina yang diedarkan ini boleh meningkatkan kecekapan merangkak, dan melalui storan data dan ciri berprestasi tinggi Redis, sejumlah besar data boleh diproses dengan mudah. 🎜

Atas ialah kandungan terperinci Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn