Rumah >pangkalan data >Redis >Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat

Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2023-07-30 08:37:181401semak imbas

Pengenalan:
Perangkak web ialah alat program yang memperoleh maklumat daripada Internet Ia boleh mengakses halaman web secara automatik dan menghuraikan data di dalamnya. Menggunakan perangkak web, kami boleh merangkak dengan pantas sejumlah besar data untuk menyediakan sokongan untuk analisis data dan keputusan perniagaan. Artikel ini akan memperkenalkan cara membina perangkak web mudah menggunakan Redis dan JavaScript serta menunjukkan cara merangkak data dengan cepat.

Persediaan persekitaran
Sebelum bermula, kita perlu menyediakan persekitaran berikut:
Redis: digunakan sebagai penjadual tugas dan penyimpanan data perangkak.
Node.js: Jalankan kod JavaScript.
Cheerio: Pustaka untuk menghuraikan halaman HTML.
Reka bentuk seni bina crawler
Perangkak kami akan menggunakan seni bina teragih dan dibahagikan kepada dua bahagian: penjadual tugas dan nod perangkak.

Penjadual Tugas: Bertanggungjawab untuk menambahkan URL untuk dirangkak ke baris gilir Redis, dan melaksanakan tetapan penyahduplikasian dan keutamaan mengikut keperluan.
Nod crawler: Bertanggungjawab untuk mendapatkan URL yang akan dirangkak daripada baris gilir Redis, menghuraikan halaman, mengekstrak data dan menyimpannya dalam Redis.

Contoh kod penjadual tugas
Contoh kod penjadual tugas adalah seperti berikut:

const redis = require('redis');
const client = redis.createClient();

// 添加待抓取的URL到队列
const enqueueUrl = (url, priority = 0) => {
  client.zadd('urls', priority, url);
}

// 从队列中获取待抓取的URL
const dequeueUrl = () => {
  return new Promise((resolve, reject) => {
    client.zrange('urls', 0, 0, (err, urls) => {
      if (err) reject(err);
      else resolve(urls[0]);
    })
  })
}

// 判断URL是否已经被抓取过
const isUrlVisited = (url) => {
  return new Promise((resolve, reject) => {
    client.sismember('visited_urls', url, (err, result) => {
      if (err) reject(err);
      else resolve(!!result);
    })
  })
}

// 将URL标记为已经被抓取过
const markUrlVisited = (url) => {
  client.sadd('visited_urls', url);
}

Dalam kod di atas, kami menggunakan struktur data pengumpulan dan pengumpulan yang dipesan Redis, koleksi terperintah url code> ialah digunakan untuk menyimpan URL untuk dirangkak dan koleksi visited_urls digunakan untuk menyimpan URL yang telah dirangkak. urls用于存储待抓取的URL，集合visited_urls用于存储已经被抓取过的URL。

爬虫节点代码示例
爬虫节点的代码示例如下：

const request = require('request');
const cheerio = require('cheerio');

// 从指定的URL中解析数据
const parseData = (url) => {
  return new Promise((resolve, reject) => {
    request(url, (error, response, body) => {
      if (error) reject(error);
      else {
        const $ = cheerio.load(body);
        // 在这里对页面进行解析，并提取数据
        // ...

        resolve(data);
      }
    })
  })
}

// 爬虫节点的主逻辑
const crawler = async () => {
  while (true) {
    const url = await dequeueUrl();
    if (!url) break;

    if (await isUrlVisited(url)) continue;

    try {
      const data = await parseData(url);

      // 在这里将数据存储到Redis中
      // ...

      markUrlVisited(url);
    } catch (error) {
      console.error(`Failed to parse data from ${url}`, error);
    }
  }
}

crawler();

在上面的代码中，我们使用了request库发送HTTP请求，使用cheerio库解析页面。在parseData函数中，我们可以根据具体的页面结构和数据提取需求，使用cheerio

Contoh kod nod crawler adalah seperti berikut:

request

parseData

cheerio

Atas ialah kandungan terperinci Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Cara menggunakan Redis dan C# untuk melaksanakan fungsi pemprosesan transaksi teragihArtikel seterusnya：Cara menggunakan Redis dan C# untuk melaksanakan fungsi pemprosesan transaksi teragih

Artikel berkaitan

Lihat lagi