Heim  >  Artikel  >  Web-Frontend  >  Verwenden Sie Cheerio, um einen einfachen Webcrawler in Node.js zu erstellen (ausführliches Tutorial)

Verwenden Sie Cheerio, um einen einfachen Webcrawler in Node.js zu erstellen (ausführliches Tutorial)

亚连
亚连Original
2018-06-02 14:30:033337Durchsuche

In diesem Artikel wird hauptsächlich die Verwendung von Cheerio zum Erstellen eines einfachen Webcrawler-Beispiels vorgestellt. Jetzt teile ich es mit Ihnen und gebe es als Referenz.

Dieser Artikel stellt Node.js vor, um mit Cheerio ein einfaches Webcrawler-Beispiel zu erstellen. Teilen Sie es mit allen. Es verfügt über die folgenden Funktionen:

1. Ziel

  1. Abschließen Erhalten Sie die Titelinformationen der Website

  2. Geben Sie die erhaltenen Informationen in einer neuen Datei aus

  3. Tool: cheerio, verwenden npm zum Herunterladen von npm install cheerio

  4. Die Methode zur Verwendung der Cheerio-API ist im Grunde die gleiche wie die Methode zur Verwendung von jQuery

  5. Wenn Sie sich auskennen Wenn Sie jQuery verwenden, können Sie schnell mit Cheerio beginnen , und geben Sie es schließlich in die Datei pageTitle.txt aus

    const https = require('https');
    const fs = require('fs');
    const cheerio = require('cheerio');
    const url = 'https://segmentfault.com/';
    
    https.get(url, (res) => {
      let html = '';
      res.on('data', (data) => {
        html += data;
      });
      res.on('end', () => {
        getPageTitle(html);
      });
    }).on('error', () => {
      console.log('获取网页信息错误');
    });
    
    function getPageTitle(html) {
      const $ = cheerio.load(html);
      let chapters = $('.news__item-title');
      let data = [];
      let index = 0;
      let fileName = 'pageTitle.txt';
      for (let i = 0; i < chapters.length; i++) {
        let chapterTitle = $(chapters[i]).find(&#39;a&#39;).text().trim();
        index++;
        data.push(`\n${index}, ${chapterTitle}`);
      }
      fs.writeFile(fileName, data, &#39;utf8&#39;, (err) => {
        if (err) {
          console.log(&#39;fs文件系统创建新文件失败&#39;, err);
        }
        console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
      })
    }
  6. Das Obige habe ich für Sie zusammengestellt. Ich hoffe, es wird Ihnen in Zukunft hilfreich sein.

Verwandte Artikel:

Sprechen Sie über die Verwendung der JS-Animationsbibliothek Velocity.js

vue toggle macht eine Click-Switching-Klasse (Erklärung). mit Beispielen)

Vue2.0 So fügen Sie Stile zu Registerkarten und Seitenwechselübergängen hinzu

Das obige ist der detaillierte Inhalt vonVerwenden Sie Cheerio, um einen einfachen Webcrawler in Node.js zu erstellen (ausführliches Tutorial). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn