Rumah >hujung hadapan web >tutorial js >Keseluruhan proses membuat perangkak dengan NodeJS_node.js
Hari ini, mari kita pelajari tutorial crawler alsotang, dan kemudian ikuti rangkak mudah CNode.
Buat projek craelr-demo
Kami mula-mula membuat projek Express, dan kemudian memadamkan semua kandungan fail app.js, kerana kami tidak perlu memaparkan kandungan di Web buat masa ini. Sudah tentu, kami juga boleh terus npm install express
dalam folder kosong untuk menggunakan fungsi Express yang kami perlukan.
Analisis tapak web sasaran
Seperti yang ditunjukkan dalam gambar, ini adalah sebahagian daripada teg div pada halaman utama CNode Kami menggunakan siri id dan kelas ini untuk mencari maklumat yang kami perlukan.
Gunakan superagen untuk mendapatkan data sumber
superagent ialah perpustakaan Http yang digunakan oleh API ajax Penggunaannya serupa dengan jQuery Kami memulakan permintaan dapatkan melaluinya dan mengeluarkan hasil dalam fungsi panggil balik.
Hasilnya ialah objek yang mengandungi maklumat url sasaran dan kandungan tapak web terutamanya dalam teksnya (rentetan).
Gunakan cheerio untuk menghuraikan
cheerio bertindak sebagai fungsi jQuery sebelah pelayan Kami mula-mula menggunakan .load() untuk memuatkan HTML, dan kemudian menapis elemen melalui pemilih CSS.
Hasilnya ialah objek. Panggil fungsi .each(function(index, element))
untuk melintasi setiap objek dan mengembalikan Elemen DOM HTML.
Hasil pengeluaran console.log($element.attr('title'));
ialah 广州 2014年12月06日 NodeParty 之 UC 场
Tajuk seperti console.log($element.attr('href'));
dikeluarkan sebagai url seperti /topic/545c395becbcb78265856eb2
. Kemudian gunakan fungsi url.resolve() NodeJS1 untuk melengkapkan url yang lengkap.
Gunakan eventproxy untuk merangkak kandungan setiap topik secara serentak
Tutorial menunjukkan contoh kaedah bersarang dalam (bersiri) dan kaedah balas Eventproxy menggunakan kaedah acara (selari) untuk menyelesaikan masalah ini. Apabila semua rangkak selesai, eventproxy menerima mesej acara dan secara automatik memanggil fungsi pemprosesan untuk anda.
Keputusan adalah seperti berikut
Senaman Lanjutan (Cabaran)
Dapatkan nama pengguna dan mata mesej
Cari nama kelas pengguna yang mengulas dalam kod sumber halaman artikel dan nama kelas ialah reply_author. Seperti yang anda boleh lihat daripada elemen pertama console.log $('.reply_author').get(0)
, semua yang kami perlu dapatkan ada di sini.
Mula-mula, mari kita merangkak artikel dan dapatkan semua yang kita perlukan sekaligus.
Kami boleh menangkap maklumat mata melalui https://cnodejs.org/user/username
Pada halaman maklumat pengguna $('.big').text().trim()
ialah maklumat mata.
Gunakan fungsi cheerio .get(0) untuk mendapatkan elemen pertama.
Ini hanya tangkapan satu artikel, masih ada 40 yang perlu diubah suai.