Rumah >hujung hadapan web >tutorial js >Perangkak yang berkuasa berdasarkan Node.js yang boleh menerbitkan terus artikel yang dirangkak_node.js
1. Konfigurasi persekitaran
1) Bina pelayan, mana-mana Linux akan lakukan, saya menggunakan CentOS 6.5
2) Pasang pangkalan data mysql, sama ada 5.5 atau 5.6 Untuk menyelamatkan masalah, anda boleh memasangnya terus dengan lnmp atau lampu Anda juga boleh membaca log terus dalam penyemak imbas kemudian
3) Mula-mula pasang persekitaran node.js saya menggunakan 0.12.7. Saya belum mencuba versi yang lebih baru4) Laksana npm -g install selama-lamanya untuk memasang selama-lamanya supaya perangkak boleh berjalan di latar belakang
5) Susun semua kod secara setempat (integrasi = git klon);
6) Jalankan pemasangan npm dalam direktori projek untuk memasang perpustakaan bergantung;7) Buat dua folder kosong, json dan avatar, dalam direktori projek;
8) Cipta pangkalan data mysql kosong dan pengguna dengan kebenaran penuh, jalankan setup.sql dan startusers.sql dalam kod berturut-turut, cipta struktur pangkalan data dan import pengguna benih awal;9) Edit config.js, item konfigurasi yang ditanda (diperlukan) mesti diisi atau diubah suai dan item yang selebihnya boleh dibiarkan tidak berubah buat masa ini:
Simpan dan teruskan ke langkah seterusnya.
exports.jsonPath = "./json/";//生成json文件的路径 exports.avatarPath = "./avatar/";//保存头像文件的路径 exports.dbconfig = { host: 'localhost',//数据库服务器(必须) user: 'dbuser',//数据库用户名(必须) password: 'dbpassword',//数据库密码(必须) database: 'dbname',//数据库名(必须) port: 3306,//数据库服务器端口 poolSize: 20, acquireTimeout: 30000 }; exports.urlpre = "http://www.jb51.net/";//脚本网址 exports.urlzhuanlanpre = "http://www.jb51.net/list/index_96.htm/";//脚本网址 exports.WPurl = "www.xxx.com";//要发布文章的wordpress网站地址 exports.WPusername = "publishuser";//发布文章的用户名 exports.WPpassword = "publishpassword";//发布文章用户的密码 exports.WPurlavatarpre = "http://www.xxx.com/avatar/";//发布文章中替代原始头像的url地址 exports.mailservice = "QQ";//邮件通知服务类型,也可以用Gmail,前提是你访问得了Gmail(必须) exports.mailuser = "12345@qq.com";//邮箱用户名(必须) exports.mailpass = "qqpassword";//邮箱密码(必须) exports.mailfrom = "12345@qq.com";//发送邮件地址(必须,一般与用户名所属邮箱一致) exports.mailto = "12345@qq.com";//接收通知邮件地址(必须)
Prinsip perangkak sebenarnya adalah untuk mensimulasikan pengguna Zhihu sebenar yang mengklik di tapak web dan mengumpul data, jadi kita perlu mempunyai pengguna Zhihu sebenar. Untuk ujian, anda boleh menggunakan akaun anda sendiri, tetapi untuk alasan jangka panjang, adalah lebih baik untuk mendaftarkan akaun khas Satu sudah cukup, dan perangkak semasa hanya menyokong satu. Proses simulasi kami tidak perlu log masuk dari halaman utama seperti pengguna sebenar, tetapi terus meminjam nilai kuki:
Selepas mendaftar, mengaktifkan dan log masuk, pergi ke halaman utama anda, gunakan mana-mana penyemak imbas dengan mod pembangun atau pemalam kuki dan buka kuki anda sendiri dalam Zhihu. Mungkin terdapat senarai yang sangat kompleks, tetapi kita hanya memerlukan sebahagian daripadanya, iaitu "z_c0". Salin bahagian z_c0 kuki anda sendiri, tinggalkan tanda sama, tanda petikan dan koma bertitik Format akhir kira-kira seperti ini:
Masukkan satu baris rekod dalam jadual kuki pangkalan data mysql, dengan nilai setiap medan adalah:
z_c0="LA8kJIJFdDSOA883wkUGJIRE8jVNKSOQfB9430=|1420113988|a6ea18bc1b23ea469e3b5fb2e33c2828439cb";
e-mel: E-mel log masuk pengguna perangkak
Adalah disyorkan untuk menggunakan selama-lamanya untuk melaksanakan, yang bukan sahaja memudahkan latar belakang berjalan dan pengelogan, tetapi juga secara automatik dimulakan semula selepas ranap sistem. Contoh:
Alamat selepas -l ialah tempat log direkodkan Jika ia diletakkan dalam direktori pelayan web, ia boleh diakses dalam penyemak imbas melalui
http://www.xxx.com/log.txt<.> Semak log terus. Tambahkan parameter (dipisahkan oleh ruang) selepas index.js untuk melaksanakan arahan perangkak yang berbeza:
forever -l /var/www/log.txt index.jsFungsi setiap peringkat diperkenalkan dalam bahagian seterusnya. Untuk memudahkan operasi, anda boleh menulis baris arahan ini sebagai skrip sh, contohnya:
Sila gantikan laluan khusus dengan laluan anda sendiri. Dengan cara ini, anda boleh memulakan perangkak dengan menambahkan parameter pada ./zhihuspider.sh: Contohnya, ./zhihuspider.sh -i -ng -nf memulakan tugas serta-merta dan melangkau pengguna baharu dan peringkat penyimpanan fail. Kaedah untuk menghentikan perangkak adalah selama-lamanya stopall (atau hentikan nombor siri).
4. Gambaran keseluruhan prinsip
Pastikan bahawa fail masukan untuk perangkak Zhihu ialah index.js. Ia melaksanakan tugas crawler pada masa tertentu setiap hari dalam satu gelung. Terdapat tiga tugasan yang dilaksanakan secara berurutan setiap hari iaitu:
1) getnewuser.js: Tangkap maklumat pengguna baharu dengan membandingkan senarai pengikut pengguna dalam pustaka semasa Bergantung pada mekanisme ini, anda boleh menyenaraikan pengguna yang layak secara automatik Zhihu Orang baharu ditambahkan ke pustaka
2) usersnapshot.js: Gelung untuk menangkap maklumat pengguna dan senarai jawapan dalam pustaka semasa dan menyimpannya dalam bentuk syot kilat harian.
3) saveviewfile.js: Jana senarai analisis pengguna berdasarkan kandungan petikan terbaharu dan tapis semalam, jawapan intipati terkini dan sejarah serta terbitkannya ke Laman web "Kanzhihu" .
Selepas tiga tugasan di atas selesai, utas utama akan memuat semula halaman utama Zhihu setiap beberapa minit untuk mengesahkan sama ada kuki semasa masih sah Jika ia tidak sah (melompat ke halaman bukan log masuk), e-mel pemberitahuan akan dihantar ke peti mel yang ditentukan , ingatkan anda untuk menukar kuki dalam masa. Kaedah menukar kuki adalah sama seperti semasa permulaan Anda hanya perlu log masuk secara manual sekali dan kemudian mengeluarkan nilai kuki. Jika anda berminat dengan pelaksanaan kod tertentu, anda boleh membaca ulasan di dalamnya dengan teliti, melaraskan beberapa konfigurasi, atau cuba membina semula keseluruhan perangkak itu sendiri.
Petua
1) Prinsip getnewuser adalah untuk menentukan tangkapan dengan membandingkan bilangan pengikut pengguna dalam syot kilat dua hari sebelum dan selepas, jadi ia mesti mempunyai sekurang-kurangnya dua syot kilat sebelum ia boleh dimulakan dilaksanakan sebelum ini, ia akan dilangkau secara automatik.
2) Separuh daripada syot kilat boleh dipulihkan. Jika program ranap kerana ralat, gunakan henti selama-lamanya untuk menghentikannya, dan kemudian tambah parameter -i -ng untuk melaksanakannya serta-merta dan langkau fasa pengguna baharu, supaya anda boleh meneruskan daripada syot kilat separuh ditangkap.
3) Jangan mudah menambah bilangan utas (pseudo) semasa mengambil syot kilat, iaitu atribut kiraan benang maksimum dalam tangkapan gambar pengguna. Terlalu banyak benang akan menyebabkan 429 ralat, dan jumlah besar data yang ditangkap mungkin tidak ditulis ke pangkalan data dalam masa, menyebabkan limpahan memori. Oleh itu, melainkan pangkalan data anda menggunakan SSD, jangan melebihi 10 utas.
4) Kerja savingviewfile untuk menjana hasil analisis memerlukan syot kilat sekurang-kurangnya 7 hari yang lalu Jika kandungan syot kilat berumur kurang daripada 7 hari, ralat akan dilaporkan dan dilangkau. Kerja analisis sebelumnya boleh dilakukan dengan menanya pangkalan data secara manual.
5) Memandangkan kebanyakan orang tidak perlu menyalin "Kanzhihu", entri ke fungsi artikel WordPress penerbitan automatik telah diulas. Jika anda telah menyediakan WordPress, ingat untuk mendayakan xmlrpc, kemudian sediakan pengguna khusus untuk menerbitkan artikel, konfigurasikan parameter yang sepadan dalam config.js dan nyahkomen kod yang berkaitan dalam saveviewfile.
6) Memandangkan Zhihu telah melaksanakan rawatan anti-lintah untuk avatar, kami juga memperoleh avatar semasa menangkap maklumat pengguna dan menyimpannya secara tempatan Semasa menerbitkan artikel, kami menggunakan alamat avatar tempatan. Anda perlu menghalakan laluan URL dalam pelayan http ke folder tempat avatar disimpan, atau letakkan folder tempat avatar disimpan terus dalam direktori tapak web.
7) Kod mungkin tidak mudah dibaca. Selain struktur panggil balik yang mengelirukan node.js itu sendiri, sebahagian daripada sebabnya ialah semasa saya mula-mula menulis program, saya baru mula bersentuhan dengan node.js Terdapat banyak tempat yang tidak dikenali yang menyebabkan struktur tersebut mengelirukan dan saya tidak mempunyai masa untuk membetulkannya; bahagian lain ialah selepas berkali-kali Terdapat banyak syarat penghakiman yang buruk dan peraturan cuba semula terkumpul dalam tampalan Jika semuanya dialih keluar, jumlah kod boleh dikurangkan sebanyak dua pertiga. Tetapi tiada jalan lain untuk memastikan operasi sistem yang stabil, ini mesti ditambah.
8) Kod sumber perangkak ini adalah berdasarkan protokol WTFPL dan tidak mengenakan sebarang sekatan ke atas pengubahsuaian dan pelepasan.
Di atas adalah keseluruhan kandungan artikel ini, saya harap ia akan membantu kajian semua orang.