cari
Rumahhujung hadapan webtutorial jsPerangkak yang berkuasa berdasarkan Node.js yang boleh menerbitkan terus artikel yang dirangkak_node.js

1. Konfigurasi persekitaran

1) Bina pelayan, mana-mana Linux akan lakukan, saya menggunakan CentOS 6.5

2) Pasang pangkalan data mysql, sama ada 5.5 atau 5.6 Untuk menyelamatkan masalah, anda boleh memasangnya terus dengan lnmp atau lampu Anda juga boleh membaca log terus dalam penyemak imbas kemudian

3) Mula-mula pasang persekitaran node.js saya menggunakan 0.12.7. Saya belum mencuba versi yang lebih baru

4) Laksana npm -g install selama-lamanya untuk memasang selama-lamanya supaya perangkak boleh berjalan di latar belakang

5) Susun semua kod secara setempat (integrasi = git klon);

6) Jalankan pemasangan npm dalam direktori projek untuk memasang perpustakaan bergantung;

7) Buat dua folder kosong, json dan avatar, dalam direktori projek;

8) Cipta pangkalan data mysql kosong dan pengguna dengan kebenaran penuh, jalankan setup.sql dan startusers.sql dalam kod berturut-turut, cipta struktur pangkalan data dan import pengguna benih awal;

9) Edit config.js, item konfigurasi yang ditanda (diperlukan) mesti diisi atau diubah suai dan item yang selebihnya boleh dibiarkan tidak berubah buat masa ini:

Simpan dan teruskan ke langkah seterusnya.

2. Pengguna Crawler
exports.jsonPath = "./json/";//生成json文件的路径
exports.avatarPath = "./avatar/";//保存头像文件的路径
exports.dbconfig = {
  host: 'localhost',//数据库服务器(必须)
  user: 'dbuser',//数据库用户名(必须)
  password: 'dbpassword',//数据库密码(必须)
  database: 'dbname',//数据库名(必须)
  port: 3306,//数据库服务器端口
  poolSize: 20,
  acquireTimeout: 30000
};
  
exports.urlpre = "http://www.jb51.net/";//脚本网址
exports.urlzhuanlanpre = "http://www.jb51.net/list/index_96.htm/";//脚本网址
  
exports.WPurl = "www.xxx.com";//要发布文章的wordpress网站地址
exports.WPusername = "publishuser";//发布文章的用户名
exports.WPpassword = "publishpassword";//发布文章用户的密码
exports.WPurlavatarpre = "http://www.xxx.com/avatar/";//发布文章中替代原始头像的url地址
  
exports.mailservice = "QQ";//邮件通知服务类型,也可以用Gmail,前提是你访问得了Gmail(必须)
exports.mailuser = "12345@qq.com";//邮箱用户名(必须)
exports.mailpass = "qqpassword";//邮箱密码(必须)
exports.mailfrom = "12345@qq.com";//发送邮件地址(必须,一般与用户名所属邮箱一致)
exports.mailto = "12345@qq.com";//接收通知邮件地址(必须)

Prinsip perangkak sebenarnya adalah untuk mensimulasikan pengguna Zhihu sebenar yang mengklik di tapak web dan mengumpul data, jadi kita perlu mempunyai pengguna Zhihu sebenar. Untuk ujian, anda boleh menggunakan akaun anda sendiri, tetapi untuk alasan jangka panjang, adalah lebih baik untuk mendaftarkan akaun khas Satu sudah cukup, dan perangkak semasa hanya menyokong satu. Proses simulasi kami tidak perlu log masuk dari halaman utama seperti pengguna sebenar, tetapi terus meminjam nilai kuki:

Selepas mendaftar, mengaktifkan dan log masuk, pergi ke halaman utama anda, gunakan mana-mana penyemak imbas dengan mod pembangun atau pemalam kuki dan buka kuki anda sendiri dalam Zhihu. Mungkin terdapat senarai yang sangat kompleks, tetapi kita hanya memerlukan sebahagian daripadanya, iaitu "z_c0". Salin bahagian z_c0 kuki anda sendiri, tinggalkan tanda sama, tanda petikan dan koma bertitik Format akhir kira-kira seperti ini:

Masukkan satu baris rekod dalam jadual kuki pangkalan data mysql, dengan nilai setiap medan adalah:

z_c0="LA8kJIJFdDSOA883wkUGJIRE8jVNKSOQfB9430=|1420113988|a6ea18bc1b23ea469e3b5fb2e33c2828439cb";

e-mel: E-mel log masuk pengguna perangkak

  • kata laluan: kata laluan pengguna perangkak
  • nama: nama pengguna perangkak
  • cincang: cincang pengguna perangkak (pengecam unik yang tidak boleh diubah suai oleh setiap pengguna. Malah, ia tidak digunakan di sini dan boleh dibiarkan kosong buat sementara waktu)
  • kuki: kuki yang anda salin sebentar tadi
  • Kemudian ia boleh mula berjalan secara rasmi. Jika kuki tamat tempoh atau pengguna disekat, cuma ubah suai medan kuki dalam baris rekod ini.
    3. Operasi

Adalah disyorkan untuk menggunakan selama-lamanya untuk melaksanakan, yang bukan sahaja memudahkan latar belakang berjalan dan pengelogan, tetapi juga secara automatik dimulakan semula selepas ranap sistem. Contoh:

Alamat selepas -l ialah tempat log direkodkan Jika ia diletakkan dalam direktori pelayan web, ia boleh diakses dalam penyemak imbas melalui
http://www.xxx.com/log.txt<.> Semak log terus. Tambahkan parameter (dipisahkan oleh ruang) selepas index.js untuk melaksanakan arahan perangkak yang berbeza:

1. -i dilaksanakan dengan serta-merta Jika parameter ini tidak ditambahkan, ia akan dilaksanakan pada masa yang ditentukan seterusnya secara lalai, seperti 0:05 setiap pagi; 2. -ng melangkau fasa mengambil pengguna baharu, iaitu getnewuser; 3. -ns melangkau fasa syot kilat, iaitu tangkapan pengguna
4. -nf melangkau peringkat penjanaan fail data, iaitu saveviewfile; 5. -db memaparkan log nyahpepijat.
forever -l /var/www/log.txt index.js
Fungsi setiap peringkat diperkenalkan dalam bahagian seterusnya. Untuk memudahkan operasi, anda boleh menulis baris arahan ini sebagai skrip sh, contohnya:


Sila gantikan laluan khusus dengan laluan anda sendiri. Dengan cara ini, anda boleh memulakan perangkak dengan menambahkan parameter pada ./zhihuspider.sh: Contohnya, ./zhihuspider.sh -i -ng -nf memulakan tugas serta-merta dan melangkau pengguna baharu dan peringkat penyimpanan fail. Kaedah untuk menghentikan perangkak adalah selama-lamanya stopall (atau hentikan nombor siri).

4. Gambaran keseluruhan prinsip

Pastikan bahawa fail masukan untuk perangkak Zhihu ialah index.js. Ia melaksanakan tugas crawler pada masa tertentu setiap hari dalam satu gelung. Terdapat tiga tugasan yang dilaksanakan secara berurutan setiap hari iaitu:

1) getnewuser.js: Tangkap maklumat pengguna baharu dengan membandingkan senarai pengikut pengguna dalam pustaka semasa Bergantung pada mekanisme ini, anda boleh menyenaraikan pengguna yang layak secara automatik Zhihu Orang baharu ditambahkan ke pustaka

2) usersnapshot.js: Gelung untuk menangkap maklumat pengguna dan senarai jawapan dalam pustaka semasa dan menyimpannya dalam bentuk syot kilat harian.

3) saveviewfile.js: Jana senarai analisis pengguna berdasarkan kandungan petikan terbaharu dan tapis semalam, jawapan intipati terkini dan sejarah serta terbitkannya ke Laman web "Kanzhihu" .

Selepas tiga tugasan di atas selesai, utas utama akan memuat semula halaman utama Zhihu setiap beberapa minit untuk mengesahkan sama ada kuki semasa masih sah Jika ia tidak sah (melompat ke halaman bukan log masuk), e-mel pemberitahuan akan dihantar ke peti mel yang ditentukan , ingatkan anda untuk menukar kuki dalam masa. Kaedah menukar kuki adalah sama seperti semasa permulaan Anda hanya perlu log masuk secara manual sekali dan kemudian mengeluarkan nilai kuki. Jika anda berminat dengan pelaksanaan kod tertentu, anda boleh membaca ulasan di dalamnya dengan teliti, melaraskan beberapa konfigurasi, atau cuba membina semula keseluruhan perangkak itu sendiri.

Petua

1) Prinsip getnewuser adalah untuk menentukan tangkapan dengan membandingkan bilangan pengikut pengguna dalam syot kilat dua hari sebelum dan selepas, jadi ia mesti mempunyai sekurang-kurangnya dua syot kilat sebelum ia boleh dimulakan dilaksanakan sebelum ini, ia akan dilangkau secara automatik.

2) Separuh daripada syot kilat boleh dipulihkan. Jika program ranap kerana ralat, gunakan henti selama-lamanya untuk menghentikannya, dan kemudian tambah parameter -i -ng untuk melaksanakannya serta-merta dan langkau fasa pengguna baharu, supaya anda boleh meneruskan daripada syot kilat separuh ditangkap.

3) Jangan mudah menambah bilangan utas (pseudo) semasa mengambil syot kilat, iaitu atribut kiraan benang maksimum dalam tangkapan gambar pengguna. Terlalu banyak benang akan menyebabkan 429 ralat, dan jumlah besar data yang ditangkap mungkin tidak ditulis ke pangkalan data dalam masa, menyebabkan limpahan memori. Oleh itu, melainkan pangkalan data anda menggunakan SSD, jangan melebihi 10 utas.

4) Kerja savingviewfile untuk menjana hasil analisis memerlukan syot kilat sekurang-kurangnya 7 hari yang lalu Jika kandungan syot kilat berumur kurang daripada 7 hari, ralat akan dilaporkan dan dilangkau. Kerja analisis sebelumnya boleh dilakukan dengan menanya pangkalan data secara manual.

5) Memandangkan kebanyakan orang tidak perlu menyalin "Kanzhihu", entri ke fungsi artikel WordPress penerbitan automatik telah diulas. Jika anda telah menyediakan WordPress, ingat untuk mendayakan xmlrpc, kemudian sediakan pengguna khusus untuk menerbitkan artikel, konfigurasikan parameter yang sepadan dalam config.js dan nyahkomen kod yang berkaitan dalam saveviewfile.

6) Memandangkan Zhihu telah melaksanakan rawatan anti-lintah untuk avatar, kami juga memperoleh avatar semasa menangkap maklumat pengguna dan menyimpannya secara tempatan Semasa menerbitkan artikel, kami menggunakan alamat avatar tempatan. Anda perlu menghalakan laluan URL dalam pelayan http ke folder tempat avatar disimpan, atau letakkan folder tempat avatar disimpan terus dalam direktori tapak web.

7) Kod mungkin tidak mudah dibaca. Selain struktur panggil balik yang mengelirukan node.js itu sendiri, sebahagian daripada sebabnya ialah semasa saya mula-mula menulis program, saya baru mula bersentuhan dengan node.js Terdapat banyak tempat yang tidak dikenali yang menyebabkan struktur tersebut mengelirukan dan saya tidak mempunyai masa untuk membetulkannya; bahagian lain ialah selepas berkali-kali Terdapat banyak syarat penghakiman yang buruk dan peraturan cuba semula terkumpul dalam tampalan Jika semuanya dialih keluar, jumlah kod boleh dikurangkan sebanyak dua pertiga. Tetapi tiada jalan lain untuk memastikan operasi sistem yang stabil, ini mesti ditambah.

8) Kod sumber perangkak ini adalah berdasarkan protokol WTFPL dan tidak mengenakan sebarang sekatan ke atas pengubahsuaian dan pelepasan.

Di atas adalah keseluruhan kandungan artikel ini, saya harap ia akan membantu kajian semua orang.

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Beyond the Browser: JavaScript di dunia nyataBeyond the Browser: JavaScript di dunia nyataApr 12, 2025 am 12:06 AM

Aplikasi JavaScript di dunia nyata termasuk pengaturcaraan sisi pelayan, pembangunan aplikasi mudah alih dan Internet of Things Control: 1. Pengaturcaraan sisi pelayan direalisasikan melalui node.js, sesuai untuk pemprosesan permintaan serentak yang tinggi. 2. Pembangunan aplikasi mudah alih dijalankan melalui reaktnatif dan menyokong penggunaan silang platform. 3. Digunakan untuk kawalan peranti IoT melalui Perpustakaan Johnny-Five, sesuai untuk interaksi perkakasan.

Membina aplikasi SaaS Multi-penyewa dengan Next.js (Integrasi Backend)Membina aplikasi SaaS Multi-penyewa dengan Next.js (Integrasi Backend)Apr 11, 2025 am 08:23 AM

Saya membina aplikasi SaaS multi-penyewa berfungsi (aplikasi edTech) dengan alat teknologi harian anda dan anda boleh melakukan perkara yang sama. Pertama, apakah aplikasi SaaS multi-penyewa? Aplikasi SaaS Multi-penyewa membolehkan anda melayani beberapa pelanggan dari Sing

Cara Membina Aplikasi SaaS Multi-Tenant dengan Next.js (Integrasi Frontend)Cara Membina Aplikasi SaaS Multi-Tenant dengan Next.js (Integrasi Frontend)Apr 11, 2025 am 08:22 AM

Artikel ini menunjukkan integrasi frontend dengan backend yang dijamin oleh permit, membina aplikasi edtech SaaS yang berfungsi menggunakan Next.Js. Frontend mengambil kebenaran pengguna untuk mengawal penglihatan UI dan memastikan permintaan API mematuhi dasar peranan

JavaScript: meneroka serba boleh bahasa webJavaScript: meneroka serba boleh bahasa webApr 11, 2025 am 12:01 AM

JavaScript adalah bahasa utama pembangunan web moden dan digunakan secara meluas untuk kepelbagaian dan fleksibiliti. 1) Pembangunan front-end: Membina laman web dinamik dan aplikasi satu halaman melalui operasi DOM dan kerangka moden (seperti React, Vue.js, sudut). 2) Pembangunan sisi pelayan: Node.js menggunakan model I/O yang tidak menyekat untuk mengendalikan aplikasi konkurensi tinggi dan masa nyata. 3) Pembangunan aplikasi mudah alih dan desktop: Pembangunan silang platform direalisasikan melalui reaktnatif dan elektron untuk meningkatkan kecekapan pembangunan.

Evolusi JavaScript: Trend Semasa dan Prospek Masa DepanEvolusi JavaScript: Trend Semasa dan Prospek Masa DepanApr 10, 2025 am 09:33 AM

Trend terkini dalam JavaScript termasuk kebangkitan TypeScript, populariti kerangka dan perpustakaan moden, dan penerapan webassembly. Prospek masa depan meliputi sistem jenis yang lebih berkuasa, pembangunan JavaScript, pengembangan kecerdasan buatan dan pembelajaran mesin, dan potensi pengkomputeran IoT dan kelebihan.

Demystifying JavaScript: Apa yang berlaku dan mengapa pentingDemystifying JavaScript: Apa yang berlaku dan mengapa pentingApr 09, 2025 am 12:07 AM

JavaScript adalah asas kepada pembangunan web moden, dan fungsi utamanya termasuk pengaturcaraan yang didorong oleh peristiwa, penjanaan kandungan dinamik dan pengaturcaraan tak segerak. 1) Pengaturcaraan yang didorong oleh peristiwa membolehkan laman web berubah secara dinamik mengikut operasi pengguna. 2) Penjanaan kandungan dinamik membolehkan kandungan halaman diselaraskan mengikut syarat. 3) Pengaturcaraan Asynchronous memastikan bahawa antara muka pengguna tidak disekat. JavaScript digunakan secara meluas dalam interaksi web, aplikasi satu halaman dan pembangunan sisi pelayan, sangat meningkatkan fleksibiliti pengalaman pengguna dan pembangunan silang platform.

Adakah Python atau JavaScript lebih baik?Adakah Python atau JavaScript lebih baik?Apr 06, 2025 am 12:14 AM

Python lebih sesuai untuk sains data dan pembelajaran mesin, manakala JavaScript lebih sesuai untuk pembangunan front-end dan penuh. 1. Python terkenal dengan sintaks ringkas dan ekosistem perpustakaan yang kaya, dan sesuai untuk analisis data dan pembangunan web. 2. JavaScript adalah teras pembangunan front-end. Node.js menyokong pengaturcaraan sisi pelayan dan sesuai untuk pembangunan stack penuh.

Bagaimana saya memasang javascript?Bagaimana saya memasang javascript?Apr 05, 2025 am 12:16 AM

JavaScript tidak memerlukan pemasangan kerana ia sudah dibina dalam pelayar moden. Anda hanya memerlukan editor teks dan penyemak imbas untuk memulakan. 1) Dalam persekitaran penyemak imbas, jalankan dengan memasukkan fail HTML melalui tag. 2) Dalam persekitaran Node.js, selepas memuat turun dan memasang node.js, jalankan fail JavaScript melalui baris arahan.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

SecLists

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan