Modul koleksi
Operasi modul biasa
Nama operasi | Deskripsi proses |
Penerangan fungsi lain | |
Penerangan: Fungsi pengumpulan artikel adalah untuk mendapatkan kandungan halaman web sasaran dari jauh melalui program, dan kemudian menyimpannya dalam pangkalan data pelayan selepas menghuraikan dan memproses peraturan tempatan.
Sistem pengumpulan artikel mengubah model dan proses pengumpulan tradisional Peraturan pengumpulan dipisahkan daripada antara muka koleksi Tetapan peraturan adalah lebih mudah. Editor tidak perlu memahami terlalu banyak peraturan teknikal terperinci Mereka hanya perlu memilih senarai artikel yang ingin dikumpulkan, dan kemudian mereka boleh menyelesaikan operasi pengumpulan data dengan mudah seperti menerbitkan artikel. 1 Proses pengumpulan .
Ringkasnya, terdapat tiga langkah:
1. Tambah tempat pengumpulan dan isikan peraturan pengumpulan.
2. Kumpul URL dan kandungan
3. Siarkan kandungan ke ruangan yang ditetapkan
Ambil koleksi Berita Sina (http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) sebagai contoh untuk memperkenalkan proses terperinci. Contoh penerangan:
Matlamat: Kumpulkan berita Sina ke dalam ruangan Berita Antarabangsa sistem V9.
URL Sasaran: http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
1. Tambah tempat pengumpulan
1.1 Konfigurasi peraturan URL
🎜🎜#
Semak kod sumber URL sasaran yang hendak dikumpul dan cari titik mula dan titik akhir URL yang hendak dikumpul ( dua mata ini mestilah unik dalam keseluruhan kod sumber). Kecilkan lagi skop carian URL koleksi.
untuk menambah titik pengumpulan - Rajah konfigurasi peraturan URL 2
1.2 Konfigurasi peraturan kandungan
Peraturan kandungan di sini kelihatan rumit, tetapi ia sebenarnya sangat mudah untuk memudahkan penjelasan, kami hanya mengumpulkan dua medan: tajuk dan kandungan. URL kandungan koleksi: http://news.sina.com.cn/w/2010-12-01/135121565455.shtml Peraturan pengumpulan kandungan, sila buka URL ini, dan kemudian klik kanan pada ruang kosong halaman -> Fail Lihat Sumber dicari untuk tajuk dan sempadan permulaan kandungan. Konfigurasi koleksi tajuk:
Dapatkan tajuk dari halaman web <title></title> dan alih keluar aksara yang tidak diperlukan. Seperti yang ditunjukkan di bawah
Konfigurasi koleksi kandungan:
Pada halaman akhir Berita Sina, kandungan berita disertakan antara <!-- kandungan teks bermula --> kandungan teks berakhir -->, dan kedua-dua nod ini berada dalam keseluruhan kod sumber halaman Mempunyai keunikan. Jadi anda boleh menggunakan ini sebagai peraturan untuk mendapatkan kandungan. dan kandungan penapis. Seperti yang ditunjukkan di bawah
1.3 Peraturan tersuai
1.4 Konfigurasi lanjutan
Anda boleh menetapkan sama ada untuk memuat turun gambar ke pelayan, sama ada untuk mencetak tera air dan konfigurasi lain. 2. Kumpul URL dan kandungan
Selepas peraturan koleksi dikonfigurasikan, URL boleh dikumpulkan, dan kemudian kandungan boleh dikumpulkan. 3. Siarkan kandungan ke ruangan yang ditetapkan
Pilih lajur yang diimport
Tetapkan hubungan yang sepadan antara kandungan yang dikumpul dan medan pangkalan data Serahkan data untuk penyimpanan Sila tunggu dengan sabar dalam tempoh ini. Pada ketika ini, proses pengumpulan mudah selesai.
Terdapat banyak ciri lain yang menunggu untuk anda temui.
|