cari
RumahJavajavaTutorialMengikis tapak web JavaScript dengan cekap

Effizientes Scrapen von JavaScript-Webseiten

Kemungkinan menggunakan JavaScript untuk merangkak web

Tapak web statik: Axios dan Cheerio
Mari jalani merangkak tapak web eCommerce statik menggunakan JavaScript. Untuk contoh ini, kami akan menggunakan dua perpustakaan popular: Axios untuk permintaan HTTP dan Cheerio untuk menghuraikan HTML.

*1. Pasang kebergantungan *
Pasang Axios dan Cheerio dengan npm:

npm pasang axios cheerio

*2. Cipta skrip *
Buat fail JavaScript, mis. B. scrapeEcommerce.js dan bukanya dalam editor kod anda.

*3. Import modul *
Import Axios dan Cheerio ke dalam skrip anda:

const axios = memerlukan('axios');

const cheerio = memerlukan('cheerio');

*4. Tentukan URL sasaran *
Pilih tapak web eCommerce yang ingin anda akses. Dalam contoh ini kami menggunakan URL hipotesis http://example-ecommerce.com. Gantikan ini dengan URL yang dikehendaki:

url const = 'http://example-ecommerce.com';

*5. Dapatkan kandungan HTML *
Gunakan Axios untuk menghantar permintaan GET ke URL sasaran dan dapatkan kandungan HTML:

axios.get(url)

.then(respon => {

const html = respons.data;

// Kandungan HTML kini boleh dihuraikan

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*6. Menghuraikan HTML dan mengekstrak data *
Gunakan Cheerio untuk menghuraikan kod HTML dan mengekstrak maklumat yang anda inginkan, seperti nama produk dan harga:

axios.get(url)

.then(respon => {

const html = respons.data;

const $ = cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);  

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*Mata yang paling penting *

  • axios.get(url): Menghantar permintaan GET dan mengembalikan janji.
  • .then(response => { … }): Jika permintaan berjaya, kandungan HTML adalah sebagai response.data.
  • cheerio.load(html): Memuatkan kandungan HTML ke dalam Cheerio untuk manipulasi DOM seperti jQuery.
  • $('.product').each((index, element) => { … }): Berulang ke atas semua elemen .product.
  • $(elemen).find('.product-name').text().trim(): Mengeluarkan nama produk.
  • $(elemen).find('.product-price').text().trim(): Mengeluarkan harga produk.
  • products.push({ name, price }): Menambah maklumat produk pada tatasusunan produk.
  • console.log(products): Mengeluarkan maklumat yang diekstrak.

*Skrip contoh penuh: *
const axios = memerlukan('axios');

const cheerio = memerlukan('cheerio');

url const = 'http://example-ecommerce.com';

axios.get(url)

.then(respon => {

const html = respons.data;

const $ = cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);  

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*Penyesuaian untuk halaman pendaratan anda: *

  • Pemilih: Pemilih .product, .product-name dan .product-price mesti disesuaikan dengan struktur HTML sebenar halaman sasaran.
  • Data tambahan: Untuk mendapatkan maklumat tambahan (cth. imej produk, pautan, penerangan) semak struktur HTML yang sepadan.

Alat mengikis web untuk mengikis tapak web menggunakan JavaScript

Jika baru-baru ini anda memerlukan Python, Ruby atau bahasa pengaturcaraan lain untuk mengikis web, Octoparse ialah alat yang sangat baik, terutamanya untuk tapak web dengan sokongan JavaScript.

Mari kita ambil contoh konkrit: Jika anda mempunyai tapak web sasaran dan ingin mula mengikis, anda harus terlebih dahulu menyemak sama ada tapak tersebut disekat terhadap pengikisan JS. Tapak web yang berbeza menggunakan kaedah perlindungan yang berbeza, dan mungkin mengambil sedikit masa dan percubaan yang mengecewakan sebelum anda menyedari bahawa ada sesuatu yang tidak kena, terutamanya jika mengikis tidak menghasilkan hasil yang diingini. Walau bagaimanapun, dengan alat pengikis web, proses pengekstrakan data berjalan lancar.

Banyak alat pengikis web menyelamatkan anda daripada perangkak menulis. Octoparse sangat cekap dalam mengikis halaman JavaScript-berat dan boleh mengekstrak data daripada 99% halaman web, termasuk yang menggunakan Ajax. Ia juga menawarkan perkhidmatan penyelesaian Captcha. Octoparse adalah percuma untuk digunakan dan menawarkan ciri auto-penemuan dan lebih 100 templat yang mudah digunakan yang membolehkan pengekstrakan data yang cekap. Pengguna baharu juga boleh memanfaatkan percubaan selama 14 hari.

Atas ialah kandungan terperinci Mengikis tapak web JavaScript dengan cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Bagaimanakah mekanisme kelas muatan Java berfungsi, termasuk kelas yang berbeza dan model delegasi mereka?Bagaimanakah mekanisme kelas muatan Java berfungsi, termasuk kelas yang berbeza dan model delegasi mereka?Mar 17, 2025 pm 05:35 PM

Kelas kelas Java melibatkan pemuatan, menghubungkan, dan memulakan kelas menggunakan sistem hierarki dengan bootstrap, lanjutan, dan pemuat kelas aplikasi. Model delegasi induk memastikan kelas teras dimuatkan dahulu, yang mempengaruhi LOA kelas tersuai

Bagaimanakah saya melaksanakan caching pelbagai peringkat dalam aplikasi java menggunakan perpustakaan seperti kafein atau cache jambu?Bagaimanakah saya melaksanakan caching pelbagai peringkat dalam aplikasi java menggunakan perpustakaan seperti kafein atau cache jambu?Mar 17, 2025 pm 05:44 PM

Artikel ini membincangkan pelaksanaan caching pelbagai peringkat di Java menggunakan kafein dan cache jambu untuk meningkatkan prestasi aplikasi. Ia meliputi persediaan, integrasi, dan faedah prestasi, bersama -sama dengan Pengurusan Dasar Konfigurasi dan Pengusiran PRA Terbaik

Bagaimanakah saya dapat melaksanakan teknik pengaturcaraan berfungsi di Java?Bagaimanakah saya dapat melaksanakan teknik pengaturcaraan berfungsi di Java?Mar 11, 2025 pm 05:51 PM

Artikel ini meneroka mengintegrasikan pengaturcaraan berfungsi ke dalam Java menggunakan ekspresi Lambda, API Streams, rujukan kaedah, dan pilihan. Ia menyoroti faedah seperti kebolehbacaan dan kebolehkerjaan kod yang lebih baik melalui kesimpulan dan kebolehubahan

Bagaimanakah saya boleh menggunakan JPA (Java Constence API) untuk pemetaan objek-objek dengan ciri-ciri canggih seperti caching dan malas malas?Bagaimanakah saya boleh menggunakan JPA (Java Constence API) untuk pemetaan objek-objek dengan ciri-ciri canggih seperti caching dan malas malas?Mar 17, 2025 pm 05:43 PM

Artikel ini membincangkan menggunakan JPA untuk pemetaan objek-relasi dengan ciri-ciri canggih seperti caching dan pemuatan malas. Ia meliputi persediaan, pemetaan entiti, dan amalan terbaik untuk mengoptimumkan prestasi sambil menonjolkan potensi perangkap. [159 aksara]

Bagaimanakah saya menggunakan Maven atau Gradle untuk Pengurusan Projek Java Lanjutan, Membina Automasi, dan Resolusi Ketergantungan?Bagaimanakah saya menggunakan Maven atau Gradle untuk Pengurusan Projek Java Lanjutan, Membina Automasi, dan Resolusi Ketergantungan?Mar 17, 2025 pm 05:46 PM

Artikel ini membincangkan menggunakan Maven dan Gradle untuk Pengurusan Projek Java, membina automasi, dan resolusi pergantungan, membandingkan pendekatan dan strategi pengoptimuman mereka.

Bagaimana saya menggunakan API Java's Nio (Input/Output Baru) untuk I/O yang tidak menyekat?Bagaimana saya menggunakan API Java's Nio (Input/Output Baru) untuk I/O yang tidak menyekat?Mar 11, 2025 pm 05:51 PM

Artikel ini menerangkan NIO API Java untuk I/O yang tidak menyekat, menggunakan pemilih dan saluran untuk mengendalikan pelbagai sambungan dengan cekap dengan satu benang. Ia memperincikan proses, faedah (skalabilitas, prestasi), dan potensi perangkap (kerumitan,

Bagaimanakah saya membuat dan menggunakan perpustakaan Java Custom (fail JAR) dengan pengurusan versi dan pergantungan yang betul?Bagaimanakah saya membuat dan menggunakan perpustakaan Java Custom (fail JAR) dengan pengurusan versi dan pergantungan yang betul?Mar 17, 2025 pm 05:45 PM

Artikel ini membincangkan membuat dan menggunakan perpustakaan Java tersuai (fail balang) dengan pengurusan versi dan pergantungan yang betul, menggunakan alat seperti Maven dan Gradle.

Bagaimana saya menggunakan API Soket Java untuk komunikasi rangkaian?Bagaimana saya menggunakan API Soket Java untuk komunikasi rangkaian?Mar 11, 2025 pm 05:53 PM

Artikel ini memperincikan API soket Java untuk komunikasi rangkaian, yang meliputi persediaan pelanggan-pelayan, pengendalian data, dan pertimbangan penting seperti pengurusan sumber, pengendalian ralat, dan keselamatan. Ia juga meneroka teknik pengoptimuman prestasi, i

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

MinGW - GNU Minimalis untuk Windows

MinGW - GNU Minimalis untuk Windows

Projek ini dalam proses untuk dipindahkan ke osdn.net/projects/mingw, anda boleh terus mengikuti kami di sana. MinGW: Port Windows asli bagi GNU Compiler Collection (GCC), perpustakaan import yang boleh diedarkan secara bebas dan fail pengepala untuk membina aplikasi Windows asli termasuk sambungan kepada masa jalan MSVC untuk menyokong fungsi C99. Semua perisian MinGW boleh dijalankan pada platform Windows 64-bit.