Rumah >hujung hadapan web >tutorial js >Mengikis web- Menarik!

Mengikis web- Menarik!

PHPz
PHPzasal
2024-09-06 13:00:201146semak imbas

Istilah yang menarik:
CRON = teknik pengaturcaraan yang menjadualkan tugas secara automatik pada selang waktu tertentu

Web apa?

Apabila meneliti projek dan lain-lain, kami biasanya menulis maklumat dari pelbagai tapak- sama ada dalam diari / excel / dokumen dll.
Kami mengikis web dan mengekstrak data secara manual.

Pengikisan web mengautomasikan ini.

Web scraping- Interesting!

Contoh

Apabila googling sebut kasut dalam talian, ia menunjukkan senarai tapak web dengan produk dan harga. Pada tab beli-belah terdapat rekod yang lebih terperinci bukan?
Google baru sahaja mengikis tapak web untuk anda menunjukkan kasut dari tapak yang berbeza.
Teknik ini digunakan oleh hampir semua syarikat besar untuk perniagaan mereka memandangkan data telah meningkat secara eksponen.

Perayap Web

Ini ialah teknik yang walaupun mengambil maklumat tetapi berbeza daripada mengikis dalam erti kata ia mencari tapak web terbaik dan mengindeksnya manakala mengikis dilakukan dalam satu tapak web.

Ia digunakan untuk analisis SEO (mengikis - mengumpul data).

Teknologi pengikisan web yang terkenal:

  • Dalang
  • Sup Cantik
  • BrightData

Isu!

Perhatikan bahawa bukan pengguna yang membuat permintaan untuk mendapatkan maklumat daripada tapak, ia adalah kod yang ditulis! Jika tapak web mengetahui tugas ini adalah automatik, mereka akan menyekat alamat IP dengan cepat.
Dan semakan ini telah menimbulkan

  1. Captcha
  2. Menghadkan kadar
  3. Kandungan dinamik

Matlamat: meniru cara manusia bekerja!

Data terang mengautomasikan kerja. Ia juga memutarkan IP untuk menjadikan pengguna tidak dikenali dan menyahsekat tapak (versi berbayar!) untuk pengguna.

Jerit kepada JSM untuk penjelasan yang menarik.
Ps:
Web scraping- Interesting!
Lol!

Atas ialah kandungan terperinci Mengikis web- Menarik!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn