cari
Rumahpembangunan bahagian belakangtutorial phpPengenalan kepada rangka kerja perangkak berdasarkan PHP dan penjelasan terperinci tentang contoh aplikasi

Dengan pertumbuhan pesat maklumat Internet, sejumlah besar data disimpan di tapak web, yang sangat bernilai kepada ramai pengguna. Oleh itu, teknologi perangkak secara beransur-ansur menjadi cara yang berkuasa untuk menggunakan data Internet.

Artikel ini memperkenalkan rangka kerja perangkak berdasarkan bahasa PHP: Guzzle dan Goutte. Guzzle ialah klien HTTP yang dibangunkan untuk PHP yang boleh digunakan untuk menghantar permintaan HTTP dan berinteraksi dengan sumber REST. Goutte ialah pelengkapnya Ia adalah rangka kerja perangkak web berdasarkan Guzzle yang boleh mendapatkan kandungan web dengan mudah dan melakukan pengekstrakan dan analisis data.

Pertama, kita perlu memasang Guzzle dan Goutte dalam PHP. Ia boleh dipasang melalui Komposer Arahan khusus adalah seperti berikut:

composer require guzzlehttp/guzzle
composer require fabpot/goutte

Selepas pemasangan selesai, mari kita pelajari dahulu cara menggunakan Guzzle. Kami boleh menghantar permintaan HTTP GET dan mendapatkan kandungan respons melalui kod berikut:

<?php
use GuzzleHttpClient;

$client = new Client();
$response = $client->get('https://www.example.com');
echo $response->getBody();

Kod ini mula-mula mencipta objek GuzzleClient, dan kemudian menggunakan kaedah get() untuk menghantar permintaan GET ke URL yang ditentukan, dan Kandungan respons diperolehi. Panggil kaedah getBody() untuk mendapatkan kandungan badan tindak balas.

Goutte ialah rangka kerja perangkak web yang dibangunkan berdasarkan Guzzle, dan penggunaannya juga sangat mudah. Berikut ialah contoh mudah menggunakan Goutte:

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.example.com');
$crawler->filter('h1')->each(function ($node) {
    echo $node->text() . "
";
});

Kod ini menggunakan Goutte untuk mencipta objek Klien, menghantar permintaan GET ke URL yang ditentukan, kemudian mendapatkan badan respons dan menghuraikannya ke dalam objek DOM . $crawler->filter('h1') ialah penapis yang menentukan semua nod teg h1 pada halaman, dan kemudian ia memanggil kaedah each() Untuk setiap nod teg h1, fungsi tanpa nama yang ditentukan akan dilaksanakan $node ialah objek nod semasa, dan kaedah text()nya boleh mendapatkan kandungan teks nod.

Mari lihat contoh yang lebih lengkap di bawah, yang menunjukkan cara menggunakan Goutte untuk merangkak soalan dan jawapan pada Zhihu, dan menyimpan nama pengguna, kandungan jawapan, bilangan suka dan masa menjawab ke Dalam fail CSV:

<?php
use GoutteClient;

$client = new Client();
$crawler = $client->request('GET', 'https://www.zhihu.com/question/21774949');
$fp = fopen('output.csv', 'w');
fputcsv($fp, ['User', 'Content', 'Votes', 'Time']);
$crawler->filter('.List-item')->each(function ($node) use ($fp) {
    $user = $node->filter('.AuthorInfo .Popover')->text();
    $content = $node->filter('.RichText')->text();
    $votes = $node->filter('.Voters')->text();
    $time = $node->filter('.ContentItem-time')->text();
    fputcsv($fp, [$user, $content, $votes, $time]);
});
fclose($fp);

Kod ini mula-mula merangkak halaman dengan ID soalan 21774949 pada Zhihu, kemudian menggunakan pemegang fail untuk menulis baris pengepala CSV pada fail output.csv. Seterusnya, gunakan kaedah penapis() untuk mencari semua nod soalan dan jawapan pada halaman, dan kemudian laksanakan fungsi tanpa nama pada setiap nod. Dalam fungsi tanpa nama, gunakan kaedah penapis() untuk mencari nama setiap pengguna, kandungan jawapan, bilangan suka dan masa menjawab, dan gunakan kaedah fputcsv() untuk menulis empat medan ini pada fail. Akhir sekali tutup pemegang fail.

Ringkasnya, sangat mudah untuk menggunakan Guzzle dan Goutte untuk membina rangka kerja perangkak, dan ia mempunyai fleksibiliti dan kebolehskalaan yang kuat, serta boleh digunakan pada pelbagai senario berbeza, termasuk tetapi tidak terhad kepada perlombongan data , Pengoptimuman SEO dan bidang lain. Walau bagaimanapun, sila ambil perhatian bahawa mana-mana perangkak perlu mematuhi fail robots.txt tapak web untuk mengelakkan daripada meletakkan beban yang tidak wajar pada tapak web sasaran dan melanggar privasi pengguna.

Atas ialah kandungan terperinci Pengenalan kepada rangka kerja perangkak berdasarkan PHP dan penjelasan terperinci tentang contoh aplikasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Penggunaan PHP yang berterusan: Sebab -sebab ketahanannyaPenggunaan PHP yang berterusan: Sebab -sebab ketahanannyaApr 19, 2025 am 12:23 AM

Apa yang masih popular adalah kemudahan penggunaan, fleksibiliti dan ekosistem yang kuat. 1) Kemudahan penggunaan dan sintaks mudah menjadikannya pilihan pertama untuk pemula. 2) Bersepadu dengan pembangunan web, interaksi yang sangat baik dengan permintaan HTTP dan pangkalan data. 3) Ekosistem yang besar menyediakan banyak alat dan perpustakaan. 4) Komuniti aktif dan Sumber Sumber Terbuka menyesuaikan mereka dengan keperluan baru dan trend teknologi.

PHP dan Python: Meneroka Persamaan dan Perbezaan merekaPHP dan Python: Meneroka Persamaan dan Perbezaan merekaApr 19, 2025 am 12:21 AM

PHP dan Python adalah kedua-dua bahasa pengaturcaraan peringkat tinggi yang digunakan secara meluas dalam pembangunan web, pemprosesan data dan tugas automasi. 1.Php sering digunakan untuk membina laman web dinamik dan sistem pengurusan kandungan, sementara Python sering digunakan untuk membina kerangka web dan sains data. 2.Php Menggunakan Echo ke Kandungan Output, Python Menggunakan Cetakan. 3. Kedua-dua sokongan pengaturcaraan berorientasikan objek, tetapi sintaks dan kata kunci adalah berbeza. 4. PHP menyokong penukaran jenis lemah, manakala Python lebih ketat. 5. Pengoptimuman Prestasi PHP termasuk menggunakan OPCACHE dan pengaturcaraan asynchronous, manakala Python menggunakan pengaturcaraan CProfile dan tak segerak.

PHP dan Python: Paradigma yang berbeza dijelaskanPHP dan Python: Paradigma yang berbeza dijelaskanApr 18, 2025 am 12:26 AM

PHP terutamanya pengaturcaraan prosedur, tetapi juga menyokong pengaturcaraan berorientasikan objek (OOP); Python menyokong pelbagai paradigma, termasuk pengaturcaraan OOP, fungsional dan prosedur. PHP sesuai untuk pembangunan web, dan Python sesuai untuk pelbagai aplikasi seperti analisis data dan pembelajaran mesin.

PHP dan Python: menyelam mendalam ke dalam sejarah merekaPHP dan Python: menyelam mendalam ke dalam sejarah merekaApr 18, 2025 am 12:25 AM

PHP berasal pada tahun 1994 dan dibangunkan oleh Rasmuslerdorf. Ia pada asalnya digunakan untuk mengesan pelawat laman web dan secara beransur-ansur berkembang menjadi bahasa skrip sisi pelayan dan digunakan secara meluas dalam pembangunan web. Python telah dibangunkan oleh Guidovan Rossum pada akhir 1980 -an dan pertama kali dikeluarkan pada tahun 1991. Ia menekankan kebolehbacaan dan kesederhanaan kod, dan sesuai untuk pengkomputeran saintifik, analisis data dan bidang lain.

Memilih antara php dan python: panduanMemilih antara php dan python: panduanApr 18, 2025 am 12:24 AM

PHP sesuai untuk pembangunan web dan prototaip pesat, dan Python sesuai untuk sains data dan pembelajaran mesin. 1.Php digunakan untuk pembangunan web dinamik, dengan sintaks mudah dan sesuai untuk pembangunan pesat. 2. Python mempunyai sintaks ringkas, sesuai untuk pelbagai bidang, dan mempunyai ekosistem perpustakaan yang kuat.

PHP dan Rangka Kerja: Memodenkan bahasaPHP dan Rangka Kerja: Memodenkan bahasaApr 18, 2025 am 12:14 AM

PHP tetap penting dalam proses pemodenan kerana ia menyokong sejumlah besar laman web dan aplikasi dan menyesuaikan diri dengan keperluan pembangunan melalui rangka kerja. 1.Php7 meningkatkan prestasi dan memperkenalkan ciri -ciri baru. 2. Rangka kerja moden seperti Laravel, Symfony dan CodeIgniter memudahkan pembangunan dan meningkatkan kualiti kod. 3. Pengoptimuman prestasi dan amalan terbaik terus meningkatkan kecekapan aplikasi.

Impak PHP: Pembangunan Web dan seterusnyaImpak PHP: Pembangunan Web dan seterusnyaApr 18, 2025 am 12:10 AM

Phphassignificantelympactedwebdevelopmentandextendsbeyondit.1) itpowersmajorplatformslikeworderpressandexcelsindatabaseIntions.2) php'SadaptabilityAldoStoScaleforlargeapplicationFrameworksLikelara.3)

Bagaimanakah jenis membayangkan jenis PHP, termasuk jenis skalar, jenis pulangan, jenis kesatuan, dan jenis yang boleh dibatalkan?Bagaimanakah jenis membayangkan jenis PHP, termasuk jenis skalar, jenis pulangan, jenis kesatuan, dan jenis yang boleh dibatalkan?Apr 17, 2025 am 12:25 AM

Jenis PHP meminta untuk meningkatkan kualiti kod dan kebolehbacaan. 1) Petua Jenis Skalar: Oleh kerana Php7.0, jenis data asas dibenarkan untuk ditentukan dalam parameter fungsi, seperti INT, Float, dan lain -lain. 2) Return Type Prompt: Pastikan konsistensi jenis nilai pulangan fungsi. 3) Jenis Kesatuan Prompt: Oleh kerana Php8.0, pelbagai jenis dibenarkan untuk ditentukan dalam parameter fungsi atau nilai pulangan. 4) Prompt jenis yang boleh dibatalkan: membolehkan untuk memasukkan nilai null dan mengendalikan fungsi yang boleh mengembalikan nilai null.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.