Rumah > Artikel > pembangunan bahagian belakang > Tutorial menggunakan PHP untuk merangkak ulasan filem Douban
Dengan pengembangan dan pembangunan berterusan pasaran filem, permintaan orang ramai terhadap filem juga semakin tinggi. Bagi penilaian filem, Pengkritik Filem Douban sentiasa menjadi pilihan yang lebih berwibawa dan popular. Kadangkala, kami juga perlu melakukan analisis dan pemprosesan tertentu pada ulasan filem Douban, yang memerlukan penggunaan teknologi perangkak untuk mendapatkan maklumat tentang ulasan filem Douban. Artikel ini akan memperkenalkan tutorial tentang cara menggunakan PHP untuk merangkak ulasan filem Douban untuk rujukan anda.
Sebelum merangkak ulasan filem Douban, anda perlu mendapatkan alamat halaman filem Douban. Alamat halaman filem boleh diperoleh melalui enjin carian atau mengakses terus antara muka senarai filem Douban Movies. Contohnya, jika kita ingin mendapatkan alamat halaman filem "The Shawshank Redemption", kita boleh mencari pada antara muka senarai filem Douban Movies, atau kita boleh terus memasukkan alamat halaman filem itu dalam penyemak imbas: https:/ /movie.douban.com/subject/ 1292052/.
PHP menyediakan perpustakaan cURL untuk akses halaman web dan pemerolehan data. Berikut ialah contoh kod PHP untuk mengakses halaman Douban Movies dan mendapatkan kandungan halaman:
$url = 'https://movie.douban.com/subject/1292052/'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $html = curl_exec($ch); curl_close($ch); echo $html;
Dalam kod tersebut, alamat halaman Douban Movies pertama kali ditakrifkan, dan kemudian fungsi curl_init() digunakan untuk mulakan objek cURL. Kemudian gunakan fungsi curl_setopt() untuk menetapkan parameter objek curl, dengan CURLOPT_URL menetapkan alamat URL yang diakses dan CURLOPT_RETURNTRANSFER menetapkan hasil pulangan sebagai rentetan. Kemudian gunakan fungsi curl_exec() untuk melaksanakan operasi merangkak cURL dan tetapkan hasilnya kepada pembolehubah $html. Akhir sekali, gunakan fungsi curl_close() untuk menutup sesi cURL dan melepaskan sumber berkaitan, dan kemudian mengeluarkan nilai pembolehubah $html.
Laksanakan kod di atas untuk mengeluarkan kandungan HTML halaman filem Douban.
Selepas mendapatkan kandungan HTML halaman, anda perlu menggunakan PHP untuk menghuraikan kandungan HTML dan mengekstrak Maklumat semakan filem Douban.
Dalam PHP, anda boleh menggunakan sambungan SimpleXML untuk menghuraikan data XML atau HTML. Berikut ialah contoh kod PHP, yang digunakan untuk menghuraikan kandungan HTML halaman ulasan filem Douban dan mengekstrak kandungan rating dan ulasan ulasan filem:
$url = 'https://movie.douban.com/subject/1292052/'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $html = curl_exec($ch); curl_close($ch); // 使用 SimpleXML 解析 HTML 内容 $xml = simplexml_load_string($html); $ratings = array(); $comments = array(); // 获取影评评分和评论内容 foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) { $rating = $comment->div[2]->span[2]->text(); $comment_content = $comment->div[2]->p->text(); $ratings[] = (string)$rating; $comments[] = (string)$comment_content; } print_r($ratings); print_r($comments);
Dalam kod, alamat halaman Douban filem pertama ditakrifkan, dan kemudian curl digunakan akses dan operasi halaman untuk mendapatkan kandungan HTML.
Seterusnya, gunakan fungsi simplexml_load_string() untuk menghuraikan kandungan HTML ke dalam objek SimpleXML. Kemudian gunakan fungsi xpath() dan pernyataan pertanyaan XPath untuk mendapatkan semua maklumat ulasan filem pada halaman, gunakan pernyataan foreach untuk merentasi setiap ulasan filem dan dapatkan kandungan penilaian dan ulasan. Akhir sekali, simpan penilaian dan ulasan masing-masing ke dalam tatasusunan $ratings dan $comments, dan keluarkan kandungan kedua-dua tatasusunan ini.
Laksanakan kod di atas untuk menghuraikan semua maklumat ulasan filem di halaman ulasan filem Douban.
Seterusnya, keluarkan maklumat semakan filem yang diperolehi Anda boleh menggunakan HTML dan CSS untuk mencantikkan kandungan output. Berikut ialah contoh kod PHP untuk mencantikkan dan mengeluarkan maklumat ulasan filem pada halaman ulasan filem Douban:
$url = 'https://movie.douban.com/subject/1292052/'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $html = curl_exec($ch); curl_close($ch); // 使用 SimpleXML 解析 HTML 内容 $xml = simplexml_load_string($html); $ratings = array(); $comments = array(); // 获取影评评分和评论内容 foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) { $rating = $comment->div[2]->span[2]->text(); $comment_content = $comment->div[2]->p->text(); $ratings[] = (string)$rating; $comments[] = (string)$comment_content; } // 输出美化的影评信息 echo '<style>table, th, td {border: 1px solid black; border-collapse: collapse;} th, td {padding: 5px;}</style>'; echo '<table><tr><th>评分</th><th>评论内容</th></tr>'; for ($i = 0; $i < count($ratings); $i++) { echo '<tr><td>' . $ratings[$i] . '</td><td>' . $comments[$i] . '</td></tr>'; } echo '</table>';
Dalam kod, mula-mula gunakan curl untuk mendapatkan kandungan HTML halaman filem Douban, dan kemudian gunakan SimpleXML untuk menghuraikan kandungan HTML dan mendapatkan Penilaian dan menyemak kandungan untuk ulasan filem.
Seterusnya, gunakan HTML dan CSS untuk mencantikkan kandungan output, termasuk menambah gaya jadual, menetapkan pengepala jadual dan kandungan jadual, dan menggunakan gelung for untuk merentasi setiap ulasan filem dan mengeluarkan penilaian dan ulasan.
Laksanakan kod di atas untuk mengeluarkan maklumat ulasan filem bagi halaman ulasan filem Douban yang dipercantikkan.
Ringkasnya, artikel ini memperkenalkan tutorial tentang cara menggunakan PHP untuk merangkak ulasan filem Douban. Melalui pembelajaran, pembaca boleh belajar cara menggunakan PHP dan teknologi cURL untuk mengakses halaman web dan menangkap data, serta cara menggunakan sambungan SimpleXML untuk menghuraikan kandungan HTML dan mencantikkan output.
Atas ialah kandungan terperinci Tutorial menggunakan PHP untuk merangkak ulasan filem Douban. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!