検索
ホームページバックエンド開発PHPチュートリアルPHP を使用して Douban の映画レビューをクロールするためのチュートリアル

フィルム市場の継続的な拡大と発展に伴い、フィルムに対する人々の需要もますます高まっています。映画の評価に関しては、Douban Film Critics が常により権威があり、人気のある選択肢です。場合によっては、Douban 映画レビューに対して特定の分析と処理を実行する必要があるため、クローラー テクノロジーを使用して Douban 映画レビューに関する情報を取得する必要があります。この記事では、PHP を使用して Douban の映画レビューをクロールする方法のチュートリアルを紹介します。参考にしてください。

  1. Douban 映画のページ アドレスを取得する

Douban 映画のレビューをクロールする前に、Douban 映画のページ アドレスを取得する必要があります。映画のページ アドレスは、検索エンジンを通じて、または Douban Movies の映画リスト インターフェイスに直接アクセスして取得できます。たとえば、映画「ショーシャンクの空に」のページ アドレスを取得したい場合は、Douban Movies の映画リスト インターフェイスで検索するか、ブラウザに映画のページ アドレスを直接入力します: https:/ /movie.douban.com/subject/1292052/。

  1. PHP を使用して Douban ムービー ページにアクセスし、ページのコンテンツを取得します。

PHP は、Web ページへのアクセスとデータ取得のための cURL ライブラリを提供します。以下は、Douban Movies ページにアクセスしてページのコンテンツを取得するための PHP コード例です。

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);
echo $html;

コードでは、最初に Douban Movies のページ アドレスが定義され、次に、curl_init() 関数が使用されます。 cURL オブジェクトを初期化します。次に、curl_setopt() 関数を使用して、curl オブジェクトのパラメータを設定します。ここで、CURLOPT_URL はアクセスされた URL アドレスを設定し、CURLOPT_RETURNTRANSFER は返された結果を文字列として設定します。次に、curl_exec() 関数を使用して cURL クロール操作を実行し、結果を変数 $html に割り当てます。最後に、curl_close() 関数を使用して cURL セッションを閉じ、関連リソースを解放し、変数 $html の値を出力します。

上記のコードを実行して、Douban ムービー ページの HTML コンテンツを出力します。

  1. Douban 映画レビュー ページの HTML コンテンツを解析する

ページの HTML コンテンツを取得した後、PHP を使用して HTML コンテンツを解析し、豆瓣の映画レビュー・感想・評価一覧。

PHP では、SimpleXML 拡張機能を使用して XML または HTML データを解析できます。以下は、Douban 映画レビュー ページの HTML コンテンツを解析し、映画レビューの評価とレビュー コンテンツを抽出するために使用される PHP コードの例です。

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);

// 使用 SimpleXML 解析 HTML 内容
$xml = simplexml_load_string($html);
$ratings = array();
$comments = array();

// 获取影评评分和评论内容
foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) {
    $rating = $comment->div[2]->span[2]->text();
    $comment_content = $comment->div[2]->p->text();
    $ratings[] = (string)$rating;
    $comments[] = (string)$comment_content;
}

print_r($ratings);
print_r($comments);

コードでは、 Douban ムービーを定義してから、curl を使用してページにアクセスし、HTML コンテンツを取得する操作を行います。

次に、simplexml_load_string() 関数を使用して、HTML コンテンツを SimpleXML オブジェクトに解析します。次に、xpath() 関数と XPath クエリ ステートメントを使用してページ上のすべての映画レビュー情報を取得し、foreach ステートメントを使用して各映画レビューを走査し、評価とコメントの内容を取得します。最後に、評価とコメントをそれぞれ $rateds 配列と $comments 配列に保存し、これら 2 つの配列の内容を出力します。

上記のコードを実行して、Douban 映画レビュー ページ内のすべての映画レビュー情報を解析します。

  1. 映画レビュー情報の出力

次に、取得した映画レビュー情報を出力します HTMLやCSSを使用して出力内容を美化することができます。以下は、Douban 映画レビュー ページの映画レビュー情報を美しく出力するための PHP コード例です。

$url = 'https://movie.douban.com/subject/1292052/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$html = curl_exec($ch);
curl_close($ch);

// 使用 SimpleXML 解析 HTML 内容
$xml = simplexml_load_string($html);
$ratings = array();
$comments = array();

// 获取影评评分和评论内容
foreach ($xml->xpath('//div[@class="comment-item"]') as $comment) {
    $rating = $comment->div[2]->span[2]->text();
    $comment_content = $comment->div[2]->p->text();
    $ratings[] = (string)$rating;
    $comments[] = (string)$comment_content;
}

// 输出美化的影评信息
echo '<style>table, th, td {border: 1px solid black; border-collapse: collapse;} th, td {padding: 5px;}</style>';
echo '<table><tr><th>评分</th><th>评论内容</th></tr>';
for ($i = 0; $i < count($ratings); $i++) {
    echo '<tr><td>' . $ratings[$i] . '</td><td>' . $comments[$i] . '</td></tr>';
}
echo '</table>';

コードでは、最初にcurl を使用して Douban 映画ページの HTML コンテンツを取得し、次に次を使用します。 SimpleXML を使用して HTML コンテンツを解析し、映画レビューの評価とレビュー コンテンツを取得します。

次に、HTML と CSS を使用して出力コンテンツを美しくします。これには、テーブル スタイルの追加、テーブル ヘッダーとテーブル コンテンツの設定、for ループを使用した各映画レビューの走査、評価とコメントの出力などが含まれます。

上記のコードを実行して、美化された Douban 映画レビュー ページの映画レビュー情報を出力します。

要約すると、この記事では、PHP を使用して Douban の映画レビューをクロールする方法についてのチュートリアルを紹介します。学習を通じて、読者は、PHP および cURL テクノロジを使用して Web ページにアクセスし、データをキャプチャする方法と、SimpleXML 拡張機能を使用して HTML コンテンツを解析し、出力を美しくする方法を学ぶことができます。

以上がPHP を使用して Douban の映画レビューをクロールするためのチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPセッションを失敗させる可能性のあるいくつかの一般的な問題は何ですか?PHPセッションを失敗させる可能性のあるいくつかの一般的な問題は何ですか?Apr 25, 2025 am 12:16 AM

PHPSESSIONの障害の理由には、構成エラー、Cookieの問題、セッションの有効期限が含まれます。 1。構成エラー:正しいセッションをチェックして設定します。save_path。 2.Cookieの問題:Cookieが正しく設定されていることを確認してください。 3.セッションの有効期限:セッションを調整してください。GC_MAXLIFETIME値はセッション時間を延長します。

PHPでセッション関連の問題をどのようにデバッグしますか?PHPでセッション関連の問題をどのようにデバッグしますか?Apr 25, 2025 am 12:12 AM

PHPでセッションの問題をデバッグする方法は次のとおりです。1。セッションが正しく開始されるかどうかを確認します。 2.セッションIDの配信を確認します。 3.セッションデータのストレージと読み取りを確認します。 4.サーバーの構成を確認します。セッションIDとデータを出力し、セッションファイルのコンテンツを表示するなど、セッション関連の問題を効果的に診断して解決できます。

session_start()が複数回呼び出されるとどうなりますか?session_start()が複数回呼び出されるとどうなりますか?Apr 25, 2025 am 12:06 AM

session_start()への複数の呼び出しにより、警告メッセージと可能なデータ上書きが行われます。 1)PHPは警告を発し、セッションが開始されたことを促します。 2)セッションデータの予期しない上書きを引き起こす可能性があります。 3)session_status()を使用してセッションステータスを確認して、繰り返しの呼び出しを避けます。

PHPでセッションのライフタイムをどのように構成しますか?PHPでセッションのライフタイムをどのように構成しますか?Apr 25, 2025 am 12:05 AM

PHPでのセッションライフサイクルの構成は、session.gc_maxlifetimeとsession.cookie_lifetimeを設定することで達成できます。 1)session.gc_maxlifetimeサーバー側のセッションデータのサバイバル時間を制御します。 0に設定すると、ブラウザが閉じているとCookieが期限切れになります。

セッションを保存するためにデータベースを使用することの利点は何ですか?セッションを保存するためにデータベースを使用することの利点は何ですか?Apr 24, 2025 am 12:16 AM

データベースストレージセッションを使用することの主な利点には、持続性、スケーラビリティ、セキュリティが含まれます。 1。永続性:サーバーが再起動しても、セッションデータは変更されないままになります。 2。スケーラビリティ:分散システムに適用され、セッションデータが複数のサーバー間で同期されるようにします。 3。セキュリティ:データベースは、機密情報を保護するための暗号化されたストレージを提供します。

PHPでカスタムセッション処理をどのように実装しますか?PHPでカスタムセッション処理をどのように実装しますか?Apr 24, 2025 am 12:16 AM

PHPでのカスタムセッション処理の実装は、SessionHandlerInterfaceインターフェイスを実装することで実行できます。具体的な手順には、次のものが含まれます。1)CussentsessionHandlerなどのSessionHandlerInterfaceを実装するクラスの作成。 2)セッションデータのライフサイクルとストレージ方法を定義するためのインターフェイス(オープン、クローズ、読み取り、書き込み、破壊、GCなど)の書き換え方法。 3)PHPスクリプトでカスタムセッションプロセッサを登録し、セッションを開始します。これにより、データをMySQLやRedisなどのメディアに保存して、パフォーマンス、セキュリティ、スケーラビリティを改善できます。

セッションIDとは何ですか?セッションIDとは何ですか?Apr 24, 2025 am 12:13 AM

SessionIDは、ユーザーセッションのステータスを追跡するためにWebアプリケーションで使用されるメカニズムです。 1.ユーザーとサーバー間の複数のインタラクション中にユーザーのID情報を維持するために使用されるランダムに生成された文字列です。 2。サーバーは、ユーザーの複数のリクエストでこれらの要求を識別および関連付けるのに役立つCookieまたはURLパラメーターを介してクライアントに生成および送信します。 3.生成は通常、ランダムアルゴリズムを使用して、一意性と予測不可能性を確保します。 4.実際の開発では、Redisなどのメモリ内データベースを使用してセッションデータを保存してパフォーマンスとセキュリティを改善できます。

ステートレス環境(APIなど)でセッションをどのように処理しますか?ステートレス環境(APIなど)でセッションをどのように処理しますか?Apr 24, 2025 am 12:12 AM

APIなどのステートレス環境でのセッションの管理は、JWTまたはCookieを使用して達成できます。 1。JWTは、無国籍とスケーラビリティに適していますが、ビッグデータに関してはサイズが大きいです。 2.cookiesはより伝統的で実装が簡単ですが、セキュリティを確保するために慎重に構成する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)