ホームページ  >  記事  >  バックエンド開発  >  PHP と phpSpider を使用して音楽 Web サイトから曲データをキャプチャするにはどうすればよいですか?

PHP と phpSpider を使用して音楽 Web サイトから曲データをキャプチャするにはどうすればよいですか?

WBOY
WBOYオリジナル
2023-07-21 18:33:231390ブラウズ

PHP と phpSpider を使用して音楽 Web サイトから曲データをキャプチャするにはどうすればよいですか?

インターネット時代において、音楽ウェブサイトは人々が音楽リソースを入手する重要な手段となっています。ただし、私たち開発者にとっては、分析やその他のビジネス ニーズのために、特定の音楽 Web サイトから曲データを取得する必要がある場合があります。そのためには、PHP と、データを迅速にクロールして処理するための強力な PHP クローラー フレームワークである phpSpider の使用方法を学ぶ必要があります。この記事では、PHPとphpSpiderを使って音楽サイトから楽曲データを取り込む方法を例を用いて紹介します。

ステップ 1: phpSpider をインストールする
まず、開発環境に phpSpider をインストールする必要があります。 phpSpider ソース コードをローカルにダウンロードし、Web サーバーのルート ディレクトリまたは配置したい他のディレクトリに解凍します。次に、ターミナルで phpSpider が配置されているディレクトリに入り、コマンド composer install を実行して、依存関係をインストールします。

ステップ 2: 曲データ キャプチャ スクリプトを作成する
1) spider.php という名前の新しい PHP ファイルを作成します。
2) spider.php に phpSpider フレームワークをインポートし、新しい phpSpider オブジェクトを作成します。

<?php
require 'vendor/autoload.php';
use phpspidercorephpspider;
$spider = new phpspider();

3) ターゲット URL や格納ディレクトリなど、phpSpider の基本設定を設定します。

$spider->config['name'] = 'music_spider';
$spider->config['log_show'] = false;
$spider->config['host'] = 'https://music.example.com';
$spider->config['export'] = array(
    'type' => 'csv',
    'file' => './output/songs.csv',
);

4) 入口 URL を追加し、入口 URL のクローリング ルールを設定します。

$spider->add_scan_url('https://music.example.com/songs');
$spider->on_scan_page = function($page, $content, $phpspider)
{
    $urls = array();
    // 解析歌曲列表页获取每首歌的详情页URL
    if (preg_match_all('/<a href="(/songs/d+)">/', $content, $out))
    {
        foreach ($out[1] as $url)
        {
            $urls[] = "https://music.example.com" . $url;
        }
    }
    return $urls;
};

5) 曲の詳細ページのクロール ルールを設定し、曲データを処理して保存します。

$spider->on_extract_page = function($page, $data)
{
    $songs = array();
    // 解析歌曲详情页获取歌曲数据
    if (preg_match('/<h1>(.*?)</h1>/', $page['raw'], $out))
    {
        $song_name = $out[1];
        // 处理歌曲名
        $song_name = str_replace(' - ', ' ', $song_name);
        $songs['name'] = $song_name;
    }
    if (preg_match('/歌手:<a href=".*?">(.*?)</a>/', $page['raw'], $out))
    {
        $singer = $out[1];
        $songs['singer'] = $singer;
    }
    // 做其他数据处理和存储逻辑...

    return $songs;
};

6) クロール スクリプトを実行します。

$spider->start();

ステップ 3: 曲データ キャプチャ スクリプトを実行する
ターミナルでコマンド php Spider.php を使用して、曲データ キャプチャ スクリプトを実行します。

上記の手順により、PHP と phpSpider を使用して音楽 Web サイトから曲データをキャプチャすることに成功しました。もちろん、音楽 Web サイトによっては、HTML 構造やデータ クローリング ルールが異なる場合があります。特定のニーズに応じて、上記のコードに適切な変更と調整を行う必要があります。この記事の紹介と例が、PHP と phpSpider をより効果的に使用して音楽 Web サイトのデータをクロールするのに役立つことを願っています。

以上がPHP と phpSpider を使用して音楽 Web サイトから曲データをキャプチャするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。