Scrapy を使用して Kugou Music の曲をクロールする方法は?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Scrapy を使用して Kugou Music の曲をクロールする方法は?

PHPz

Jun 22, 2023 pm 10:59 PM

這うscrapyクゴウミュージック

インターネットの発展に伴い、インターネット上の情報量は増加しており、さまざまな分析やマイニングを行うために、さまざまな Web サイト上の情報をクローリングする必要があります。 Scrapy は、Web サイトのデータを自動的にクロールし、構造化された形式で出力できる、完全に機能する Python クローラーフレームワークです。 Kugou Music は最も人気のあるオンライン音楽プラットフォームの 1 つであり、以下では Scrapy を使用して Kugou Music の曲情報をクロールする方法を紹介します。

1. Scrapy のインストール

Scrapy は Python 言語をベースにしたフレームワークであるため、最初に Python 環境を設定する必要があります。 Scrapy をインストールする前に、まず Python と pip ツールをインストールする必要があります。インストールが完了したら、次のコマンドを使用して Scrapy をインストールできます:

pip install scrapy

2. 新しい Scrapy プロジェクトを作成します

Scrapy は、次のコマンドラインツールのセットを提供します。新しいプロジェクトの作成を容易にします。コマンドラインに次のコードを入力します:

scrapy startproject kuwo_music

実行後、「kuwo_music」という名前の Scrapy プロジェクトが現在のディレクトリに作成されます。このプロジェクトでは、Kugou Music の曲情報をクロールするための新しいクローラーを作成する必要があります。

3. 新しいクローラーの作成

Scrapy プロジェクトでは、クローラーは特定の Web サイト上のデータをクロールおよび解析するために使用されるプログラムです。「kuwo_music」プロジェクトディレクトリで、次のコマンドを実行します。

scrapy genspider kuwo www.kuwo.cn

上記のコマンドにより、「kuwo_music/spiders」ディレクトリに「kuwo.py」という名前のファイルが作成されます。これは、クローラープログラムコードです。このファイルで Web サイトデータのクローリングと解析のプロセスを定義する必要があります。

4. Web サイトのリクエストとページの解析

新しく作成した「kuwo.py」ファイルで、まず必要なモジュールをインポートする必要があります:

import scrapy
from kuwo_music.items import KuwoMusicItem
from scrapy_redis.spiders import RedisSpider
from scrapy_redis import get_redis_from_settings
from scrapy.utils.project import get_project_settings

上記のコードを通じて、Scrapy フレームワークによって提供されるさまざまなツールクラスとメソッド、およびプロジェクト内のカスタムモジュールを使用できます。クローラーコードの作成を続ける前に、まず Kugou Music の曲情報が置かれている Web ページを分析する必要があります。

ブラウザを開いて www.kuwo.cn にアクセスし、検索バーに曲名を入力して検索すると、Web ページが検索結果ページにジャンプすることがわかります。検索結果ページでは、曲名、アーティスト、再生時間など、各曲の関連情報が表示されます。 Scrapy を通じてリクエストを送信し、検索結果ページを解析して各曲の詳細情報を取得する必要があります。

クローラコードでは、次の 2 つのメソッドを実装する必要があります:

def start_requests(self):
    ...
    
def parse(self, response):
    ...

そのうち、start_requests() メソッドは最初の Web ページリクエストの送信に使用され、解析メソッドは parse です。 () はコールバック関数として指定され、parse() メソッドは Web ページの解析、データの抽出、応答の処理に使用されます。具体的なコードは次のとおりです。

class KuwoSpider(RedisSpider):
    name = 'kuwo'
    allowed_domains = ['kuwo.cn']
    redis_cli = get_redis_from_settings(get_project_settings())

    def start_requests(self):
        keywords = ['爱情', '妳太善良', '说散就散']
        # 搜索结果页面的url
        for keyword in keywords:
            url = f'http://www.kuwo.cn/search/list?key={keyword}&rformat=json&ft=music&encoding=utf8&rn=8&pn=1'
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        data = json.loads(response.text)
        # 获取搜索结果页面的每个歌曲信息
        song_list = data['data']['list']
        for song in song_list:
            music_id = song['musicrid'][6:]
            song_name = song['name']
            singer_name = song['artist']
            album_name = song['album']

            # 根据歌曲id获取歌曲详细信息
            url = f'http://www.kuwo.cn/url?format=mp3&rid=MUSIC_{music_id}&response=url&type=convert_url3&br=128kmp3&from=web&t=1639056420390&httpsStatus=1&reqId=6be77da1-4325-11ec-b08e-11263642326e'
            meta = {'song_name': song_name, 'singer_name': singer_name, 'album_name': album_name}
            yield scrapy.Request(url=url, callback=self.parse_song, meta=meta)

    def parse_song(self, response):
        item = KuwoMusicItem()
        item['song_name'] = response.meta.get('song_name')
        item['singer_name'] = response.meta.get('singer_name')
        item['album_name'] = response.meta.get('album_name')
        item['song_url'] = response.text.strip()
        yield item

上記のコードでは、まず start_requests() メソッドで検索する曲のキーワードを定義し、各曲の検索結果ページの URL を構築してリクエストを送信します。 parse() メソッドでは、検索結果ページを解析し、曲名、アーティスト、アルバムなど、各曲に関する関連情報を抽出します。次に、各曲の ID に基づいて、対応する曲情報を取得するための URL を構築し、Scrapy のメタデータ (メタ) メカニズムを使用して、曲名、歌手、アルバムなどの情報を転送します。最後に、曲情報ページを解析し、parse_song() メソッドで曲の再生アドレスを抽出し、カスタム KuwoMusicItem オブジェクトに出力します。

5. データストレージと使用

上記のコードでは、クロールされた曲情報を保存するカスタム KuwoMusicItem オブジェクトを定義します。ツールクラス RedisPipeline を使用して、クロールされたデータを Redis データベースに保存できます:

ITEM_PIPELINES = {
    'kuwo_music.pipelines.RedisPipeline': 300,
}

同時に、ツールクラス JsonLinesItemExporter を使用してデータをローカル CSV ファイルに保存することもできます:

from scrapy.exporters import JsonLinesItemExporter
import csv

class CsvPipeline(object):
    # 将数据存储到csv文件
    def __init__(self):
        self.file = open('kuwo_music.csv', 'w', encoding='utf-8', newline='')
        self.exporter = csv.writer(self.file)
        self.exporter.writerow(['song_name', 'singer_name', 'album_name', 'song_url'])

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        self.exporter.writerow([item['song_name'], item['singer_name'], item['album_name'], item['song_url']])
        return item

最後に、コマンドラインで次のコマンドを実行して Scrapy クローラーを開始します:

scrapy crawl kuwo

上記は、Scrapy フレームワークを使用して Kugou Music の曲情報をクロールする方法の詳細な紹介です。参考にしていただければ幸いです。

以上がScrapy を使用して Kugou Music の曲をクロールする方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python vs. C：曲線と使いやすさの学習Apr 19, 2025 am 12:20 AM

Pythonは学習と使用が簡単ですが、Cはより強力ですが複雑です。 1。Python構文は簡潔で初心者に適しています。動的なタイピングと自動メモリ管理により、使いやすくなりますが、ランタイムエラーを引き起こす可能性があります。 2.Cは、高性能アプリケーションに適した低レベルの制御と高度な機能を提供しますが、学習しきい値が高く、手動メモリとタイプの安全管理が必要です。

Python vs. C：メモリ管理とコントロールApr 19, 2025 am 12:17 AM

PythonとCは、メモリ管理と制御に大きな違いがあります。 1。Pythonは、参照カウントとガベージコレクションに基づいて自動メモリ管理を使用し、プログラマーの作業を簡素化します。 2.Cには、メモリの手動管理が必要であり、より多くの制御を提供しますが、複雑さとエラーのリスクが増加します。どの言語を選択するかは、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

科学コンピューティングのためのPython：詳細な外観Apr 19, 2025 am 12:15 AM

科学コンピューティングにおけるPythonのアプリケーションには、データ分析、機械学習、数値シミュレーション、視覚化が含まれます。 1.numpyは、効率的な多次元配列と数学的関数を提供します。 2。ScipyはNumpy機能を拡張し、最適化と線形代数ツールを提供します。 3. Pandasは、データ処理と分析に使用されます。 4.matplotlibは、さまざまなグラフと視覚的な結果を生成するために使用されます。

PythonとC：適切なツールを見つけるApr 19, 2025 am 12:04 AM

PythonまたはCを選択するかどうかは、プロジェクトの要件に依存するかどうかは次のとおりです。1）Pythonは、簡潔な構文とリッチライブラリのため、迅速な発展、データサイエンス、スクリプトに適しています。 2）Cは、コンピレーションと手動メモリ管理のため、システムプログラミングやゲーム開発など、高性能および基礎となる制御を必要とするシナリオに適しています。

データサイエンスと機械学習のためのPythonApr 19, 2025 am 12:02 AM

Pythonは、データサイエンスと機械学習で広く使用されており、主にそのシンプルさと強力なライブラリエコシステムに依存しています。 1）Pandasはデータ処理と分析に使用され、2）Numpyが効率的な数値計算を提供し、3）SCIKIT-LEARNは機械学習モデルの構築と最適化に使用されます。これらのライブラリは、Pythonをデータサイエンスと機械学習に理想的なツールにします。

Pythonの学習：2時間の毎日の研究で十分ですか？Apr 18, 2025 am 12:22 AM

Pythonを1日2時間学ぶだけで十分ですか？それはあなたの目標と学習方法に依存します。 1）明確な学習計画を策定し、2）適切な学習リソースと方法を選択します。3）実践的な実践とレビューとレビューと統合を練習および統合し、統合すると、この期間中にPythonの基本的な知識と高度な機能を徐々に習得できます。

Web開発用のPython：主要なアプリケーションApr 18, 2025 am 12:20 AM

Web開発におけるPythonの主要なアプリケーションには、DjangoおよびFlaskフレームワークの使用、API開発、データ分析と視覚化、機械学習とAI、およびパフォーマンスの最適化が含まれます。 1。DjangoandFlask Framework：Djangoは、複雑な用途の迅速な発展に適しており、Flaskは小規模または高度にカスタマイズされたプロジェクトに適しています。 2。API開発：フラスコまたはdjangorestFrameworkを使用して、Restfulapiを構築します。 3。データ分析と視覚化：Pythonを使用してデータを処理し、Webインターフェイスを介して表示します。 4。機械学習とAI：Pythonは、インテリジェントWebアプリケーションを構築するために使用されます。 5。パフォーマンスの最適化：非同期プログラミング、キャッシュ、コードを通じて最適化

Python vs. C：パフォーマンスと効率の探索Apr 18, 2025 am 12:20 AM

Pythonは開発効率でCよりも優れていますが、Cは実行パフォーマンスが高くなっています。 1。Pythonの簡潔な構文とリッチライブラリは、開発効率を向上させます。 2.Cのコンピレーションタイプの特性とハードウェア制御により、実行パフォーマンスが向上します。選択を行うときは、プロジェクトのニーズに基づいて開発速度と実行効率を比較検討する必要があります。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。