Python에서 크롤러의 실제 사용: Kuwo 음악 크롤러-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Python에서 크롤러의 실제 사용: Kuwo 음악 크롤러

王林

Jun 09, 2023 pm 11:43 PM

python음악비열한

인터넷 시대에 정보는 매우 중요해졌고, 데이터는 가치의 초석 중 하나가 되었으며, 웹 크롤러는 데이터를 획득하고 처리하는 중요한 도구 중 하나입니다. Python 언어는 단순성, 학습 용이성 및 효율성으로 인해 많은 크롤러 프로그래머가 선택하는 프로그래밍 언어가 되었습니다. 본 글에서는 Python 언어를 사용하여 Kuwo Music 웹사이트의 데이터를 실제 사례를 통해 크롤링하고, 데이터 분석 및 처리를 수행해 보겠습니다.

Kuwo Music은 중국에서 가장 잘 알려진 음악 플레이어 중 하나이며, 수많은 음악 리소스와 사용자 그룹을 보유하고 있습니다. Kuwo Music 웹사이트를 예로 들어 데이터 크롤링의 구체적인 구현 과정을 소개하겠습니다.

1. 데이터 분석

크롤링에 앞서 먼저 대상 사이트의 웹페이지 구조와 데이터 저장 방식을 분석해야 합니다. Kuwo Music 웹페이지를 열면 웹페이지 주소와 음악 ID 사이에 분명한 상관관계가 있음을 확인할 수 있습니다. 웹페이지 주소 뒤에 "/song/"과 음악 ID를 추가하면 해당 음악의 상세 페이지에 액세스할 수 있습니다.

음악의 세부 페이지를 열고 노래 이름, 아티스트, 앨범, 노래 재생 시간, 재생 볼륨, 댓글 수 등 귀중한 데이터가 많이 있다는 것을 확인하세요. 이 정보는 웹페이지 태그 형태로 HTML 파일에 저장됩니다. 페이지 소스 코드를 보면 대부분의 관련 정보가 "__songinfo__" 및 "__detailed_infoclearfix__" 클래스가 있는 태그에 숨겨져 있음을 알 수 있습니다.

2. 크롤러 구현

크롤러의 핵심은 데이터 크롤링과 저장을 별도로 구현하는 것입니다.

데이터 크롤링

음악 ID가 포함된 목록을 받아 해당 음악에 해당하는 페이지에 액세스하여 유용한 정보를 크롤링하는 함수를 정의해야 합니다. 구체적인 구현은 다음과 같습니다.

import requests
from bs4 import BeautifulSoup

def get_music_info(musicids):
    musicinfo = []
    for musicid in musicids:
        url = 'http://www.kuwo.cn/play_detail/' + str(musicid)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        response.encoding = response.apparent_encoding
        soup = BeautifulSoup(response.text, 'html.parser')

        music_title = soup.find('h1', class_='info_tit').text.strip() # 歌曲名称
        artist = soup.find('p', class_='name').text.strip() # 歌手
        album = soup.find('a', class_='sname').text.strip() # 专辑
        duration = soup.find('span', class_='hilight').text.strip() # 歌曲时长
        play_counts = soup.find('em', class_='num').text.strip() # 播放量
        comments_counts = soup.find('em', class_='sub').text.strip() # 评论数

        musicinfo.append([musicid, music_title, artist, album, duration, play_counts, comments_counts])
        print('正在爬取音乐《{}》信息'.format(music_title))
    return musicinfo

위 코드는 요청 라이브러리와 BeautifulSoup 라이브러리를 사용하여 웹 페이지를 요청하고 HTML 파일을 구문 분석하여 유용한 태그 정보를 얻습니다. 그 중 헤더는 서버에서 차단되는 것을 방지하기 위해 Chrome 브라우저 액세스를 시뮬레이션하는 위장된 헤더입니다.

2. 데이터 저장

크롤링된 데이터를 CSV 형식으로 저장합니다. 사용하기 전에 CSV 라이브러리를 가져와야 합니다.

import csv

그런 다음 데이터를 저장하고 크롤링된 음악을 저장하는 기능을 정의해야 합니다. 정보를 저장하고 올바른 CSV 형식으로 로컬 파일에 저장합니다. 구체적인 구현은 다음과 같습니다.

def save_csv(save_path, data_list):
    with open(save_path, 'w', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(['歌曲ID', '歌曲名称', '歌手', '专辑', '歌曲时长', '播放量', '评论数'])
        writer.writerows(data_list)
    print("数据已保存至{}".format(save_path))

위 코드는 CSV 라이브러리의writer() 메서드를 사용하여 파일에 음악 정보를 씁니다. 참고로 CSV 파일의 파일 구분 기호는 쉼표이며, 파일에 쓸 때 줄 사이의 빈 줄을 수정하려면 newline='' 을 사용해야 합니다.

3. 데이터 분석

데이터 크롤링 및 저장이 완료되면 데이터 분석 및 처리를 시작할 수 있습니다. Python 언어에서는 pandas 및 matplotlib와 같은 라이브러리를 사용하여 데이터 분석 및 시각화를 쉽게 구현할 수 있습니다.

1. 라이브러리 가져오기

데이터 분석은 주로 pandas 및 matplotlib 라이브러리를 사용하므로 관련 라이브러리를 가져오려면 다음 코드를 사용해야 합니다.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2. 파일 읽기

pandas 라이브러리, 저장된 CSV 파일을 DataFrame으로 읽어옵니다. 구체적인 구현은 다음과 같습니다.

music_data = pd.read_csv('music_data.csv')

3. 데이터 필터링 및 정렬

pandas에서 sort_values() 메서드를 사용하여 데이터를 내림차순으로 정렬할 수 있습니다. 플레이 횟수 play_counts를 사용하고 head() 메서드를 사용하면 처음 20개 데이터만 유지됩니다.

top_20_play_counts = music_data.sort_values('播放量', ascending=False).head(20)

4. 데이터 시각화

matplotlib 라이브러리를 사용하여 데이터 시각화를 달성하면 데이터 간의 관계와 추세를 더 명확하게 이해할 수 있습니다. 다음 코드를 사용하여 상위 20개 Kuwo 음악 재생의 음악 곡선 차트를 그릴 수 있습니다.

plt.figure(figsize=(20, 8)) # 设置图像大小
sns.lineplot(x='歌曲名称', y='播放量', data=top_20_play_counts) # 绘制曲线图
plt.xticks(rotation=90, fontsize=14) # 调整x轴刻度大小和旋转角度
plt.yticks(fontsize=14) # 调整y轴刻度大小
plt.xlabel('歌曲名称', fontsize=16) # 坐标轴标题
plt.ylabel('播放量', fontsize=16)
plt.title('酷我音乐播放量排名前20的歌曲', fontsize=20) # 图像标题
plt.show() # 显示图像

위의 코드를 통해 쿠워뮤직 상위 20곡의 재생 추세를 보다 직관적으로 이해할 수 있습니다.

4. 요약

이 기사에서는 실제 크롤러 전투에서 Python 언어의 사용을 자세히 설명하기 위해 실제 사례를 사용합니다. 웹 페이지 구조 및 데이터 저장 방법을 분석하고, 데이터 크롤링을 위해 요청 및 BeautifulSoup 라이브러리를 사용하고, 마지막으로 데이터 분석 및 시각화를 위해 pandas 및 matplotlib 라이브러리를 사용합니다. 실제로 크롤러 분야에서 Python 언어를 적용하는 방법을 더 잘 이해하고 싶습니다.

위 내용은 Python에서 크롤러의 실제 사용: Kuwo 음악 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 : 게임, Guis 등Apr 13, 2025 am 12:14 AM

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

Python 3.6에 피클 파일을로드 할 때 '__builtin__'모듈을 찾을 수없는 경우 어떻게해야합니까?Apr 02, 2025 am 07:12 AM

Python 3.6에 피클 파일로드 3.6 환경 보고서 오류 : modulenotfounderror : nomodulename ...

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.