이 기사의 내용은 매우 간단한 Python 크롤러를 사용하여 NetEase Cloud Music을 다운로드하는 것에 관한 것입니다. 이는 특정 참고 가치가 있으므로 도움이 될 수 있습니다.
우연히 집주인의 고양이의 '구름과 연기가 비로 변한다'를 듣게 되었는데, 나른한 목소리와 학생다운 가사에 순간 매료되어 계속 반복해서 듣게 되었습니다. 그러다가 일부러 '나는 장샤오바이입니다'라는 애니메이션을 봤는데 시즌2도 너무 기대되네요...
잠깐 보고 떠나더라도 꼭 다시 만나고 싶어요...알았어, 말도 안되는 소리는 하지 말자. 이번 목표는 NetEase Cloud에 있는 가수의 ID를 기반으로 가수의 인기곡 가사와 오디오를 다운로드하여 로컬 폴더에 저장하는 것입니다.
Python
Selenium(구성 방법은 Selenium 구성을 참조하세요.)
Chrome 브라우저(다른 브라우저도 사용 가능하며 그에 따라 수정해야 함)
NetEase Cloud 웹사이트를 방문한 크롤링 친구는 NetEase Cloud에 크롤링 방지 메커니즘이 있다는 것을 알아야 합니다. POST 중에 일부 정보 매개변수에 대한 암호화 기능을 시뮬레이션해야 합니다. 그러나 여기서는 단순함을 위해 초보자도 이해할 수 있습니다. Selenium을 직접 사용하여 로그인을 시뮬레이션한 다음 인터페이스를 사용하여 음악과 가사를 직접 다운로드합니다.
실험 단계:
가수 ID를 기반으로 가수의 인기곡 목록, 노래 이름 및 링크를 가져와서 csv 파일에 저장합니다.
csv 파일을 읽고 노래 ID 기반으로 추출합니다. 노래 링크에서 해당 인터페이스를 사용하여 음악과 가사를 다운로드하세요.
음악과 가사를 로컬에 저장하세요.
이 부분에서는 몇 가지 주요 기능을 소개합니다...
Selenium을 사용하면 웹 페이지에 대한 요청을 볼 필요가 없습니다. 웹페이지 소스코드에서 해당 정보를 추출하여 직접 접근합니다. 가수 페이지의 소스 코드를 보면 필요한 정보가 iframe 프레임 내에 있다는 것을 알 수 있으므로 먼저 iframe으로 전환해야 합니다.
browser.switch_to.frame('contentFrame')
계속해서 아래를 살펴보고 노래 이름과 링크가 필요한 내용은 id="hotsong-list"
태그에 있고 각 줄은 tr
태그에 해당합니다. 따라서 먼저 모든 tr
콘텐츠를 가져온 다음 단일 tr
를 반복합니다. id="hotsong-list"
的标签中,然后每一行对应的是一个tr
标签。所以先获取所有的tr
内容,然后遍历单个tr
。
data = browser.find_element_by_id("hotsong-list").find_elements_by_tag_name("tr")
注意:前一个是find_element
,后一个是find_elements
,后者返回一个列表。
接下来就是解析单个tr
标签的内容,获取歌曲名字和链接,可以发现两者在class="txt"
标签中,而且链接是href
属性,名字是title
属性,可以直接通过get_attribute()
函数获取。
for i in range(len(data)): content = data[i].find_element_by_class_name("txt") href = content.find_element_by_tag_name("a").get_attribute("href") title = content.find_element_by_tag_name("b").get_attribute("title") song_info.append((title, href))
网易云有个获取歌词的接口,链接为:http://music.163.com/api/song...
链接中的数字就是歌曲的id,所以我们拥有歌曲id后,可以直接从该链接下载歌词,歌词文件是json
格式,所以我们需要用到json
def get_lyric(self): url = 'http://music.163.com/api/song/lyric?' + 'id=' + str(self.song_id) + '&lv=1&kv=1&tv=-1' r = requests.get(url) json_obj = r.text j = json.loads(json_obj) lyric = j['lrc']['lyric'] # 利用正则表达式去除时间轴 regex = re.compile(r'\[.*\]') final_lyric = re.sub(regex, '', lyric) return final_lyric참고: 전자는
find_element
이고 후자는 find_elements
이며 후자는 목록을 반환합니다. 다음 단계는 단일 tr
태그의 내용을 구문 분석하고 노래 이름과 링크를 얻는 것입니다. 둘 다 class="txt"
에 있음을 확인할 수 있습니다. 태그이고 링크는 href
속성이고 이름은 title
속성이며 get_attribute()
함수를 통해 직접 얻을 수 있습니다.
NetEase Cloud에는 가사를 가져오는 인터페이스가 있습니다. 링크는 다음과 같습니다: http://music.163.com/api/song...
링크에 있는 숫자는 노래 ID입니다. 노래 ID가 있으면 이 링크에서 가사를 직접 다운로드할 수 있습니다. 가사 파일은 json
형식이므로 json
패키지를 사용해야 합니다.
그리고 직접 얻은 가사에는 각 줄에 타임라인이 있으므로 정규식을 사용하여 제거해야 합니다. 전체 코드는 다음과 같습니다.
오디오 다운로드NetEase Cloud는 다음을 위한 인터페이스도 제공합니다. 오디오 파일 링크는 http://music.163.com/song/med...
🎜링크에 있는 숫자는 해당 곡의 ID를 기준으로 바로 오디오 파일을 다운로드 받으실 수 있습니다. 노래. 전체 코드는 다음과 같습니다. 🎜rrreee🎜관련 권장 사항: 🎜🎜🎜Python을 사용하여 NetEase Cloud Music에서 인기 댓글을 크롤링하는 방법🎜🎜🎜🎜🎜Python이 qq music을 크롤링하는 프로세스의 예🎜🎜위 내용은 NetEase Cloud Music 다운로드를 위한 매우 간단한 Python 크롤러의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!