>백엔드 개발 >파이썬 튜토리얼 >Python으로 웹툰을 다운로드하는 방법: urllib 및 BeautifulSoup?

Python으로 웹툰을 다운로드하는 방법: urllib 및 BeautifulSoup?

Patricia Arquette
Patricia Arquette원래의
2024-11-07 22:42:02295검색

How to Download Webcomics with Python: urllib and BeautifulSoup?

urllib로 Python 이미지 다운로드 문제 진단

당면 문제는 Python과 urllib 모듈을 사용하여 웹툰을 지정된 폴더에 다운로드하는 것과 관련이 있습니다. 초기 시도에서는 파일이 로컬에 저장되지 않고 캐시된 것처럼 보이는 문제가 발생했습니다. 또한, 새로운 만화의 존재 여부를 판단하는 방법도 해결해야 했습니다.

올바른 파일 검색

원본 코드는 urllib.URLopener()를 활용하여 이미지를 검색했습니다. . 그러나 이 작업에 더 적합한 함수는 urllib.urlretrieve()입니다. 이미지를 단순히 캐싱하는 것이 아니라 지정된 위치에 직접 저장하는 기능입니다.

만화 개수 확인

웹사이트에 있는 만화의 개수를 확인하고 해당 만화만 다운로드하는 기능입니다. 최신 버전에서는 스크립트가 웹사이트의 HTML 콘텐츠를 구문 분석할 수 있습니다. 다음은 BeautifulSoup 라이브러리를 사용하는 기술입니다.

import bs4

url = "http://www.gunnerkrigg.com//comics/"
html = requests.get(url).content
soup = bs4.BeautifulSoup(html, features='lxml')

comic_list = soup.find('select', {'id': 'comic-list'})
comic_count = len(comic_list.find_all('option'))

전체 스크립트

이미지 다운로드와 만화 개수 논리를 결합한 다음 스크립트는 웹툰 다운로드 프로세스를 간소화합니다.

import urllib.request
import bs4

def download_comics(url, path):
    """
    Downloads webcomics from the given URL to the specified path.
    """

    # Determine the comic count
    html = requests.get(url).content
    soup = bs4.BeautifulSoup(html, features='lxml')

    comic_list = soup.find('select', {'id': 'comic-list'})
    comic_count = len(comic_list.find_all('option'))

    # Download the comics
    for i in range(1, comic_count + 1):
        comic_url = url + str(i) + '.jpg'
        comic_name = str(i) + '.jpg'
        urllib.request.urlretrieve(comic_url, os.path.join(path, comic_name))

url = "http://www.gunnerkrigg.com//comics/"
path = "/file"

download_comics(url, path)

위 내용은 Python으로 웹툰을 다운로드하는 방법: urllib 및 BeautifulSoup?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.