Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 am 11:02 AM

비열한scrapyflickr

오늘날의 정보기술 시대에는 대용량 데이터를 크롤링하는 것이 중요한 기술이 되었습니다. 빅데이터 기술의 급속한 발전으로 데이터 크롤링 기술은 지속적으로 업데이트되고 개선되고 있습니다. 그 중에서 Scrapy 프레임워크는 의심할 여지 없이 가장 일반적으로 사용되고 널리 사용되는 프레임워크입니다. 이 프레임워크는 데이터 크롤링 및 처리에 고유한 장점과 유연성을 가지고 있습니다.

이 글에서는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 소개합니다. Flickr는 인벤토리에 수억 장의 사진과 매우 많은 양의 데이터 리소스가 있는 사진 공유 웹사이트입니다. Scrapy 프레임워크를 사용하면 이러한 데이터 리소스를 쉽게 확보하고 연구 및 분석을 수행하거나 이를 사용하여 애플리케이션 모델을 구축하여 빅 데이터의 힘을 더 잘 활용할 수 있습니다.

1. Scrapy 프레임워크 소개

Scrapy는 Python 언어를 기반으로 하는 오픈 소스 웹 크롤러 프레임워크입니다. "효율성"과 "유지 관리 가능성"을 설계 컨셉으로 삼고 대규모 데이터를 크롤링하고 처리하는 데 더 적합한 포괄적인 크롤러 프레임워크를 구현합니다. Scrapy 프레임워크의 핵심 부분에는 다음과 같은 주요 기능 모듈이 포함됩니다.

엔진: 전체 시스템의 데이터 흐름을 처리하고 다양한 구성 요소 간의 상호 작용 및 데이터 전송을 제어하는 역할을 담당합니다.
스케줄러: 엔진에서 보낸 요청을 정렬하여 다운로더에 전달하는 역할을 담당합니다.
Downloader(다운로더): 웹 콘텐츠를 다운로드하고 웹 페이지에서 반환된 콘텐츠를 처리한 다음 엔진에 전달하는 역할을 담당합니다.
Parser(스파이더): 다운로더가 다운로드한 웹페이지를 구문 분석하고, 원하는 데이터를 추출하여 구조화된 데이터로 구성하는 역할을 담당합니다.
파이프라인: 데이터베이스나 파일에 저장하는 등 처리된 데이터의 후속 처리를 담당합니다.

2. Flickr API 키 얻기

데이터를 크롤링하기 전에 Flickr 데이터베이스에 액세스할 수 있는 권한을 얻기 위해 Flickr API 키를 신청해야 합니다. Flickr 개발자 웹사이트(https://www.flickr.com/services/api/misc.api_keys.html)에 등록하면 API KEY를 얻을 수 있습니다. 구체적인 신청 단계는 다음과 같습니다.

① 먼저 https://www.flickr.com/services/apps/create/apply/에 접속하여 API KEY를 신청해야 합니다.

②이 웹사이트에 들어간 후 로그인이 필요합니다. 계정이 없으면 직접 등록해야 합니다.

3로그인 후 Flickr 신청서를 작성하여 제출해야 합니다. 양식에는 주로 두 가지 정보 측면을 작성해야 합니다.

소규모 애플리케이션의 이름
"비상업적" 목적에 대한 설명

4신청 양식을 작성한 후 시스템에서 다음을 생성합니다. API KEY 및 SECRET . 나중에 사용할 수 있도록 이 두 가지 정보를 저장해야 합니다.

3. Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링 구현

다음으로 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 데이터를 크롤링하는 방법을 소개합니다.

1. Scrapy 크롤러 작성

먼저 새로운 Scrapy 프로젝트를 생성하고 프로젝트에 크롤러 파일을 생성해야 합니다. 크롤러 파일에서는 Flickr API 데이터베이스의 기본 정보와 데이터 저장 위치를 설정해야 합니다.

import time
import json
import scrapy
from flickr.items import FlickrItem

class FlickrSpider(scrapy.Spider):
    name = 'flickr'
    api_key = 'YOUR_API_KEY'  # 这里填写你自己的API Key
    tags = 'cat,dog'  # 这里将cat和dog作为爬取的关键词，你可以自由定义
    format = 'json'
    nojsoncallback = '1'
    page = '1'
    per_page = '50'

    start_urls = [
        'https://api.flickr.com/services/rest/?method=flickr.photos.search&'
        'api_key={}'
        '&tags={}'
        '&page={}'
        '&per_page={}'
        '&format={}'
        '&nojsoncallback={}'.format(api_key, tags, page, per_page, format, nojsoncallback)
    ]

    def parse(self, response):
        results = json.loads(response.body_as_unicode())
        for photo in results['photos']['photo']:
            item = FlickrItem()
            item['image_title'] = photo['title']
            item['image_url'] = 'https://farm{}.staticflickr.com/{}/{}_{}.jpg'.format(
                photo['farm'], photo['server'], photo['id'], photo['secret'])
            yield item

        if int(self.page) <= results['photos']['pages']:
            self.page = str(int(self.page) + 1)
            next_page_url = 'https://api.flickr.com/services/rest/?method=flickr.photos.search&' 
                            'api_key={}' 
                            '&tags={}' 
                            '&page={}' 
                            '&per_page={}' 
                            '&format={}' 
                            '&nojsoncallback={}'.format(self.api_key, self.tags, self.page, self.per_page, self.format, self.nojsoncallback)
            time.sleep(1)  # 设置延时1秒钟
            yield scrapy.Request(url=next_page_url, callback=self.parse)

크롤러 파일에서는 Flickr 이미지 라이브러리의 키워드 "cat"과 "dog"를 설정하고, 그런 다음 페이지 넘김 매개변수 지정을 설정하고 형식을 json으로 설정합니다. 파싱 함수에서 각 이미지의 정보를 추출 및 처리한 후, Yield를 사용하여 반환했습니다.

다음으로 데이터의 저장 위치와 형식을 정의하고 settings.py에서 설정해야 합니다.

ITEM_PIPELINES = {
   'flickr.pipelines.FlickrPipeline': 300,
}

IMAGES_STORE = 'images'

2. 항목 파이프라인 작성

다음으로, 항목 파이프라인을 작성하여 데이터를 수집해야 합니다. 수집된 데이터는 처리 및 저장됩니다.

import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem

class FlickrPipeline(object):
    def process_item(self, item, spider):
        return item

class FlickrImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        for image_url in item['image_url']:
            try:
                yield scrapy.Request(image_url)
            except Exception as e:
                pass

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

3. 프로그램 실행

위의 코드 작성을 완료한 후 Scrapy 프레임워크를 실행하여 데이터 크롤링 작업을 구현할 수 있습니다. 명령줄에 다음 명령을 입력해야 합니다.

scrapy crawl flickr

프로그램 실행이 시작된 후 크롤러는 Flickr 데이터베이스에서 "고양이"와 "개" 사진을 크롤링하고 지정된 저장 위치에 사진을 저장합니다.

4. 요약

이 글의 소개를 통해 우리는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 자세히 배웠습니다. 실제 응용 프로그램에서는 필요에 따라 키워드, 페이지 수 또는 이미지 저장 경로를 수정할 수 있습니다. 어떤 측면에서든 Scrapy 프레임워크는 성숙하고 기능이 풍부한 크롤러 프레임워크입니다. 지속적으로 업데이트되는 기능과 유연한 확장성은 데이터 크롤링 작업을 강력하게 지원합니다.

위 내용은 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Numpy 배열은 배열 모듈을 사용하여 생성 된 배열과 어떻게 다릅니 까?Apr 24, 2025 pm 03:53 PM

numpyarraysarebetterfornumericaloperations 및 multi-dimensionaldata, mumemer-efficientArrays

Numpy Array의 사용은 Python에서 어레이 모듈 어레이를 사용하는 것과 어떻게 비교됩니까?Apr 24, 2025 pm 03:49 PM

numpyarraysarebetterforheavynumericalcomputing, whilearraymoduleisiMoresuily-sportainedprojectswithsimpledatatypes.1) numpyarraysofferversatively 및 formanceforgedatasets 및 complexoperations.2) Thearraymoduleisweighit 및 ep

CTYPES 모듈은 파이썬의 어레이와 어떤 관련이 있습니까?Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingandmanipulatingC-stylearraysinPython.1)UsectypestointerfacewithClibrariesforperformance.2)CreateC-stylearraysfornumericalcomputations.3)PassarraystoCfunctionsforefficientoperations.However,becautiousofmemorymanagement,performanceo

파이썬의 맥락에서 '배열'및 '목록'을 정의하십시오.Apr 24, 2025 pm 03:41 PM

Inpython, "목록", isaversatile, mutablesequencetatcanholdmixeddatattypes, whilean "array"isamorememory-efficed, homogeneouseceenceRequiringElements ofthesAmeType.1) ListSareIdeAldiversEdatastorageandmanipulationDuetoIrflexibrieth

파이썬 목록은 변이 가능합니까? 파이썬 어레이는 어떻습니까?Apr 24, 2025 pm 03:37 PM

PythonlistsAndarraysareBotheBotheBothebothable.1) ListSareflexibleandsupporterogenousDatabutarabestemory-efficient.2) Arraysaremorememory-efforhomogeneousdatabutlessverstile, CorrectTypecodeusagetoavoidercer가 필요합니다.

Python vs. C : 주요 차이점 이해Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python vs. C : 프로젝트를 위해 어떤 언어를 선택해야합니까?Apr 21, 2025 am 12:17 AM

Python 또는 C를 선택하는 것은 프로젝트 요구 사항에 따라 다릅니다. 1) 빠른 개발, 데이터 처리 및 프로토 타입 설계가 필요한 경우 Python을 선택하십시오. 2) 고성능, 낮은 대기 시간 및 근접 하드웨어 제어가 필요한 경우 C를 선택하십시오.

파이썬 목표에 도달 : 매일 2 시간의 힘Apr 20, 2025 am 12:21 AM

매일 2 시간의 파이썬 학습을 투자하면 프로그래밍 기술을 효과적으로 향상시킬 수 있습니다. 1. 새로운 지식 배우기 : 문서를 읽거나 자습서를 시청하십시오. 2. 연습 : 코드를 작성하고 완전한 연습을합니다. 3. 검토 : 배운 내용을 통합하십시오. 4. 프로젝트 실무 : 실제 프로젝트에서 배운 것을 적용하십시오. 이러한 구조화 된 학습 계획은 파이썬을 체계적으로 마스터하고 경력 목표를 달성하는 데 도움이 될 수 있습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

Dreamweaver Mac版

시각적 웹 개발 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.