>  기사  >  백엔드 개발  >  Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링

Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링

WBOY
WBOY원래의
2023-06-22 11:02:07772검색

오늘날의 정보기술 시대에는 대용량 데이터를 크롤링하는 것이 중요한 기술이 되었습니다. 빅데이터 기술의 급속한 발전으로 데이터 크롤링 기술은 지속적으로 업데이트되고 개선되고 있습니다. 그 중에서 Scrapy 프레임워크는 의심할 여지 없이 가장 일반적으로 사용되고 널리 사용되는 프레임워크입니다. 이 프레임워크는 데이터 크롤링 및 처리에 고유한 장점과 유연성을 가지고 있습니다.

이 글에서는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 소개합니다. Flickr는 인벤토리에 수억 장의 사진과 매우 많은 양의 데이터 리소스가 있는 사진 공유 웹사이트입니다. Scrapy 프레임워크를 사용하면 이러한 데이터 리소스를 쉽게 확보하고 연구 및 분석을 수행하거나 이를 사용하여 애플리케이션 모델을 구축하여 빅 데이터의 힘을 더 잘 활용할 수 있습니다.

1. Scrapy 프레임워크 소개

Scrapy는 Python 언어를 기반으로 하는 오픈 소스 웹 크롤러 프레임워크입니다. "효율성"과 "유지 관리 가능성"을 설계 컨셉으로 삼고 대규모 데이터를 크롤링하고 처리하는 데 더 적합한 포괄적인 크롤러 프레임워크를 구현합니다. Scrapy 프레임워크의 핵심 부분에는 다음과 같은 주요 기능 모듈이 포함됩니다.

  • 엔진: 전체 시스템의 데이터 흐름을 처리하고 다양한 구성 요소 간의 상호 작용 및 데이터 전송을 제어하는 ​​역할을 담당합니다.
  • 스케줄러: 엔진에서 보낸 요청을 정렬하여 다운로더에 전달하는 역할을 담당합니다.
  • Downloader(다운로더): 웹 콘텐츠를 다운로드하고 웹 페이지에서 반환된 콘텐츠를 처리한 다음 엔진에 전달하는 역할을 담당합니다.
  • Parser(스파이더): 다운로더가 다운로드한 웹페이지를 구문 분석하고, 원하는 데이터를 추출하여 구조화된 데이터로 구성하는 역할을 담당합니다.
  • 파이프라인: 데이터베이스나 파일에 저장하는 등 처리된 데이터의 후속 처리를 담당합니다.

2. Flickr API 키 얻기

데이터를 크롤링하기 전에 Flickr 데이터베이스에 액세스할 수 있는 권한을 얻기 위해 Flickr API 키를 신청해야 합니다. Flickr 개발자 웹사이트(https://www.flickr.com/services/api/misc.api_keys.html)에 등록하면 API KEY를 얻을 수 있습니다. 구체적인 신청 단계는 다음과 같습니다.

① 먼저 https://www.flickr.com/services/apps/create/apply/에 접속하여 API KEY를 신청해야 합니다.

②이 웹사이트에 들어간 후 로그인이 필요합니다. 계정이 없으면 직접 등록해야 합니다.

3로그인 후 Flickr 신청서를 작성하여 제출해야 합니다. 양식에는 주로 두 가지 정보 측면을 작성해야 합니다.

  • 소규모 애플리케이션의 이름
  • "비상업적" 목적에 대한 설명

4신청 양식을 작성한 후 시스템에서 다음을 생성합니다. API KEY 및 SECRET . 나중에 사용할 수 있도록 이 두 가지 정보를 저장해야 합니다.

3. Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링 구현

다음으로 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 데이터를 크롤링하는 방법을 소개합니다.

1. Scrapy 크롤러 작성

먼저 새로운 Scrapy 프로젝트를 생성하고 프로젝트에 크롤러 파일을 생성해야 합니다. 크롤러 파일에서는 Flickr API 데이터베이스의 기본 정보와 데이터 저장 위치를 ​​설정해야 합니다.

import time
import json
import scrapy
from flickr.items import FlickrItem

class FlickrSpider(scrapy.Spider):
    name = 'flickr'
    api_key = 'YOUR_API_KEY'  # 这里填写你自己的API Key
    tags = 'cat,dog'  # 这里将cat和dog作为爬取的关键词,你可以自由定义
    format = 'json'
    nojsoncallback = '1'
    page = '1'
    per_page = '50'

    start_urls = [
        'https://api.flickr.com/services/rest/?method=flickr.photos.search&'
        'api_key={}'
        '&tags={}'
        '&page={}'
        '&per_page={}'
        '&format={}'
        '&nojsoncallback={}'.format(api_key, tags, page, per_page, format, nojsoncallback)
    ]

    def parse(self, response):
        results = json.loads(response.body_as_unicode())
        for photo in results['photos']['photo']:
            item = FlickrItem()
            item['image_title'] = photo['title']
            item['image_url'] = 'https://farm{}.staticflickr.com/{}/{}_{}.jpg'.format(
                photo['farm'], photo['server'], photo['id'], photo['secret'])
            yield item

        if int(self.page) <= results['photos']['pages']:
            self.page = str(int(self.page) + 1)
            next_page_url = 'https://api.flickr.com/services/rest/?method=flickr.photos.search&' 
                            'api_key={}' 
                            '&tags={}' 
                            '&page={}' 
                            '&per_page={}' 
                            '&format={}' 
                            '&nojsoncallback={}'.format(self.api_key, self.tags, self.page, self.per_page, self.format, self.nojsoncallback)
            time.sleep(1)  # 设置延时1秒钟
            yield scrapy.Request(url=next_page_url, callback=self.parse)

크롤러 파일에서는 Flickr 이미지 라이브러리의 키워드 "cat"과 "dog"를 설정하고, 그런 다음 페이지 넘김 매개변수 지정을 설정하고 형식을 json으로 설정합니다. 파싱 ​​함수에서 각 이미지의 정보를 추출 및 처리한 후, Yield를 사용하여 반환했습니다.

다음으로 데이터의 저장 위치와 형식을 정의하고 settings.py에서 설정해야 합니다.

ITEM_PIPELINES = {
   'flickr.pipelines.FlickrPipeline': 300,
}

IMAGES_STORE = 'images'

2. 항목 파이프라인 작성

다음으로, 항목 파이프라인을 작성하여 데이터를 수집해야 합니다. 수집된 데이터는 처리 및 저장됩니다.

import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem

class FlickrPipeline(object):
    def process_item(self, item, spider):
        return item

class FlickrImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        for image_url in item['image_url']:
            try:
                yield scrapy.Request(image_url)
            except Exception as e:
                pass

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        item['image_paths'] = image_paths
        return item

3. 프로그램 실행

위의 코드 작성을 완료한 후 Scrapy 프레임워크를 실행하여 데이터 크롤링 작업을 구현할 수 있습니다. 명령줄에 다음 명령을 입력해야 합니다.

scrapy crawl flickr

프로그램 실행이 시작된 후 크롤러는 Flickr 데이터베이스에서 "고양이"와 "개" 사진을 크롤링하고 지정된 저장 위치에 사진을 저장합니다.

4. 요약

이 글의 소개를 통해 우리는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 자세히 배웠습니다. 실제 응용 프로그램에서는 필요에 따라 키워드, 페이지 수 또는 이미지 저장 경로를 수정할 수 있습니다. 어떤 측면에서든 Scrapy 프레임워크는 성숙하고 기능이 풍부한 크롤러 프레임워크입니다. 지속적으로 업데이트되는 기능과 유연한 확장성은 데이터 크롤링 작업을 강력하게 지원합니다.

위 내용은 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.