오늘날의 정보기술 시대에는 대용량 데이터를 크롤링하는 것이 중요한 기술이 되었습니다. 빅데이터 기술의 급속한 발전으로 데이터 크롤링 기술은 지속적으로 업데이트되고 개선되고 있습니다. 그 중에서 Scrapy 프레임워크는 의심할 여지 없이 가장 일반적으로 사용되고 널리 사용되는 프레임워크입니다. 이 프레임워크는 데이터 크롤링 및 처리에 고유한 장점과 유연성을 가지고 있습니다.
이 글에서는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 소개합니다. Flickr는 인벤토리에 수억 장의 사진과 매우 많은 양의 데이터 리소스가 있는 사진 공유 웹사이트입니다. Scrapy 프레임워크를 사용하면 이러한 데이터 리소스를 쉽게 확보하고 연구 및 분석을 수행하거나 이를 사용하여 애플리케이션 모델을 구축하여 빅 데이터의 힘을 더 잘 활용할 수 있습니다.
1. Scrapy 프레임워크 소개
Scrapy는 Python 언어를 기반으로 하는 오픈 소스 웹 크롤러 프레임워크입니다. "효율성"과 "유지 관리 가능성"을 설계 컨셉으로 삼고 대규모 데이터를 크롤링하고 처리하는 데 더 적합한 포괄적인 크롤러 프레임워크를 구현합니다. Scrapy 프레임워크의 핵심 부분에는 다음과 같은 주요 기능 모듈이 포함됩니다.
2. Flickr API 키 얻기
데이터를 크롤링하기 전에 Flickr 데이터베이스에 액세스할 수 있는 권한을 얻기 위해 Flickr API 키를 신청해야 합니다. Flickr 개발자 웹사이트(https://www.flickr.com/services/api/misc.api_keys.html)에 등록하면 API KEY를 얻을 수 있습니다. 구체적인 신청 단계는 다음과 같습니다.
① 먼저 https://www.flickr.com/services/apps/create/apply/에 접속하여 API KEY를 신청해야 합니다.
②이 웹사이트에 들어간 후 로그인이 필요합니다. 계정이 없으면 직접 등록해야 합니다.
3로그인 후 Flickr 신청서를 작성하여 제출해야 합니다. 양식에는 주로 두 가지 정보 측면을 작성해야 합니다.
4신청 양식을 작성한 후 시스템에서 다음을 생성합니다. API KEY 및 SECRET . 나중에 사용할 수 있도록 이 두 가지 정보를 저장해야 합니다.
3. Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링 구현
다음으로 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 데이터를 크롤링하는 방법을 소개합니다.
1. Scrapy 크롤러 작성
먼저 새로운 Scrapy 프로젝트를 생성하고 프로젝트에 크롤러 파일을 생성해야 합니다. 크롤러 파일에서는 Flickr API 데이터베이스의 기본 정보와 데이터 저장 위치를 설정해야 합니다.
import time import json import scrapy from flickr.items import FlickrItem class FlickrSpider(scrapy.Spider): name = 'flickr' api_key = 'YOUR_API_KEY' # 这里填写你自己的API Key tags = 'cat,dog' # 这里将cat和dog作为爬取的关键词,你可以自由定义 format = 'json' nojsoncallback = '1' page = '1' per_page = '50' start_urls = [ 'https://api.flickr.com/services/rest/?method=flickr.photos.search&' 'api_key={}' '&tags={}' '&page={}' '&per_page={}' '&format={}' '&nojsoncallback={}'.format(api_key, tags, page, per_page, format, nojsoncallback) ] def parse(self, response): results = json.loads(response.body_as_unicode()) for photo in results['photos']['photo']: item = FlickrItem() item['image_title'] = photo['title'] item['image_url'] = 'https://farm{}.staticflickr.com/{}/{}_{}.jpg'.format( photo['farm'], photo['server'], photo['id'], photo['secret']) yield item if int(self.page) <= results['photos']['pages']: self.page = str(int(self.page) + 1) next_page_url = 'https://api.flickr.com/services/rest/?method=flickr.photos.search&' 'api_key={}' '&tags={}' '&page={}' '&per_page={}' '&format={}' '&nojsoncallback={}'.format(self.api_key, self.tags, self.page, self.per_page, self.format, self.nojsoncallback) time.sleep(1) # 设置延时1秒钟 yield scrapy.Request(url=next_page_url, callback=self.parse)
크롤러 파일에서는 Flickr 이미지 라이브러리의 키워드 "cat"과 "dog"를 설정하고, 그런 다음 페이지 넘김 매개변수 지정을 설정하고 형식을 json으로 설정합니다. 파싱 함수에서 각 이미지의 정보를 추출 및 처리한 후, Yield를 사용하여 반환했습니다.
다음으로 데이터의 저장 위치와 형식을 정의하고 settings.py에서 설정해야 합니다.
ITEM_PIPELINES = { 'flickr.pipelines.FlickrPipeline': 300, } IMAGES_STORE = 'images'
2. 항목 파이프라인 작성
다음으로, 항목 파이프라인을 작성하여 데이터를 수집해야 합니다. 수집된 데이터는 처리 및 저장됩니다.
import scrapy from scrapy.pipelines.images import ImagesPipeline from scrapy.exceptions import DropItem class FlickrPipeline(object): def process_item(self, item, spider): return item class FlickrImagesPipeline(ImagesPipeline): def get_media_requests(self, item, info): for image_url in item['image_url']: try: yield scrapy.Request(image_url) except Exception as e: pass def item_completed(self, results, item, info): image_paths = [x['path'] for ok, x in results if ok] if not image_paths: raise DropItem("Item contains no images") item['image_paths'] = image_paths return item
3. 프로그램 실행
위의 코드 작성을 완료한 후 Scrapy 프레임워크를 실행하여 데이터 크롤링 작업을 구현할 수 있습니다. 명령줄에 다음 명령을 입력해야 합니다.
scrapy crawl flickr
프로그램 실행이 시작된 후 크롤러는 Flickr 데이터베이스에서 "고양이"와 "개" 사진을 크롤링하고 지정된 저장 위치에 사진을 저장합니다.
4. 요약
이 글의 소개를 통해 우리는 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리를 크롤링하는 방법을 자세히 배웠습니다. 실제 응용 프로그램에서는 필요에 따라 키워드, 페이지 수 또는 이미지 저장 경로를 수정할 수 있습니다. 어떤 측면에서든 Scrapy 프레임워크는 성숙하고 기능이 풍부한 크롤러 프레임워크입니다. 지속적으로 업데이트되는 기능과 유연한 확장성은 데이터 크롤링 작업을 강력하게 지원합니다.
위 내용은 Scrapy 프레임워크를 사용하여 Flickr 이미지 라이브러리 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!