인터넷 데이터의 양이 증가함에 따라 데이터를 어떻게 빠르고 정확하게 크롤링, 처리, 저장하는지가 인터넷 애플리케이션 개발의 핵심 문제가 되었습니다. 효율적인 크롤러 프레임워크인 Scrapy 프레임워크는 유연하고 빠른 크롤링 방법으로 인해 다양한 데이터 크롤링 시나리오에서 널리 사용됩니다.
그러나 크롤링된 데이터를 파일에 저장하는 것만으로는 대부분의 애플리케이션 요구 사항을 충족할 수 없습니다. 현재 애플리케이션에서는 대부분의 데이터가 데이터베이스를 통해 저장, 검색 및 조작되기 때문입니다. 따라서 데이터를 빠르고 동적으로 저장하기 위해 Scrapy 프레임워크를 데이터베이스와 통합하는 방법이 새로운 과제가 되었습니다.
이 기사에서는 실제 사례를 사용하여 Scrapy 프레임워크가 데이터베이스를 통합하고 필요한 독자가 참조할 수 있도록 동적 데이터 저장소를 구현하는 방법을 소개합니다.
1. 준비
소개에 앞서 이 글의 독자들은 이미 Python 언어에 대한 기본 지식과 Scrapy 프레임워크를 사용하는 몇 가지 방법을 이해했으며 Python 언어를 사용하여 간단한 데이터베이스 작업을 수행할 수 있다고 가정합니다. 이에 대해 익숙하지 않은 경우 관련 지식을 먼저 학습한 후 이 기사를 읽는 것이 좋습니다.
2. 데이터베이스 선택
Scrapy 프레임워크를 데이터베이스와 통합하기 전에 먼저 크롤링한 데이터를 저장할 적합한 데이터베이스를 선택해야 합니다. 현재 일반적으로 사용되는 데이터베이스에는 MySQL, PostgreSQL, MongoDB 및 기타 여러 옵션이 포함됩니다.
이러한 데이터베이스는 각각 장점과 단점이 있으므로 필요에 따라 선택하세요. 예를 들어, 데이터의 양이 적을 때는 MySQL 데이터베이스를 사용하는 것이 더 편리하고, 대용량 데이터 저장이 필요할 때는 MongoDB의 문서 데이터베이스가 더 적합합니다.
3. 데이터베이스 연결 정보 구성
특정 작업에 앞서 데이터베이스 연결 정보를 구성해야 합니다. 예를 들어 MySQL 데이터베이스를 예로 들면 Python의 pymysql 라이브러리를 사용하여 연결할 수 있습니다.
Scrapy에서는 일반적으로 settings.py에서 구성합니다.
MYSQL_HOST = 'localhost' MYSQL_PORT = 3306 MYSQL_USER = 'root' MYSQL_PASSWORD = '123456' MYSQL_DBNAME = 'scrapy_demo'
위 구성에서는 MySQL 데이터베이스가 위치한 호스트 이름, 포트 번호, 사용자 이름, 비밀번호 및 데이터베이스 이름을 구성했습니다. 이 정보는 필수 수정입니다. 실제 상황에 따라.
4. 데이터 저장 파이프라인 작성
Scrapy에서 데이터 저장 파이프라인은 데이터 저장을 구현하는 핵심입니다. Pipeline 클래스를 작성한 다음 이를 Scrapy 구성 파일에 설정하여 데이터를 저장해야 합니다.
MySQL의 스토리지를 예로 들면 다음과 같이 MySQLPipeline 클래스를 작성할 수 있습니다.
import pymysql class MySQLPipeline(object): def open_spider(self, spider): self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'), port=spider.settings.get('MYSQL_PORT'), user=spider.settings.get('MYSQL_USER'), password=spider.settings.get('MYSQL_PASSWORD'), db=spider.settings.get('MYSQL_DBNAME')) self.cur = self.conn.cursor() def close_spider(self, spider): self.conn.close() def process_item(self, item, spider): sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)' self.cur.execute(sql, (item['title'], item['url'], item['content'])) self.conn.commit() return item
위 코드에서는 MySQL 데이터베이스와의 도킹을 구현하기 위해 MySQLPipeline 클래스를 정의하고 세 가지 open_spider, close_spider 및 process_item 메서드를 정의합니다.
그 중 open_spider 메소드는 데이터베이스 연결을 초기화하기 위해 전체 크롤러가 실행되기 시작할 때 호출되고, close_spider 메소드는 데이터베이스 연결을 종료하기 위해 크롤러가 종료될 때 호출됩니다. Process_item은 데이터를 크롤링할 때마다 호출되어 데이터베이스에 데이터를 저장하는 메소드입니다.
5. 파이프라인 활성화
파이프라인 작성을 완료한 후 Scrapy의 구성 파일 settings.py에서도 이를 활성화해야 합니다. 아래와 같이 ITEM_PIPELINES 변수에 Pipeline 클래스를 추가하기만 하면 됩니다.
ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, }
위 코드에서는 MySQLPipeline 클래스를 ITEM_PIPELINES 변수에 추가하고 우선순위를 300으로 설정했습니다. 즉, 항목을 처리할 때 파이프라인 클래스는 세 번째로 부름을 받아라.
6. 테스트 및 운영
모든 구성을 완료한 후 Scrapy 크롤러를 실행하고 캡처된 데이터를 MySQL 데이터베이스에 저장할 수 있습니다. 구체적인 단계와 명령은 다음과 같습니다.
1. Scrapy 프로젝트가 있는 디렉터리를 입력하고 다음 명령을 실행하여 Scrapy 프로젝트를 만듭니다.
scrapy startproject myproject
2 Scrapy의 데이터 저장 기능을 테스트합니다. 프레임워크를 구축하고 데이터베이스의 데이터 저장소를 크롤링합니다. myproject 디렉터리에서 다음 명령을 실행합니다.
scrapy genspider test_spider baidu.com
위 명령은 Baidu를 크롤링하기 위해 test_spider라는 Spider를 생성합니다.
3. test_sprider 디렉토리의 spiders 디렉토리에서 test_sprider.py를 열고 크롤러 코드를 작성합니다.
import scrapy from myproject.items import ArticleItem class TestSpider(scrapy.Spider): name = "test" allowed_domains = ["baidu.com"] start_urls = [ "https://www.baidu.com", ] def parse(self, response): item = ArticleItem() item['title'] = 'MySQL Pipeline测试' item['url'] = response.url item['content'] = 'Scrapy框架与MySQL数据库整合测试' yield item
위 코드에서는 Spider 클래스를 상속받은 TestSpider 클래스를 정의합니다. Scrapy를 사용하여 크롤러 논리를 처리합니다. 구문 분석 메소드에서는 Item 객체를 구성하고 'content', 'url' 및 'title' 세 가지 키워드를 설정합니다.
4. myproject 디렉토리에 항목 파일을 생성하여 데이터 모델을 정의합니다.
import scrapy class ArticleItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() content = scrapy.Field()
위 코드에서는 크롤링된 기사 데이터를 저장하기 위해 ArticleItem 클래스를 정의합니다.
5. 테스트 코드:
test_spider 디렉터리에서 다음 명령을 실행하여 코드를 테스트합니다.
scrapy crawl test
위 명령을 실행한 후 Scrapy는 TestSpider 크롤러를 시작하고 Baidu 홈페이지에서 캡처한 데이터를 MySQL에 저장합니다. 데이터 베이스.
7. 요약
이 글에서는 Scrapy 프레임워크가 데이터베이스와 통합되고 동적 데이터 저장소를 구현하는 방법을 간략하게 소개합니다. 이 글이 도움이 필요한 독자들에게 도움이 되기를 바라며, 또한 독자들이 실제 필요에 따라 더욱 효율적이고 빠른 동적 데이터 저장 기능을 달성할 수 있기를 바랍니다.
위 내용은 Scrapy 프레임워크 및 데이터베이스 통합: 동적 데이터 저장소를 구현하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!