찾다
백엔드 개발파이썬 튜토리얼Pydantic, Crawl 및 Gemini를 사용하여 비동기 전자상거래 웹 스크레이퍼 구축

Building an Async E-Commerce Web Scraper with Pydantic, Crawl & Gemini

간단히 말하면: 이 가이드에서는crawl4ai의 AI 기반 추출 및 Pydantic 데이터 모델을 사용하여 전자상거래 스크래퍼를 구축하는 방법을 보여줍니다. 스크레이퍼는 제품 목록(이름, 가격)과 자세한 제품 정보(사양, 리뷰)를 모두 비동기식으로 검색합니다.

Google Colab에서 전체 코드에 액세스


전자상거래 데이터 분석을 위한 기존 웹 스크래핑의 복잡성에 지치셨나요? 이 튜토리얼에서는 최신 Python 도구를 사용하여 프로세스를 단순화합니다. 지능형 데이터 추출에는 crawl4ai를, 강력한 데이터 모델링 및 검증에는 Pydantic을 활용합니다.

Crawl4AI와 Pydantic을 선택하는 이유는 무엇인가요?

  • crawl4ai: AI 기반 추출 방법을 사용하여 웹 크롤링 및 스크래핑을 간소화합니다.
  • Pydantic: 데이터 검증 및 스키마 관리를 제공하여 구조화되고 정확한 스크랩 데이터를 보장합니다.

토코피디아를 타겟으로 하는 이유는 무엇인가요?

인도네시아의 주요 전자상거래 플랫폼인 Tokopedia가 그 예입니다. (참고: 저자는 인도네시아인이며 플랫폼 사용자이지만 제휴 관계는 아닙니다.) 이 원칙은 다른 전자 상거래 사이트에도 적용됩니다. 이러한 스크래핑 접근 방식은 전자 상거래 분석, 시장 조사 또는 자동화된 데이터 수집에 관심이 있는 개발자에게 유용합니다.

이 접근 방식의 차별점은 무엇입니까?

복잡한 CSS 선택기나 XPath에 의존하는 대신 우리는 creep4ai의 LLM 기반 추출을 활용합니다. 다음을 제공합니다:

  • 웹사이트 구조 변경에 대한 탄력성이 향상되었습니다.
  • 더 깔끔하고 구조화된 데이터 출력.
  • 유지관리 비용이 감소합니다.

개발 환경 설정

필요한 패키지 설치부터 시작하세요.

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

노트북에서 비동기 코드 실행을 위해 nest_asyncio:

도 사용합니다.
import crawl4ai
import asyncio
import nest_asyncio
nest_asyncio.apply()

Pydantic으로 데이터 모델 정의

Pydantic을 사용하여 예상되는 데이터 구조를 정의합니다. 모델은 다음과 같습니다.

from pydantic import BaseModel, Field
from typing import List, Optional

class TokopediaListingItem(BaseModel):
    product_name: str = Field(..., description="Product name from listing.")
    product_url: str = Field(..., description="URL to product detail page.")
    price: str = Field(None, description="Price displayed in listing.")
    store_name: str = Field(None, description="Store name from listing.")
    rating: str = Field(None, description="Rating (1-5 scale) from listing.")
    image_url: str = Field(None, description="Primary image URL from listing.")

class TokopediaProductDetail(BaseModel):
    product_name: str = Field(..., description="Product name from detail page.")
    all_images: List[str] = Field(default_factory=list, description="List of all product image URLs.")
    specs: str = Field(None, description="Technical specifications or short info.")
    description: str = Field(None, description="Long product description.")
    variants: List[str] = Field(default_factory=list, description="List of variants or color options.")
    satisfaction_percentage: Optional[str] = Field(None, description="Customer satisfaction percentage.")
    total_ratings: Optional[str] = Field(None, description="Total number of ratings.")
    total_reviews: Optional[str] = Field(None, description="Total number of reviews.")
    stock: Optional[str] = Field(None, description="Stock availability.")

이러한 모델은 템플릿 역할을 하여 데이터 검증을 보장하고 명확한 문서를 제공합니다.

스크래핑 과정

스크레이퍼는 두 단계로 작동합니다.

1. 제품 목록 크롤링

먼저 검색 결과 페이지를 검색합니다.

async def crawl_tokopedia_listings(query: str = "mouse-wireless", max_pages: int = 1):
    # ... (Code remains the same) ...

2. 제품 세부정보 가져오는 중

다음으로 각 제품 URL에 대해 자세한 정보를 가져옵니다.

async def crawl_tokopedia_detail(product_url: str):
    # ... (Code remains the same) ...

스테이지 결합

마지막으로 두 단계를 통합합니다.

async def run_full_scrape(query="mouse-wireless", max_pages=2, limit=15):
    # ... (Code remains the same) ...

스크레이퍼 실행

스크래퍼 실행 방법은 다음과 같습니다.

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

전문가의 팁

  1. 속도 제한: Tokopedia 서버를 존중합니다. 대규모 스크래핑 요청 사이에 지연이 발생합니다.
  2. 캐싱: 개발 중에 크롤링4ai의 캐싱을 활성화합니다(cache_mode=CacheMode.ENABLED).
  3. 오류 처리: 프로덕션 용도로 포괄적인 오류 처리 및 재시도 메커니즘을 구현합니다.
  4. API 키: Gemini API 키를 코드에 직접 저장하지 않고 환경 변수에 안전하게 저장합니다.

다음 단계

이 스크레이퍼는 다음으로 확장될 수 있습니다.

  • 데이터베이스에 데이터를 저장합니다.
  • 시간 경과에 따른 가격 변화를 모니터링하세요.
  • 제품 동향과 패턴을 분석합니다.
  • 여러 매장의 가격을 비교해 보세요.

결론

crawl4ai의 LLM 기반 추출은 기존 방법에 비해 웹 스크래핑 유지 관리성을 크게 향상시킵니다. Pydantic과의 통합으로 데이터 정확성과 구조가 보장됩니다.

스크래핑하기 전에 항상 웹사이트의 robots.txt 및 서비스 약관을 준수하세요.


중요 링크:

Crawl4AI

피단틱


참고: 전체 코드는 Colab 노트북에서 확인할 수 있습니다. 자유롭게 실험하고 특정 요구 사항에 맞게 조정해 보세요.

위 내용은 Pydantic, Crawl 및 Gemini를 사용하여 비동기 전자상거래 웹 스크레이퍼 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

파이썬의 이미지 필터링파이썬의 이미지 필터링Mar 03, 2025 am 09:44 AM

시끄러운 이미지를 다루는 것은 특히 휴대폰 또는 저해상도 카메라 사진에서 일반적인 문제입니다. 이 튜토리얼은 OpenCV를 사용 하여이 문제를 해결하기 위해 Python의 이미지 필터링 기술을 탐구합니다. 이미지 필터링 : 강력한 도구 이미지 필터

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

파이썬의 병렬 및 동시 프로그래밍 소개파이썬의 병렬 및 동시 프로그래밍 소개Mar 03, 2025 am 10:32 AM

데이터 과학 및 처리가 가장 좋아하는 Python은 고성능 컴퓨팅을위한 풍부한 생태계를 제공합니다. 그러나 Python의 병렬 프로그래밍은 독특한 과제를 제시합니다. 이 튜토리얼은 이러한 과제를 탐구하며 전 세계 해석에 중점을 둡니다.

파이썬에서 자신의 데이터 구조를 구현하는 방법파이썬에서 자신의 데이터 구조를 구현하는 방법Mar 03, 2025 am 09:28 AM

이 튜토리얼은 Python 3에서 사용자 정의 파이프 라인 데이터 구조를 작성하여 클래스 및 작업자 과부하를 활용하여 향상된 기능을 보여줍니다. 파이프 라인의 유연성은 일련의 기능을 데이터 세트, GE에 적용하는 능력에 있습니다.

파이썬 객체의 직렬화 및 사제화 : 1 부파이썬 객체의 직렬화 및 사제화 : 1 부Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사막화는 사소한 프로그램의 주요 측면입니다. 무언가를 Python 파일에 저장하면 구성 파일을 읽거나 HTTP 요청에 응답하는 경우 객체 직렬화 및 사태화를 수행합니다. 어떤 의미에서, 직렬화와 사제화는 세계에서 가장 지루한 것들입니다. 이 모든 형식과 프로토콜에 대해 누가 걱정합니까? 일부 파이썬 객체를 지속하거나 스트리밍하여 나중에 완전히 검색하려고합니다. 이것은 세상을 개념적 차원에서 볼 수있는 좋은 방법입니다. 그러나 실제 수준에서 선택한 직렬화 체계, 형식 또는 프로토콜은 속도, 보안, 유지 보수 상태 및 프로그램의 기타 측면을 결정할 수 있습니다.

파이썬의 수학 모듈 : 통계파이썬의 수학 모듈 : 통계Mar 09, 2025 am 11:40 AM

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경