Pydantic、Crawl、Gemini を使用した非同期電子商取引 Web スクレイパーの構築-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pydantic、Crawl、Gemini を使用した非同期電子商取引 Web スクレイパーの構築

Mary-Kate Olsen

Jan 12, 2025 am 06:25 AM

Building an Async E-Commerce Web Scraper with Pydantic, Crawl & Gemini

要約: このガイドでは、crawl4ai の AI を活用した抽出と Pydantic データモデルを使用して、e コマーススクレーパーを構築する方法を説明します。スクレイパーは、製品リスト (名前、価格) と詳細な製品情報 (仕様、レビュー) の両方を非同期的に取得します。

Google Colab で完全なコードにアクセスします

電子商取引データ分析のための従来の Web スクレイピングの複雑さにうんざりしていませんか?このチュートリアルでは、最新の Python ツールを使用してプロセスを簡素化します。インテリジェントなデータ抽出には crawl4ai を、堅牢なデータモデリングと検証には Pydantic を活用します。

Crawl4AI と Pydantic を選ぶ理由

crawl4ai: AI 主導の抽出方法を使用して、Web のクローリングとスクレイピングを合理化します。
Pydantic: データ検証とスキーマ管理を提供し、構造化された正確なスクレイピングデータを保証します。

なぜ Tokopedia をターゲットにするのですか?

インドネシアの大手電子商取引プラットフォームである Tokopedia が例として挙げられます。 (注: 著者はインドネシア人であり、プラットフォームのユーザーですが、提携はしていません。) この原則は他の電子商取引サイトにも適用されます。このスクレイピングアプローチは、e コマース分析、市場調査、自動データ収集に興味のある開発者にとって有益です。

このアプローチの特徴は何ですか?

複雑な CSS セレクターや XPath に依存する代わりに、crawl4ai の LLM ベースの抽出を利用します。これにより以下が提供されます:

Web サイト構造の変更に対する復元力の強化
よりクリーンで構造化されたデータ出力。
メンテナンスのオーバーヘッドを削減します。

開発環境のセットアップ

必要なパッケージをインストールすることから始めます:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

ノートブックでの非同期コード実行の場合は、nest_asyncio:

も使用します。

import crawl4ai
import asyncio
import nest_asyncio
nest_asyncio.apply()

Pydantic を使用したデータモデルの定義

私たちは Pydantic を使用して、予想されるデータ構造を定義します。モデルは次のとおりです:

from pydantic import BaseModel, Field
from typing import List, Optional

class TokopediaListingItem(BaseModel):
    product_name: str = Field(..., description="Product name from listing.")
    product_url: str = Field(..., description="URL to product detail page.")
    price: str = Field(None, description="Price displayed in listing.")
    store_name: str = Field(None, description="Store name from listing.")
    rating: str = Field(None, description="Rating (1-5 scale) from listing.")
    image_url: str = Field(None, description="Primary image URL from listing.")

class TokopediaProductDetail(BaseModel):
    product_name: str = Field(..., description="Product name from detail page.")
    all_images: List[str] = Field(default_factory=list, description="List of all product image URLs.")
    specs: str = Field(None, description="Technical specifications or short info.")
    description: str = Field(None, description="Long product description.")
    variants: List[str] = Field(default_factory=list, description="List of variants or color options.")
    satisfaction_percentage: Optional[str] = Field(None, description="Customer satisfaction percentage.")
    total_ratings: Optional[str] = Field(None, description="Total number of ratings.")
    total_reviews: Optional[str] = Field(None, description="Total number of reviews.")
    stock: Optional[str] = Field(None, description="Stock availability.")

これらのモデルはテンプレートとして機能し、データ検証を確実にし、明確なドキュメントを提供します。

スクレイピングプロセス

スクレーパーは 2 つのフェーズで動作します:

1.商品リストをクロール

まず、検索結果ページを取得します。

async def crawl_tokopedia_listings(query: str = "mouse-wireless", max_pages: int = 1):
    # ... (Code remains the same) ...

2.製品詳細を取得しています

次に、製品 URL ごとに詳細情報を取得します。

async def crawl_tokopedia_detail(product_url: str):
    # ... (Code remains the same) ...

ステージの結合

最後に、両方のフェーズを統合します。

async def run_full_scrape(query="mouse-wireless", max_pages=2, limit=15):
    # ... (Code remains the same) ...

スクレーパーの実行

スクレイパーを実行する方法は次のとおりです:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

プロのヒント

レート制限: Tokopedia のサーバーを尊重します。大規模なスクレイピングのリクエスト間に遅延が発生します。
キャッシュ: 開発中に roll4ai のキャッシュを有効にします (cache_mode=CacheMode.ENABLED)。
エラー処理: 運用環境で使用するための包括的なエラー処理および再試行メカニズムを実装します。
API キー: Gemini API キーはコード内に直接ではなく、環境変数に安全に保存します。

次のステップ

このスクレーパーは次のように拡張できます:

データをデータベースに保存します。
モニター価格は時間の経過とともに変化します。
製品の傾向とパターンを分析します。
複数の店舗の価格を比較します。

結論

crawl4ai の LLM ベースの抽出により、従来の方法と比較して Web スクレイピングの保守性が大幅に向上します。 Pydantic との統合により、データの正確性と構造が保証されます。

スクレイピングする前に、必ず Web サイトの robots.txt と利用規約を遵守してください。

重要なリンク:

クロール4AI

公式ウェブサイト: https://www.php.cn/link/1026d8c97a822ee171c6cbf939fe4aca
GitHub リポジトリ: https://www.php.cn/link/62c1b075041300455ec2b54495d93c99
ドキュメント: https://www.php.cn/link/1026d8c97a822ee171c6cbf939fe4aca/mkdocs/core/installation/

ピダンティック

公式ドキュメント: https://www.php.cn/link/a4d4ec4aa3c45731396ed6e65fee40b9
PyPI ページ: https://www.php.cn/link/4d8ab89733dd9a88f1a9d130ca675c2e
GitHub リポジトリ: https://www.php.cn/link/22935fba49f7d80d5adf1cfa6b0344f4

注: 完全なコードは Colab ノートブックで入手できます。自由に実験して、特定のニーズに合わせて調整してください。

以上がPydantic、Crawl、Gemini を使用した非同期電子商取引 Web スクレイパーの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonリストに要素をどのように追加しますか？May 04, 2025 am 12:17 AM

toAppendElementStoapyThonList、usetheappend（）methodforsingleelements、extend（）formultipleElements、andinsert（）forspecificopsitions.1）useappend（）foraddingoneElementatheend.2）useextend（）toaddmultipleelementseffictience.3）

Pythonリストをどのように作成しますか？例を挙げてください。May 04, 2025 am 12:16 AM

To CreateapythonList、usesquareBrackets []およびSeparateItemswithcommas.1）listsaredynamicandcanholdmixdatatypes.2）useappend（）、remaid（）、andslicingformanipulation.3）listcompreheNsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsionsientionforcreating.4）

数値データの効率的なストレージと処理が重要な実際のユースケースについて話し合います。May 04, 2025 am 12:11 AM

金融、科学研究、医療、およびAIの分野では、数値データを効率的に保存および処理することが重要です。 1）財務では、メモリマッピングされたファイルとnumpyライブラリを使用すると、データ処理速度が大幅に向上する可能性があります。 2）科学研究の分野では、HDF5ファイルはデータストレージと取得用に最適化されています。 3）医療では、インデックス作成やパーティション化などのデータベース最適化テクノロジーがデータのパフォーマンスを向上させます。 4）AIでは、データシャーディングと分散トレーニングがモデルトレーニングを加速します。システムのパフォーマンスとスケーラビリティは、適切なツールとテクノロジーを選択し、ストレージと処理速度の間のトレードオフを検討することにより、大幅に改善できます。

Pythonアレイをどのように作成しますか？例を挙げてください。May 04, 2025 am 12:10 AM

pythonarraysarasarecreatedusingthearraymodule、notbuilt-inlikelists.1）importthearraymodule.2）specifytheTypecode、emg。、 'i'forintegers.3）Arraysofferbettermemoreefficiency forhomogeneousdatabutlasefutablethanlists。

Shebangラインを使用してPythonインタープリターを指定するための選択肢は何ですか？May 04, 2025 am 12:07 AM

Shebangラインに加えて、Pythonインタープリターを指定するには多くの方法があります。1。コマンドラインから直接Pythonコマンドを使用します。 2。バッチファイルまたはシェルスクリプトを使用します。 3. makeやcmakeなどのビルドツールを使用します。 4. Invokeなどのタスクランナーを使用します。各方法には利点と短所があり、プロジェクトのニーズに合った方法を選択することが重要です。

リストと配列の選択は、大規模なデータセットを扱うPythonアプリケーションの全体的なパフォーマンスにどのように影響しますか？May 03, 2025 am 12:11 AM

forhandlinglaredataSetsinpython、usenumpyArrays forbetterperformance.1）numpyarraysarememory-effictientandfasterfornumericaloperations.2）nusinnnnedarytypeconversions.3）レバレッジベクトル化は、測定済みのマネージメーシェイメージーウェイズデイタイです

Pythonのリストと配列にメモリがどのように割り当てられるかを説明します。May 03, 2025 am 12:10 AM

inpython、listsusedynamicmemoryallocation with allocation、whilenumpyArraysalocatefixedmemory.1）listsallocatemorememorythanneededededinitivative.2）numpyArrayasallocateexactmemoryforements、rededicablebutlessflexibilityを提供します。