Erstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Erstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini

Mary-Kate Olsen

Jan 12, 2025 am 06:25 AM

Building an Async E-Commerce Web Scraper with Pydantic, Crawl & Gemini

Kurz gesagt: Dieser Leitfaden zeigt den Aufbau eines E-Commerce-Scrapers mithilfe der KI-gestützten Extraktion und der Pydantic-Datenmodelle von crawl4ai. Der Scraper ruft asynchron sowohl Produktlisten (Namen, Preise) als auch detaillierte Produktinformationen (Spezifikationen, Bewertungen) ab.

Greifen Sie auf den vollständigen Code auf Google Colab zu

Müden Sie die Komplexität des traditionellen Web-Scrapings zur E-Commerce-Datenanalyse? Dieses Tutorial vereinfacht den Prozess mithilfe moderner Python-Tools. Wir nutzen crawl4ai für die intelligente Datenextraktion und Pydantic für eine robuste Datenmodellierung und -validierung.

Warum Crawl4AI und Pydantic wählen?

crawl4ai: Optimiert Web-Crawling und Scraping mithilfe KI-gesteuerter Extraktionsmethoden.
Pydantic: Bietet Datenvalidierung und Schemaverwaltung und sorgt so für strukturierte und genaue Scraping-Daten.

Warum Tokopedia ins Visier nehmen?

Tokopedia, eine große indonesische E-Commerce-Plattform, dient uns als Beispiel. (Hinweis: Der Autor ist Indonesier und Nutzer der Plattform, aber nicht mit ihr verbunden.) Die Grundsätze gelten auch für andere E-Commerce-Websites. Dieser Scraping-Ansatz ist für Entwickler von Vorteil, die sich für E-Commerce-Analysen, Marktforschung oder automatisierte Datenerfassung interessieren.

Was zeichnet diesen Ansatz aus?

Anstatt uns auf komplexe CSS-Selektoren oder XPath zu verlassen, nutzen wir die LLM-basierte Extraktion von crawl4ai. Das bietet:

Verbesserte Widerstandsfähigkeit gegenüber Änderungen der Website-Struktur.
Sauberere, strukturiertere Datenausgabe.
Reduzierter Wartungsaufwand.

Einrichten Ihrer Entwicklungsumgebung

Beginnen Sie mit der Installation der erforderlichen Pakete:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

Für die asynchrone Codeausführung in Notebooks verwenden wir auch nest_asyncio:

import crawl4ai
import asyncio
import nest_asyncio
nest_asyncio.apply()

Datenmodelle mit Pydantic definieren

Wir verwenden Pydantic, um die erwartete Datenstruktur zu definieren. Hier sind die Modelle:

from pydantic import BaseModel, Field
from typing import List, Optional

class TokopediaListingItem(BaseModel):
    product_name: str = Field(..., description="Product name from listing.")
    product_url: str = Field(..., description="URL to product detail page.")
    price: str = Field(None, description="Price displayed in listing.")
    store_name: str = Field(None, description="Store name from listing.")
    rating: str = Field(None, description="Rating (1-5 scale) from listing.")
    image_url: str = Field(None, description="Primary image URL from listing.")

class TokopediaProductDetail(BaseModel):
    product_name: str = Field(..., description="Product name from detail page.")
    all_images: List[str] = Field(default_factory=list, description="List of all product image URLs.")
    specs: str = Field(None, description="Technical specifications or short info.")
    description: str = Field(None, description="Long product description.")
    variants: List[str] = Field(default_factory=list, description="List of variants or color options.")
    satisfaction_percentage: Optional[str] = Field(None, description="Customer satisfaction percentage.")
    total_ratings: Optional[str] = Field(None, description="Total number of ratings.")
    total_reviews: Optional[str] = Field(None, description="Total number of reviews.")
    stock: Optional[str] = Field(None, description="Stock availability.")

Diese Modelle dienen als Vorlagen, stellen die Datenvalidierung sicher und sorgen für eine klare Dokumentation.

Der Schabeprozess

Der Schaber arbeitet in zwei Phasen:

1. Crawlen von Produktlisten

Zuerst rufen wir Suchergebnisseiten ab:

async def crawl_tokopedia_listings(query: str = "mouse-wireless", max_pages: int = 1):
    # ... (Code remains the same) ...

2. Produktdetails abrufen

Als nächstes rufen wir für jede Produkt-URL detaillierte Informationen ab:

async def crawl_tokopedia_detail(product_url: str):
    # ... (Code remains the same) ...

Kombination der Stufen

Schließlich integrieren wir beide Phasen:

async def run_full_scrape(query="mouse-wireless", max_pages=2, limit=15):
    # ... (Code remains the same) ...

Den Scraper ausführen

So führen Sie den Schaber aus:

%pip install -U crawl4ai
%pip install nest_asyncio
%pip install pydantic

Profi-Tipps

Ratenbegrenzung: Respektieren Sie die Server von Tokopedia; Verzögerungen zwischen Anfragen für groß angelegtes Scraping einführen.
Caching: Aktivieren Sie das Caching von crawl4ai während der Entwicklung (cache_mode=CacheMode.ENABLED).
Fehlerbehandlung: Implementieren Sie umfassende Fehlerbehandlungs- und Wiederholungsmechanismen für den Produktionseinsatz.
API-Schlüssel:Speichern Sie Gemini-API-Schlüssel sicher in Umgebungsvariablen, nicht direkt im Code.

Nächste Schritte

Dieser Schaber kann erweitert werden auf:

Daten in einer Datenbank speichern.
Überwachen Sie Preisänderungen im Laufe der Zeit.
Produkttrends und -muster analysieren.
Vergleichen Sie die Preise in mehreren Geschäften.

Fazit

Die LLM-basierte Extraktion von crawl4ai verbessert die Wartbarkeit des Web Scraping im Vergleich zu herkömmlichen Methoden erheblich. Die Integration mit Pydantic gewährleistet Datengenauigkeit und -struktur.

Halten Sie sich vor dem Scrapen immer an die robots.txt und Nutzungsbedingungen einer Website.

Wichtige Links:

Crawl4AI

Offizielle Website: https://www.php.cn/link/1026d8c97a822ee171c6cbf939fe4aca
GitHub-Repository: https://www.php.cn/link/62c1b075041300455ec2b54495d93c99
Dokumentation: https://www.php.cn/link/1026d8c97a822ee171c6cbf939fe4aca/mkdocs/core/installation/

Pydantisch

Offizielle Dokumentation: https://www.php.cn/link/a4d4ec4aa3c45731396ed6e65fee40b9
PyPI-Seite: https://www.php.cn/link/4d8ab89733dd9a88f1a9d130ca675c2e
GitHub-Repository: https://www.php.cn/link/22935fba49f7d80d5adf1cfa6b0344f4

Hinweis: Der vollständige Code ist im Colab-Notizbuch verfügbar. Probieren Sie es einfach aus und passen Sie es an Ihre spezifischen Bedürfnisse an.

Das obige ist der detaillierte Inhalt vonErstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Python vs. C: Verständnis der wichtigsten UnterschiedeApr 21, 2025 am 12:18 AM

Python und C haben jeweils ihre eigenen Vorteile, und die Wahl sollte auf Projektanforderungen beruhen. 1) Python ist aufgrund seiner prägnanten Syntax und der dynamischen Typisierung für die schnelle Entwicklung und Datenverarbeitung geeignet. 2) C ist aufgrund seiner statischen Tipp- und manuellen Speicherverwaltung für hohe Leistung und Systemprogrammierung geeignet.

Python vs. C: Welche Sprache für Ihr Projekt zu wählen?Apr 21, 2025 am 12:17 AM

Die Auswahl von Python oder C hängt von den Projektanforderungen ab: 1) Wenn Sie eine schnelle Entwicklung, Datenverarbeitung und Prototypdesign benötigen, wählen Sie Python. 2) Wenn Sie eine hohe Leistung, eine geringe Latenz und eine schließende Hardwarekontrolle benötigen, wählen Sie C.

Erreichen Sie Ihre Python -Ziele: Die Kraft von 2 Stunden täglichApr 20, 2025 am 12:21 AM

Indem Sie täglich 2 Stunden Python -Lernen investieren, können Sie Ihre Programmierkenntnisse effektiv verbessern. 1. Lernen Sie neues Wissen: Lesen Sie Dokumente oder sehen Sie sich Tutorials an. 2. Üben: Schreiben Sie Code und vollständige Übungen. 3. Überprüfung: Konsolidieren Sie den Inhalt, den Sie gelernt haben. 4. Projektpraxis: Wenden Sie an, was Sie in den tatsächlichen Projekten gelernt haben. Ein solcher strukturierter Lernplan kann Ihnen helfen, Python systematisch zu meistern und Karriereziele zu erreichen.

Maximieren 2 Stunden: Effektive Strategien für Python -LernstrategienApr 20, 2025 am 12:20 AM

Zu den Methoden zum effizienten Erlernen von Python innerhalb von zwei Stunden gehören: 1. Überprüfen Sie das Grundkenntnis und stellen Sie sicher, dass Sie mit der Python -Installation und der grundlegenden Syntax vertraut sind. 2. Verstehen Sie die Kernkonzepte von Python wie Variablen, Listen, Funktionen usw.; 3.. Master Basic und Advanced Nutzung unter Verwendung von Beispielen; 4.. Lernen Sie gemeinsame Fehler und Debugging -Techniken; 5. Wenden Sie Leistungsoptimierung und Best Practices an, z. B. die Verwendung von Listenfunktionen und dem Befolgen des Pep8 -Stilhandbuchs.

Wählen Sie zwischen Python und C: Die richtige Sprache für SieApr 20, 2025 am 12:20 AM

Python ist für Anfänger und Datenwissenschaften geeignet und C für Systemprogramme und Spieleentwicklung geeignet. 1. Python ist einfach und einfach zu bedienen, geeignet für Datenwissenschaft und Webentwicklung. 2.C bietet eine hohe Leistung und Kontrolle, geeignet für Spieleentwicklung und Systemprogrammierung. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Python vs. C: Eine vergleichende Analyse von ProgrammiersprachenApr 20, 2025 am 12:14 AM

Python eignet sich besser für Datenwissenschaft und schnelle Entwicklung, während C besser für Hochleistungen und Systemprogramme geeignet ist. 1. Python -Syntax ist prägnant und leicht zu lernen, geeignet für die Datenverarbeitung und wissenschaftliches Computer. 2.C hat eine komplexe Syntax, aber eine hervorragende Leistung und wird häufig in der Spieleentwicklung und der Systemprogrammierung verwendet.

2 Stunden am Tag: Das Potenzial des Python -LernensApr 20, 2025 am 12:14 AM

Es ist machbar, zwei Stunden am Tag zu investieren, um Python zu lernen. 1. Lernen Sie neues Wissen: Lernen Sie in einer Stunde neue Konzepte wie Listen und Wörterbücher. 2. Praxis und Übung: Verwenden Sie eine Stunde, um Programmierübungen durchzuführen, z. B. kleine Programme. Durch vernünftige Planung und Ausdauer können Sie die Kernkonzepte von Python in kurzer Zeit beherrschen.

Python vs. C: Lernkurven und BenutzerfreundlichkeitApr 19, 2025 am 12:20 AM

Python ist leichter zu lernen und zu verwenden, während C leistungsfähiger, aber komplexer ist. 1. Python -Syntax ist prägnant und für Anfänger geeignet. Durch die dynamische Tippen und die automatische Speicherverwaltung können Sie die Verwendung einfach zu verwenden, kann jedoch zur Laufzeitfehler führen. 2.C bietet Steuerung und erweiterte Funktionen auf niedrigem Niveau, geeignet für Hochleistungsanwendungen, hat jedoch einen hohen Lernschwellenwert und erfordert manuellem Speicher und Typensicherheitsmanagement.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vorByDDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vorByDDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vorByDDD

Heiße Werkzeuge

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7681

1639

1393

1286

1229