Webscraping mit Python: CSV als Datenbank verwenden-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Webscraping mit Python: CSV als Datenbank verwenden

Mary-Kate Olsen

Dec 30, 2024 am 09:09 AM

Webscraping com Python: usando CSV como base de dados

Ich hatte dieser Tage eine sehr interessante Nachfrage. Eine Person migrierte Daten mithilfe von CSV von einem Ort zum anderen. Bei den Daten handelt es sich um Buchanmeldungen für ein Leseprojekt. Irgendwann sagte sie zu mir: „Nun, jetzt ist der Rest der Arbeit für den Roboter.“ Ich muss mir die ISBN jedes Titels besorgen.“ Wie sie sagte, ist es die Aufgabe eines Roboters. Warum also nicht einen Roboter das tun lassen?

Sigla para International Standard Book Number.

Ein Werk kann mehrere ISBNs haben, das liegt daran, dass die Editionen eine eigene ISBN haben. In diesem Fall würde jede ISBN funktionieren, sofern das Medium kompatibel ist. Folgendes wurde in der CSV registriert:
-> E-Book
-> körperlich
-> Audio

Kommen wir zur Logik:
-> Laden Sie die CSV-Datei hoch und öffnen Sie sie.
-> Extrahieren Sie die Spalte mit den Titeln.
-> Extrahieren Sie die Medienspalte.
-> Suchen Sie für jeden Titel bei Google nach der ISBN.
-> Extrahieren Sie den Titel aus der Seite.
-> Extrahieren Sie eine Liste der ISBNs.
-> Extrahieren Sie eine Medienliste.
-> Überprüfen Sie die Registrierungsmedien und suchen Sie nach der nächstgelegenen ISBN. Wenn unsere Kriterien nicht gefunden werden, geben Sie den ersten Eintrag in der Liste zurück.
-> Geben Sie zur späteren Überprüfung an, von welchem Medium wir die ISBN übernommen haben.

Sehen wir uns die notwendigen Bibliotheken an:

import requests # para fazer as requisições
from bs4 import BeautifulSoup # para manipular o html recebido
import pandas as pd # para manipular os arquivos CSV
import time
import random # as duas são para gerarmos intervalos aleatórios de acesso

Diese Bücherliste umfasst mehr als 600 Einträge, und da ich nicht von Google blockiert werden möchte, werden wir wahllos und mit einem menschlicheren Raum darauf zugreifen. Außerdem verwenden wir eine Kopfzeile, um anzugeben, dass wir die Browserversion der Seite haben möchten. Gehen Sie dazu in Ihrem Browser auf „Netzwerk“ und suchen Sie nach „User-Agent“.

Für die Suche bei Google verwenden wir das folgende URL-Muster:

url_base = "https://www.google.com/search?q=isbn" # o que vem depois '=' é a pesquisa

Denken Sie daran, dass URLs keine Leerzeichen enthalten. Daher werden wir Leerzeichen in Titeln durch „ “ ersetzen. In Pandas werden „Tabellenkalkulationen“ als „DataFrame“ bezeichnet und es ist sehr üblich, df als Abkürzung zu verwenden. Schließlich verwenden Sie möglicherweise Windows wie ich. In diesem Fall sind die Systemadressleisten im Vergleich zu Unix investiert. Schreiben wir eine Funktion, die die von uns eingefügte URL in das andere Format umwandelt.

path = r"C:\caminho\livros.csv"

def invert_url_pattern(url):
    return url.replace("\","/")

path = invert_url_pattern(path)

def search_book(path):
    url_base = "https://www.google.com/search?q=isbn"
    headers = {
    "User-Agent":"seu pc"
    }
    
    df = pd.read_csv(path, encoding='utf-8')
    books = df["Name"].tolist()
    media = df["media"].tolist()
    # vamos colocar as pesquisas aqui e depois inserir todas no DataFrame
    title_books = []
    isbn_books = []
    media_books = []  

    for index, book in enumerate(books):
        time.sleep(random.uniform(60, 90))
        
        url = url_base + "+" + book.replace(" ", "+")
        req = requests.get(url, headers=headers)

        site = BeautifulSoup(req.text, "html.parser")
        #usamos as class para buscar o conteúdo
        title = site.find("span", class_="Wkr6U")
        isbns = site.find_all("div", class_="bVj5Zb")
        medias = site.find_all("div", class_="TCYkdd")
        #se algo falhar, retornamos uma string vazia
        if(title.text == None):
            title_books.append("")
            isbn_books.append("")
            media_books.append("")
            continue

        # No loop, o último item acessado será o mais recente, 
        # pois percorremos a lista de cima para baixo. 
        # Por isso, invertendo a lista de ISBNs, garantimos que 
        # o mais novo de cada categoria seja processado por último.

        isbns = isbns[::-1]
        unified_data = {}

        for i in range(len(medias)):
            unified_data[medias[i].text] = isbns[i].text

        match media[index]:
            case "ebook":
                isbn_books.append(unified_data["Livro digital"])
                media_books.append("Livro digital")
            case "fisical":
                isbn_books.append(unified_data["Livro capa dura"])
                media_books.append("Livro capa dura")
            case "audio":
                isbn_books.append(unified_data["Audiolivro"])
                media_books.append("Audiolivro")
            case _:
                isbn_books.append(unified_data[0])
                media_books.append("")

        title_books.append(title.text)

    df["Titulo do Livro"] = title_books
    df["ISBN"] = isbn_books
    df["Tipo de Livro"] = media_books

    return df

Okay, alles bereit für den Test! Ich hinterlasse eine Beispielzeile von dem, was ich erhalten habe, damit Sie es testen können.

Name	language	media
this other eden	?? english	audio

df = search_book(path)

df.to_csv(invert_url_pattern("C:seu\caminho\para\salvar\nome_do_arquivo.csv"), encoding='utf-8', index=False)

Ich hoffe, es war nützlich für Sie und dass Sie etwas in Ihrem täglichen Leben automatisieren können!

Das obige ist der detaillierte Inhalt vonWebscraping mit Python: CSV als Datenbank verwenden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Python vs. C: Verständnis der wichtigsten UnterschiedeApr 21, 2025 am 12:18 AM

Python und C haben jeweils ihre eigenen Vorteile, und die Wahl sollte auf Projektanforderungen beruhen. 1) Python ist aufgrund seiner prägnanten Syntax und der dynamischen Typisierung für die schnelle Entwicklung und Datenverarbeitung geeignet. 2) C ist aufgrund seiner statischen Tipp- und manuellen Speicherverwaltung für hohe Leistung und Systemprogrammierung geeignet.

Python vs. C: Welche Sprache für Ihr Projekt zu wählen?Apr 21, 2025 am 12:17 AM

Die Auswahl von Python oder C hängt von den Projektanforderungen ab: 1) Wenn Sie eine schnelle Entwicklung, Datenverarbeitung und Prototypdesign benötigen, wählen Sie Python. 2) Wenn Sie eine hohe Leistung, eine geringe Latenz und eine schließende Hardwarekontrolle benötigen, wählen Sie C.

Erreichen Sie Ihre Python -Ziele: Die Kraft von 2 Stunden täglichApr 20, 2025 am 12:21 AM

Indem Sie täglich 2 Stunden Python -Lernen investieren, können Sie Ihre Programmierkenntnisse effektiv verbessern. 1. Lernen Sie neues Wissen: Lesen Sie Dokumente oder sehen Sie sich Tutorials an. 2. Üben: Schreiben Sie Code und vollständige Übungen. 3. Überprüfung: Konsolidieren Sie den Inhalt, den Sie gelernt haben. 4. Projektpraxis: Wenden Sie an, was Sie in den tatsächlichen Projekten gelernt haben. Ein solcher strukturierter Lernplan kann Ihnen helfen, Python systematisch zu meistern und Karriereziele zu erreichen.

Maximieren 2 Stunden: Effektive Strategien für Python -LernstrategienApr 20, 2025 am 12:20 AM

Zu den Methoden zum effizienten Erlernen von Python innerhalb von zwei Stunden gehören: 1. Überprüfen Sie das Grundkenntnis und stellen Sie sicher, dass Sie mit der Python -Installation und der grundlegenden Syntax vertraut sind. 2. Verstehen Sie die Kernkonzepte von Python wie Variablen, Listen, Funktionen usw.; 3.. Master Basic und Advanced Nutzung unter Verwendung von Beispielen; 4.. Lernen Sie gemeinsame Fehler und Debugging -Techniken; 5. Wenden Sie Leistungsoptimierung und Best Practices an, z. B. die Verwendung von Listenfunktionen und dem Befolgen des Pep8 -Stilhandbuchs.

Wählen Sie zwischen Python und C: Die richtige Sprache für SieApr 20, 2025 am 12:20 AM

Python ist für Anfänger und Datenwissenschaften geeignet und C für Systemprogramme und Spieleentwicklung geeignet. 1. Python ist einfach und einfach zu bedienen, geeignet für Datenwissenschaft und Webentwicklung. 2.C bietet eine hohe Leistung und Kontrolle, geeignet für Spieleentwicklung und Systemprogrammierung. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Python vs. C: Eine vergleichende Analyse von ProgrammiersprachenApr 20, 2025 am 12:14 AM

Python eignet sich besser für Datenwissenschaft und schnelle Entwicklung, während C besser für Hochleistungen und Systemprogramme geeignet ist. 1. Python -Syntax ist prägnant und leicht zu lernen, geeignet für die Datenverarbeitung und wissenschaftliches Computer. 2.C hat eine komplexe Syntax, aber eine hervorragende Leistung und wird häufig in der Spieleentwicklung und der Systemprogrammierung verwendet.

2 Stunden am Tag: Das Potenzial des Python -LernensApr 20, 2025 am 12:14 AM

Es ist machbar, zwei Stunden am Tag zu investieren, um Python zu lernen. 1. Lernen Sie neues Wissen: Lernen Sie in einer Stunde neue Konzepte wie Listen und Wörterbücher. 2. Praxis und Übung: Verwenden Sie eine Stunde, um Programmierübungen durchzuführen, z. B. kleine Programme. Durch vernünftige Planung und Ausdauer können Sie die Kernkonzepte von Python in kurzer Zeit beherrschen.

Python vs. C: Lernkurven und BenutzerfreundlichkeitApr 19, 2025 am 12:20 AM

Python ist leichter zu lernen und zu verwenden, während C leistungsfähiger, aber komplexer ist. 1. Python -Syntax ist prägnant und für Anfänger geeignet. Durch die dynamische Tippen und die automatische Speicherverwaltung können Sie die Verwendung einfach zu verwenden, kann jedoch zur Laufzeitfehler führen. 2.C bietet Steuerung und erweiterte Funktionen auf niedrigem Niveau, geeignet für Hochleistungsanwendungen, hat jedoch einen hohen Lernschwellenwert und erfordert manuellem Speicher und Typensicherheitsmanagement.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vorByDDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vorByDDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

4 Wochen vorByDDD

Heiße Werkzeuge

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7651

CakePHP-Tutorial

1392

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT Mini Kreuzworträtsel Antworten

110