Heim  >  Artikel  >  Backend-Entwicklung  >  Wie extrahiere ich Daten aus HTML-Tabellen mit Python BeautifulSoup: Eine umfassende Anleitung zum Parsen von Parkscheinen?

Wie extrahiere ich Daten aus HTML-Tabellen mit Python BeautifulSoup: Eine umfassende Anleitung zum Parsen von Parkscheinen?

Susan Sarandon
Susan SarandonOriginal
2024-10-30 12:54:03796Durchsuche

How to Extract Data from HTML Tables using Python BeautifulSoup: A Comprehensive Guide to Parsing Parking Tickets?

Python BeautifulSoup Parsing Table: Umfassende Anleitung

Beim Extrahieren von Daten aus HTML-Tabellen mit Pythons BeautifulSoup ist es wichtig zu verstehen, wie das spezifische Tabellenlayout analysiert wird entscheidend. In diesem Szenario besteht die Herausforderung darin, die „lineItemsTable“ von einer Parkticket-Website zu analysieren.

Um die Tickets zu extrahieren, befolgen Sie diese Schritte:

<code class="python"># Retrieve the table element
table = soup.find("table", {"class": "lineItemsTable"})

# Initialize an empty list to store the tickets
data = []

# Iterate over each row in the table
for row in table.findAll("tr"):

    # Extract each cell in the row
    cells = row.findAll("td")

    # Clean the cell data and store it in a list
    cells = [cell.text.strip() for cell in cells]

    # If the row contains valid data, append it to the list
    if cells:
        data.append([cell for cell in cells if cell])</code>

Dieser Ansatz führt zu einer Liste von Listen, wobei jede innere Liste die Daten aus einer einzelnen Ticketzeile darstellt, mit Ausnahme leerer Werte. Hier ist eine Beispielausgabe:

[[u'1359711259', u'SRF', u'08/05/2013', u'5310 4 AVE', u'K', u'19', u'125.00', u'$'],
[u'7086775850', u'PAS', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'125.00', u'$'],
[u'7355010165', u'OMT', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'145.00', u'$'],
[...]]

Zusätzliche Hinweise:

  • Die letzte Zeile kann Metadaten zum Zahlungsbetrag enthalten. Wenn die Anzahl der Spalten in einer Zeile weniger als 7 beträgt, sollte sie verworfen werden.
  • Die letzte Spalte in jeder Zeile enthält ein Eingabetextfeld, das separat behandelt werden muss.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Daten aus HTML-Tabellen mit Python BeautifulSoup: Eine umfassende Anleitung zum Parsen von Parkscheinen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn