Maison  >  Article  >  développement back-end  >  Comment extraire des données de tableaux HTML à l'aide de Python BeautifulSoup : un guide complet pour analyser les tickets de stationnement ?

Comment extraire des données de tableaux HTML à l'aide de Python BeautifulSoup : un guide complet pour analyser les tickets de stationnement ?

Susan Sarandon
Susan Sarandonoriginal
2024-10-30 12:54:03796parcourir

How to Extract Data from HTML Tables using Python BeautifulSoup: A Comprehensive Guide to Parsing Parking Tickets?

Tableau d'analyse Python BeautifulSoup : guide complet

Lors de l'extraction de données de tableaux HTML à l'aide de BeautifulSoup de Python, il est important de comprendre comment analyser la disposition spécifique du tableau. crucial. Dans ce scénario, le défi réside dans l'analyse du "lineItemsTable" d'un site Web de tickets de stationnement.

Pour extraire les tickets, suivez ces étapes :

<code class="python"># Retrieve the table element
table = soup.find("table", {"class": "lineItemsTable"})

# Initialize an empty list to store the tickets
data = []

# Iterate over each row in the table
for row in table.findAll("tr"):

    # Extract each cell in the row
    cells = row.findAll("td")

    # Clean the cell data and store it in a list
    cells = [cell.text.strip() for cell in cells]

    # If the row contains valid data, append it to the list
    if cells:
        data.append([cell for cell in cells if cell])</code>

Cette approche aboutit à une liste de listes, où chaque liste interne représente les données d’une seule ligne de ticket, à l’exclusion des valeurs vides. Voici un exemple de résultat :

[[u'1359711259', u'SRF', u'08/05/2013', u'5310 4 AVE', u'K', u'19', u'125.00', u'$'],
[u'7086775850', u'PAS', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'125.00', u'$'],
[u'7355010165', u'OMT', u'12/14/2013', u'3908 6th Ave', u'K', u'40', u'145.00', u'$'],
[...]]

Remarques supplémentaires :

  • La dernière ligne peut inclure des métadonnées sur le montant du paiement. Si le nombre de colonnes dans une ligne est inférieur à 7, elle doit être supprimée.
  • La dernière colonne de chaque ligne contient une zone de texte de saisie qui doit être gérée séparément.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn