Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Kaedah praktikal untuk membaca data halaman web dengan Panda

Kaedah praktikal untuk membaca data halaman web dengan Panda

WBOY
WBOYasal
2024-01-04 11:35:40972semak imbas

Kaedah praktikal untuk membaca data halaman web dengan Panda

Kaedah praktikal Panda membaca data halaman web memerlukan contoh kod khusus

Dalam proses analisis dan pemprosesan data, kita selalunya perlu mendapatkan data daripada halaman web. Sebagai alat pemprosesan data yang berkuasa, Pandas menyediakan kaedah yang mudah untuk membaca dan memproses data halaman web. Artikel ini akan memperkenalkan beberapa kaedah praktikal yang biasa digunakan untuk membaca data halaman web dalam Panda dan melampirkan contoh kod tertentu.

Kaedah 1: Gunakan fungsi read_html()
Fungsi read_html() Pandas boleh terus membaca data jadual HTML dari halaman web dan menukarnya menjadi objek DataFrame. Berikut ialah contoh:

import pandas as pd

# 从网页中读取表格数据
url = 'http://example.com/table.html'
tables = pd.read_html(url)

# 获取第一个表格
df = tables[0]
print(df)

Kaedah ini akan mengembalikan senarai yang mengandungi semua data jadual, setiap data jadual ialah objek DataFrame. Data jadual yang diperlukan boleh diperolehi melalui indeks.

Kaedah 2: Gunakan perpustakaan permintaan dan perpustakaan BeautifulSoup
Kaedah biasa lain ialah menggunakan permintaan perpustakaan pihak ketiga dan BeautifulSoup untuk mendapatkan dan menghuraikan data halaman web. Langkah-langkah khusus adalah seperti berikut:

import pandas as pd
import requests
from bs4 import BeautifulSoup

# 发送HTTP请求,获取网页内容
url = 'http://example.com'
response = requests.get(url)
html_content = response.text

# 解析HTML内容,获取表格数据
soup = BeautifulSoup(html_content, 'html.parser')
table = soup.find_all('table')[0]

# 将表格数据转化为DataFrame对象
df = pd.read_html(str(table))[0]
print(df)

Kaedah ini mula-mula menggunakan perpustakaan permintaan untuk menghantar permintaan HTTP untuk mendapatkan kandungan HTML halaman web. Kemudian gunakan BeautifulSoup untuk menghuraikan kandungan HTML ke dalam objek BeautifulSoup dan anda boleh mencari data jadual yang diperlukan melalui kaedah find_all(). Akhir sekali, gunakan fungsi pd.read_html() untuk menukar data jadual menjadi objek DataFrame.

Kaedah 3: Gunakan fungsi read_csv() Pandas
Selain membaca data jadual HTML, data beberapa halaman web mungkin disimpan dalam format CSV. Fungsi read_csv() Pandas boleh membaca data terus daripada fail CSV atau pautan web. Berikut ialah contoh:

import pandas as pd

# 从网页链接中读取CSV数据
url = 'http://example.com/data.csv'
df = pd.read_csv(url)
print(df)

Kaedah ini akan membaca data CSV terus daripada pautan web dan kemudian menukarnya menjadi objek DataFrame.

Ringkasnya, Pandas menyediakan pelbagai kaedah praktikal untuk membaca data halaman web. Bergantung pada keperluan khusus, kita boleh memilih kaedah yang sesuai untuk mendapatkan dan memproses data yang diperlukan. Sama ada membaca data jadual HTML atau membaca terus data CSV, Pandas boleh menyelesaikan tugas dengan mudah. Saya harap contoh kod dalam artikel ini dapat membantu pembaca menggunakan Panda dengan lebih baik untuk membaca data halaman web dan meningkatkan kecekapan dan ketepatan pemprosesan data.

Atas ialah kandungan terperinci Kaedah praktikal untuk membaca data halaman web dengan Panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn