>백엔드 개발 >파이썬 튜토리얼 >Pandas 초보자 가이드: HTML 테이블 데이터 읽기 팁

Pandas 초보자 가이드: HTML 테이블 데이터 읽기 팁

WBOY
WBOY원래의
2024-01-09 08:10:341566검색

Pandas 초보자 가이드: HTML 테이블 데이터 읽기 팁

초보자 가이드: Pandas로 HTML 표 형식 데이터를 읽는 방법

소개:
Pandas는 데이터 처리 및 분석을 위한 강력한 Python 라이브러리입니다. 유연한 데이터 구조와 데이터 분석 도구를 제공하여 데이터 처리를 더욱 간단하고 효율적으로 만듭니다. Pandas는 CSV, Excel 및 기타 형식의 데이터를 처리할 수 있을 뿐만 아니라 HTML 테이블 데이터를 직접 읽을 수도 있습니다. 이 기사에서는 Pandas 라이브러리를 사용하여 HTML 테이블 데이터를 읽는 방법을 소개하고 초보자가 빠르게 시작할 수 있도록 구체적인 코드 예제를 제공합니다.

1단계: Pandas 라이브러리 설치
시작하기 전에 Python 환경에 Pandas 라이브러리가 설치되어 있는지 확인하세요. 아직 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다.

pip install pandas

2단계: HTML 테이블 구조 이해
Pandas를 사용하여 HTML 테이블 데이터를 읽기 전에 HTML 테이블의 구조를 이해해야 합니다. HTML 테이블은 테이블 태그(table)로 시작하고, 각 행은 행 태그(tr)로 래핑되며, 각 셀은 열 태그(td)로 래핑됩니다. 다음은 간단한 HTML 테이블 예입니다.

<table>
  <tr>
    <th>姓名</th>
    <th>年龄</th>
    <th>性别</th>
  </tr>
  <tr>
    <td>小明</td>
    <td>20</td>
    <td>男</td>
  </tr>
  <tr>
    <td>小红</td>
    <td>22</td>
    <td>女</td>
  </tr>
</table>

3단계: Pandas를 사용하여 HTML 테이블 데이터 읽기
Pandas는 HTML 파일이나 URL에서 직접 테이블 데이터를 읽을 수 있는 read_html() 함수를 제공합니다. 다음은 HTML 테이블 데이터를 읽는 샘플 코드입니다.

import pandas as pd

# 读取本地HTML文件
df = pd.read_html('your_filepath.html')[0]
print(df)

# 从URL中读取HTML表格数据
url = 'http://your_url.com'
df = pd.read_html(url)[0]
print(df)

위 코드에서는 read_html() 함수를 통해 HTML 테이블 데이터를 읽고 이를 Pandas DataFrame 객체에 저장합니다. [0]은 첫 번째 테이블만 읽는다는 의미입니다. 페이지에 여러 테이블이 있는 경우 필요에 따라 읽을 테이블 인덱스를 선택할 수 있습니다.

4단계: HTML 테이블 데이터 처리 및 분석
HTML 테이블 데이터가 성공적으로 읽혀지면 Pandas에서 제공하는 다양한 기능과 방법을 사용하여 데이터를 처리하고 분석할 수 있습니다. 다음은 일반적으로 사용되는 몇 가지 데이터 조작 예입니다.

  1. 테이블의 처음 몇 행 보기

    print(df.head())
  2. 테이블의 열 이름 보기

    print(df.columns)
  3. 테이블의 행과 열 수 보기

    print(df.shape)
  4. Filter data

    # 筛选年龄大于等于20岁的数据
    filtered_data = df[df['年龄'] >= 20]
    print(filtered_data)
  5. Statistics

    # 统计年龄的平均值、最大值和最小值
    print(df['年龄'].mean())
    print(df['年龄'].max())
    print(df['年龄'].min())
  6. Sort data

    # 按照年龄从大到小对数据进行排序
    sorted_data = df.sort_values('年龄', ascending=False)
    print(sorted_data)

위 내용은 Pandas가 제공하는 매우 풍부한 데이터 처리 및 분석 기능 중 일부입니다. 귀하의 특정 요구에 따른 것.

요약:
이 글에서는 Pandas 라이브러리를 사용하여 HTML 테이블 데이터를 읽는 방법을 소개하고 구체적인 코드 예제를 제공합니다. 이러한 방법을 익히고 익히면 초보자도 HTML 테이블 데이터를 보다 쉽게 ​​처리하고 분석할 수 있으며 데이터 처리 효율성을 높일 수 있습니다. 이 기사의 소개가 HTML 테이블 데이터를 읽기 위해 Pandas를 사용해야 하는 초보자에게 도움이 되기를 바랍니다.

위 내용은 Pandas 초보자 가이드: HTML 테이블 데이터 읽기 팁의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.