ホームページ  >  記事  >  バックエンド開発  >  Pandas 初心者ガイド: HTML テーブル データの読み取りのヒント

Pandas 初心者ガイド: HTML テーブル データの読み取りのヒント

WBOY
WBOYオリジナル
2024-01-09 08:10:341524ブラウズ

Pandas 初心者ガイド: HTML テーブル データの読み取りのヒント

初心者ガイド: Pandas を使用して HTML テーブル データを読み取る方法

はじめに:
Pandas は、データ処理と分析のための強力な Python ライブラリです。柔軟なデータ構造とデータ分析ツールを提供し、データ処理をよりシンプルかつ効率的にします。 Pandas は、CSV、Excel、その他の形式のデータを処理できるだけでなく、HTML テーブル データを直接読み取ることもできます。この記事では、Pandas ライブラリを使用して HTML テーブル データを読み取る方法を紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。

ステップ 1: Pandas ライブラリをインストールする
始める前に、Python 環境に Pandas ライブラリがインストールされていることを確認してください。まだインストールされていない場合は、次のコマンドを使用してインストールできます。

pip install pandas

ステップ 2: HTML テーブル構造を理解する
Pandas を使用して HTML テーブル データを読み取る前に、HTML テーブル データの構造を理解する必要があります。 HTML テーブル。 HTML テーブルはテーブル タグ (table) で始まり、各行は行タグ (tr) で囲まれ、各セルは列タグ (td) で囲まれます。以下は、単純な HTML テーブルの例です。

<table>
  <tr>
    <th>姓名</th>
    <th>年龄</th>
    <th>性别</th>
  </tr>
  <tr>
    <td>小明</td>
    <td>20</td>
    <td>男</td>
  </tr>
  <tr>
    <td>小红</td>
    <td>22</td>
    <td>女</td>
  </tr>
</table>

ステップ 3: Pandas を使用して HTML テーブル データを読み取る
Pandas には、HTML ファイルまたは URL からテーブル データを直接読み取ることができる read_html() 関数が用意されています。以下は、HTML テーブル データを読み取るためのサンプル コードです。

import pandas as pd

# 读取本地HTML文件
df = pd.read_html('your_filepath.html')[0]
print(df)

# 从URL中读取HTML表格数据
url = 'http://your_url.com'
df = pd.read_html(url)[0]
print(df)

上記のコードでは、read_html() 関数を通じて HTML テーブル データを読み取り、Pandas DataFrame オブジェクトに保存します。 [0] は最初のテーブルのみを読み取ることを意味します。ページ内に複数のテーブルがある場合は、必要に応じて読み取るテーブル インデックスを選択できます。

ステップ 4: HTML テーブル データの処理と分析
HTML テーブル データが正常に読み取られたら、Pandas が提供するさまざまな関数とメソッドを使用してデータを処理および分析できます。一般的に使用されるデータ操作の例を次に示します。

  1. テーブルの最初の数行を表示

    print(df.head())
  2. テーブルの列名を表示

    print(df.columns)
  3. テーブルの行数と列数の表示

    print(df.shape)
  4. #データのフィルタリング

    # 筛选年龄大于等于20岁的数据
    filtered_data = df[df['年龄'] >= 20]
    print(filtered_data)

  5. Statistics

    # 统计年龄的平均值、最大值和最小值
    print(df['年龄'].mean())
    print(df['年龄'].max())
    print(df['年龄'].min())

  6. データの並べ替え

    # 按照年龄从大到小对数据进行排序
    sorted_data = df.sort_values('年龄', ascending=False)
    print(sorted_data)

上記はサンプル コードのほんの一部ですが、Pandas は非常に豊富なデータ処理と分析を提供します。特定のニーズに応じて、関連する関数とメソッドを使用できます。

概要:

この記事では、Pandas ライブラリを使用して HTML テーブル データを読み取る方法を紹介し、具体的なコード例を示します。これらの方法を学び、マスターすることで、初心者でも HTML テーブル データをより簡単に処理および分析でき、データ処理効率を向上させることができます。この記事の紹介が、HTML テーブル データを読み取るために Pandas を使用する必要がある初心者に役立つことを願っています。

以上がPandas 初心者ガイド: HTML テーブル データの読み取りのヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。