ホームページ >バックエンド開発 >Python チュートリアル >pandas で CSV ファイルを読み取るための実践的なヒントと注意事項

pandas で CSV ファイルを読み取るための実践的なヒントと注意事項

WBOY
WBOYオリジナル
2024-01-13 11:20:071391ブラウズ

pandas で CSV ファイルを読み取るための実践的なヒントと注意事項

パンダで CSV ファイルを読み取るための実践的なヒントと注意事項

概要:
データ処理と分析の重要性が高まるにつれ、パンダはデータ サイエンスの分野で最もよく使用される Python ライブラリの 1 つ。 Pandas は豊富なデータ分析および処理機能を提供し、CSV (カンマ区切り値) が一般的なデータ保存形式です。この記事では、pandas で CSV ファイルを読み取るための実践的なヒントと注意点を紹介します。

  1. 関連ライブラリとデータのインポート
    開始する前に、pandas ライブラリが正しくインストールされていることを確認してください。次のコードを使用してライブラリをインポートできます。
import pandas as pd
  1. CSV ファイルの読み取り
    CSV ファイルを読み取るには、pandas の read_csv() 関数を使用できます。 。デフォルトでは、この関数は区切り文字としてカンマを受け取ります。
data = pd.read_csv('data.csv')

上記のコードは、「data.csv」という名前のファイルを読み取り、「data」という名前の変数に保存します。ファイルとコードが同じディレクトリにない場合は、完全なファイル パスを指定する必要があります。

  1. データの表示
    CSV ファイルを読み取った後の一般的な操作は、データの最初の数行またはデータ セット全体を表示することです。 head() 関数を使用すると、データの最初の数行を表示できます。デフォルト値は最初の 5 行です。
data.head()

さらに、tail() 関数を使用して、データの最後の数行を表示できます。

  1. 区切り文字とエンコード
    デフォルトでは、read_csv() 関数は区切り文字としてカンマを使用します。ただし、実際のアプリケーションでは、データにタブやセミコロンなどの他の区切り文字が使用される場合があります。区切り文字は sep パラメータで指定できます。
data = pd.read_csv('data.csv', sep='    ')  # 使用制表符作为分隔符

CSV ファイルはさまざまなエンコード方法を使用して保存される場合があり、データを正しく読み取るために encoding パラメーターの指定が必要になる場合があります。

data = pd.read_csv('data.csv', encoding='utf-8')
  1. 欠損値の処理
    実際のデータでは、欠損値が頻繁に発生します。 pandas は、デフォルトで欠損値を NaN としてマークします。ファイルを読み取るときに、na_values パラメーターを使用して、どの値が欠落していると見なすかを指定できます。
data = pd.read_csv('data.csv', na_values=['NA', 'NULL'])
  1. 特定のデータ列を選択
    場合によっては、データの一部のみが必要になる場合があります。特定のデータ列を列名またはインデックス番号で選択できます。
column1 = data['column_name']  # 使用列名选择
column2 = data.iloc[:, 0]  # 使用索引号选择
  1. 行をスキップして読み取る行数を選択する
    場合によっては、いくつかの行をスキップしたり、ファイルの一部だけを読み取る必要がある場合があります。 skiprows パラメータを使用すると、指定した行数をスキップできます。
data = pd.read_csv('data.csv', skiprows=10)  # 跳过前10行

nrows パラメータを使用して、読み取る行数を制限することもできます。

data = pd.read_csv('data.csv', nrows=100)  # 只读取前100行
  1. 日付と時刻の処理
    日付と時刻を含む CSV ファイルを読み取るとき、pandas はそれを日付/時刻形式に自動的に変換できます。 parse_dates パラメーターを使用すると、1 つまたは複数の列を日付と時刻の型に解析できます。
data = pd.read_csv('data.csv', parse_dates=['date_column'])  # 将名为'date_column'的列解析为日期时间类型
  1. 特定の行数のファイル ヘッダーをスキップする
    CSV ファイルの最初の行に実際のデータではなくヘッダーが含まれる場合があります。ヘッダー行は、skiprows パラメータを使用してスキップできます。
data = pd.read_csv('data.csv', skiprows=1)  # 跳过首行
  1. ヘッダーを手動で処理する
    CSV ファイルにヘッダー行がない場合は、header パラメーターを使用してデータにヘッダーを手動で追加できます。セット。
header_list = ['column1', 'column2', 'column3']  # 标题列表
data = pd.read_csv('data.csv', header=None, names=header_list)  # 添加标题

上記は、パンダが CSV ファイルを読み取る際の実用的なヒントと注意事項です。これらのヒントがデータのより適切な処理と分析に役立つことを願っています。 pandas を使用して CSV ファイルを読み取ると、データをメモリに簡単にロードし、pandas の強力なデータ処理機能を利用してさらなる分析と視覚化を行うことができます。

(注: 上記のコード例は参考用であり、実際の状況に応じて特定のアプリケーションを調整できます。)

以上がpandas で CSV ファイルを読み取るための実践的なヒントと注意事項の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。