ホームページ  >  記事  >  バックエンド開発  >  pandasでcsvファイルを読み取る方法

pandasでcsvファイルを読み取る方法

小老鼠
小老鼠オリジナル
2023-12-01 16:18:082786ブラウズ

CSV ファイルを読み取る方法には、read_csv() 関数の使用、区切り文字の指定、列名の指定、行のスキップ、欠損値の処理、カスタム データ型などが含まれます。詳細な紹介: 1. read_csv() 関数は、Pandas で CSV ファイルを読み取るために最も一般的に使用される方法です。ローカル ファイル システムまたはリモート URL から CSV データをロードし、DataFrame オブジェクトを返すことができます; 2. 区切り文字を指定します. デフォルトでは、read_csv() 関数は CSV ファイルなどの区切り文字としてカンマを使用します。

pandasでcsvファイルを読み取る方法

このチュートリアルのオペレーティング システム: Windows 10 システム、Python バージョン 3.11.4、Dell G3 コンピューター。

Pandas は、データ サイエンスと機械学習の分野で広く使用されている強力なデータ処理および分析ツールです。さまざまな種類のデータ ファイルを読み取り、処理するための、強力でありながら使いやすいメソッドを多数提供します。その中でもCSVファイルの読み込みと処理はPandasの重要な機能です。

一般的に使用される読み取り方法とテクニック

まず、Pandas ライブラリをインストールする必要があります。 Pandas をインストールするには、ターミナルまたはコマンド プロンプトで pip コマンドを使用して次のコマンドを実行します。

pip install pandas

インストールが完了したら、Python スクリプトに Pandas ライブラリをインポートし、CSV ファイルの読み取りを開始できます。

import pandas as pd

Pandas には、CSV ファイルを読み取るための複数の方法が用意されています。一般的に使用される方法をいくつか紹介します。

1. read_csv() 関数を使用する

read_csv() 関数は、Pandas で CSV ファイルを読み取るために最も一般的に使用される方法です。ローカル ファイル システムまたはリモート URL から CSV データをロードし、DataFrame オブジェクトを返すことができます。

df = pd.read_csv('data.csv')

上記のコードは、現在の作業ディレクトリにある data.csv ファイルからデータを読み取り、df という名前の DataFrame オブジェクトに保存します。 CSV ファイルが別のディレクトリにある場合は、完全なファイル パスを指定できます。

2. 区切り文字の指定

デフォルトでは、read_csv() 関数は CSV ファイルの区切り文字としてカンマを使用します。 CSV ファイルで他の区切り文字が使用されている場合は、sep パラメータを使用してそれらを指定できます。

df = pd.read_csv('data.csv', sep=';')

上記のコードは、セミコロンを区切り文字として使用して CSV ファイルを読み取ります。

3. 列名の指定

CSV ファイルに列名がない場合、または列名が要件を満たしていない場合は、names パラメーターを使用してカスタム列名を指定できます。

df = pd.read_csv('data.csv', names=['column1', 'column2', 'column3'])

上記のコードは、カスタム列名を使用して CSV ファイルを読み取ります。

4. 行のスキップ

CSV ファイルの最初の行または最初の数行は無関係な情報である場合があり、これらの行は Skiprows パラメーターを使用してスキップできます。

df = pd.read_csv('data.csv', skiprows=3)

上記のコードは、CSV ファイルの最初の 3 行をスキップし、後続のデータを読み取ります。

5. 欠損値の処理

CSV ファイルには欠損値が存在する可能性があり、na_values パラメーターを使用して欠損値の表現を指定できます。

df = pd.read_csv('data.csv', na_values=['NA', 'NaN'])

上記のコードは、すべての「NA」と「NaN」を欠損値として識別します。

6. カスタム データ型

CSV ファイルの一部の列を特定のデータ型で処理する必要がある場合があります。dtype パラメーターを使用して各列のデータ型を指定できます。

df = pd.read_csv('data.csv', dtype={'column1': int, 'column2': float})

上記のコードは、column1 のデータ型を整数に設定し、column2 のデータ型を浮動小数点に設定します。

上記は、Pandas で CSV ファイルを読み取るために一般的に使用されるいくつかの方法とテクニックです。これらの手法を柔軟に適用することで、さまざまな種類のCSVファイルを簡単に読み込んで加工することができ、さらなるデータ分析や加工を行うことができます。

以上がpandasでcsvファイルを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。