パンダで CSV ファイルを読み取るための実践的なヒントと注意事項
概要:
データ処理と分析の重要性が高まるにつれ、パンダはデータ サイエンスの分野で最もよく使用される Python ライブラリの 1 つ。 Pandas は豊富なデータ分析および処理機能を提供し、CSV (カンマ区切り値) が一般的なデータ保存形式です。この記事では、pandas で CSV ファイルを読み取るための実践的なヒントと注意点を紹介します。
import pandas as pd
read_csv()
関数を使用できます。 。デフォルトでは、この関数は区切り文字としてカンマを受け取ります。 data = pd.read_csv('data.csv')
上記のコードは、「data.csv」という名前のファイルを読み取り、「data」という名前の変数に保存します。ファイルとコードが同じディレクトリにない場合は、完全なファイル パスを指定する必要があります。
head()
関数を使用すると、データの最初の数行を表示できます。デフォルト値は最初の 5 行です。 data.head()
さらに、tail()
関数を使用して、データの最後の数行を表示できます。
read_csv()
関数は区切り文字としてカンマを使用します。ただし、実際のアプリケーションでは、データにタブやセミコロンなどの他の区切り文字が使用される場合があります。区切り文字は sep
パラメータで指定できます。 data = pd.read_csv('data.csv', sep=' ') # 使用制表符作为分隔符
CSV ファイルはさまざまなエンコード方法を使用して保存される場合があり、データを正しく読み取るために encoding
パラメーターの指定が必要になる場合があります。
data = pd.read_csv('data.csv', encoding='utf-8')
na_values
パラメーターを使用して、どの値が欠落していると見なすかを指定できます。 data = pd.read_csv('data.csv', na_values=['NA', 'NULL'])
column1 = data['column_name'] # 使用列名选择 column2 = data.iloc[:, 0] # 使用索引号选择
skiprows
パラメータを使用すると、指定した行数をスキップできます。 data = pd.read_csv('data.csv', skiprows=10) # 跳过前10行
nrows
パラメータを使用して、読み取る行数を制限することもできます。
data = pd.read_csv('data.csv', nrows=100) # 只读取前100行
parse_dates
パラメーターを使用すると、1 つまたは複数の列を日付と時刻の型に解析できます。 data = pd.read_csv('data.csv', parse_dates=['date_column']) # 将名为'date_column'的列解析为日期时间类型
skiprows
パラメータを使用してスキップできます。 data = pd.read_csv('data.csv', skiprows=1) # 跳过首行
header
パラメーターを使用してデータにヘッダーを手動で追加できます。セット。 header_list = ['column1', 'column2', 'column3'] # 标题列表 data = pd.read_csv('data.csv', header=None, names=header_list) # 添加标题
上記は、パンダが CSV ファイルを読み取る際の実用的なヒントと注意事項です。これらのヒントがデータのより適切な処理と分析に役立つことを願っています。 pandas を使用して CSV ファイルを読み取ると、データをメモリに簡単にロードし、pandas の強力なデータ処理機能を利用してさらなる分析と視覚化を行うことができます。
(注: 上記のコード例は参考用であり、実際の状況に応じて特定のアプリケーションを調整できます。)
以上がpandas で CSV ファイルを読み取るための実践的なヒントと注意事項の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。