ホームページ >バックエンド開発 >Python チュートリアル >Pythonでのデータ分析にPandasを使用する方法は?
Pandasは、Numpyの上に構築された強力なPythonライブラリであり、高性能で使いやすいデータ構造とデータ分析ツールを提供します。これは、Pythonの多くのデータサイエンスワークフローの基礎です。データ分析にPandasを効果的に使用するには、通常、次の手順に従います。そうでない場合は、端末またはコマンドプロンプトを開き、を入力します
。 as pd
パーツは、簡単に入力するための名前を短縮するための一般的な慣習です。
データの摂取:パンダは、さまざまなソースからのデータの読み取りに優れています。一般的な関数には以下が含まれます:
pd.read_csv( 'file.csv')
:csv file。 pd.read_excel( 'file.xlsx')
:excels from and exherファイル。 pd.read_json( 'file.json')
:jsonファイルからデータを読み取ります。 pd.read_sql( 'query'、connection)
:SQLデータベースからのデータを読み取ります。辞書、リストのリスト、またはnumpy配列。これは、ゼロからデータフレームを作成したり、既存のデータ構造を操作したりするのに役立ちます。 .info()
:データ型や非ヌル値を含むデータフレームの要約を提供します。データフレームの寸法(行、列)。データフレームから直接プロットを作成するためのMatplotlibとSeaborn。データ操作のための最も一般的なPandas関数? Pandasは、データ操作のための豊富な機能セットを提供します。最も頻繁に使用されるものの一部は次のとおりです。
選択とインデックス作成:
[]
:列ラベルまたはブールインデックスを使用した基本選択。 df ['column_name']
単一の列を選択します。 df [boolean_condition]
条件に基づいて行を選択します。:ラベルベースのインデックス作成ラベルで行と列を選択できます。 <code> df.loc [row_label、column_label]
:整数ベースのインデックス。整数位置で行と列を選択できます。 <code> df.iloc [row_index、column_index]
データクリーニング:
dropna()
:欠落している値を持つ列を削除します。 (例、平均、中央値)。 .replace()
:値を他の値に置き換えます。列。列。集約: .sum()
、 .mean()
、 .max()
、 .min()
、 .count()
、 .std統計。欠落データ(<code> dropna()
)で行を削除するか、適切な値( .fillna()
- 平均、中央値、モード、または定数)を埋めるか、より洗練された補完技術を使用するか、またはより洗練された補完技術を使用するかどうかを決定します(例えば、Scikit-LearnのIputersの使用)。 .astype()
を使用して、データ型(たとえば、文字列、数字、日付の日付)を変換します。誤ったデータ型は分析を妨げる可能性があります。
.drop_duplicates()
これには、列の組み合わせ、比率の作成、または文字列からの情報の抽出が含まれる場合があります。 chunksize
code> pd.read_csv()のような技術を使用することを検討してください。計算。以上がPythonでのデータ分析にPandasを使用する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。