ホームページ >バックエンド開発 >Python チュートリアル >pandasを使った一連のデータ処理

pandasを使った一連のデータ処理

coldplay.xixi
coldplay.xixi転載
2020-09-15 16:10:372360ブラウズ

pandasを使った一連のデータ処理

関連する学習の推奨事項: python チュートリアル

##Python では、今日から新しい A common の導入を開始します。使用されるコンピューティング ツール ライブラリは、有名な

Pandas です。

Pandas の正式名は Python Data Analysis Library で、Numpy

に基づく 科学技術コンピューティング ツールです。最大の特徴は構造化データをデータベースの表を操作するのと同じように操作できることであり、多くの複雑で高度な操作をサポートしており、Numpyの強化版とも言えます。 CSV または Excel テーブルから完全なデータを簡単に構築でき、多くのテーブル レベルのバッチ データ計算インターフェイスをサポートします。

を使用したインストールほとんどすべての Python パッケージと同様に、panda も pip を介してインストールできます。 Anaconda パッケージをインストールしていれば、numpy や pandas などのライブラリも自動的にインストールされていますが、インストールしていなくても、コマンド 1 行でインストールが完了します。
pip install pandas复制代码

Numpy と同様に、パンダを使用するときは通常、エイリアスを付けます。パンダのエイリアスは pd です。したがって、パンダの使用規則は次のとおりです。

import pandas as pd复制代码
この行を実行してもエラーが発生しない場合は、パンダがインストールされていることを意味します。一般に pandas と一緒に使用されるパッケージが他に 2 つあり、その 1 つは同じく Scipy と呼ばれる科学計算パッケージであり、もう 1 つは Matplotlib と呼ばれるデータを視覚化するためのツール パッケージです。 pip を使用してこれら 2 つのパッケージを一緒にインストールすることもできます。以降の記事で、これら 2 つのパッケージを使用する場合の使用方法を簡単に紹介します。

pip install scipy matplotlib复制代码

シリーズ インデックスパンダでは最も一般的に使用される 2 つのデータ構造があります。1 つはシリーズで、もう 1 つはシリーズです。 1 つはデータフレームです。このうち、series は 1 次元のデータ構造

であり、単純に 1 次元の配列または 1 次元のベクトルとして理解できます。 DataFrame は本来、2 次元のデータ構造であり、テーブルまたは 2 次元の配列として理解できます。

まず Series について見てみましょう。Series に保存されるデータには主に 2 つのタイプがあります。1 つはデータのセットで構成される配列で、もう 1 つはこのデータのセットのインデックスまたはラベルです。シリーズを作成し、理解するために印刷するだけです。

ここでは、4 つの要素を含むシリーズをランダムに作成し、それを印刷しました。印刷されたデータには 2 つの列があることがわかります。2 番目の列は、作成時に入力したデータです。最初の列はそのインデックス
です。作成時にインデックスを具体的に指定しなかったため、パンダは行番号インデックスを自動的に作成します。シリーズ タイプの値とインデックス プロパティを通じて、シリーズに保存されたデータとインデックスを表示できます:

ここで出力される values 出力は Numpy 配列 . 前述したように、pandas は Numpy に基づいて開発された科学計算ライブラリであるため、これは驚くべきことではありません。 Numpy はその基礎となる層です。出力されたインデックス情報から、これが Range タイプのインデックス、その範囲とステップ サイズであることがわかります。

インデックスは Series 構築関数のデフォルト パラメータです。これを入力しない場合は、デフォルトで Range インデックスが生成されます。これは、実際には ## の行番号 です。 # データ。データのインデックスを自分で指定することもできます。たとえば、先ほどのコードにindexパラメータを追加すると、インデックスを自分で指定することができます。

文字型のインデックスを指定すると、index によって返される結果は RangeIndex ではなく Index になります。 pandas は内部的に数値インデックスと文字インデックスを区別することに注意してください。

インデックスを使用すると、要素を検索するために自然に使用されます。

インデックスを配列の添え字として直接使用することもできますが、この 2 つの効果は同じです。それだけでなく、インデックス配列も使用でき、複数のインデックスの値を直接クエリできます。

さらに、シリーズを作成するときは、
重複したインデックスも許可されます

。同様に、インデックス クエリを使用すると、複数の結果が得られます。

# それだけでなく、Numpy のような bool インデックスも引き続きサポートされています:

シリーズ計算

シリーズは多くの種類の計算をサポートしており、
加算、減算、乗算、除算の演算を直接使用できます。シリーズ全体の操作

:

Numpy の演算関数 を使用して複雑な数学演算を実行することもできますが、この計算の結果は Numpy 配列になります。

#シリーズにはインデックスがあるため、dict
を使用してインデックスがシリーズにあるかどうかを判断することもできます

:

Series にはインデックスと値があります。実際、ストレージ構造は dict と同じであるため、seires は dict による初期化もサポートしています。 ##これを通して このようにして作成された順序は、辞書にキーが格納される順序になります。作成時に
index

を指定することで、その順序を制御できます。

インデックスを指定するときに辞書に現れなかった追加のキーを渡しました。対応する値が辞書内に見つからないため、Series はそれを NAN として記録します(数値ではありません)。これは、不正な値または null 値 として理解できます。特徴やトレーニング データを処理するとき、いくつかのエントリを持つデータの特定の特徴が空白である状況によく遭遇します。パンダを使用できます。isnull と notnull空き状況をチェックする機能。

もちろん、Series には isnull 関数もあり、これを呼び出すこともできます。

最後に、シリーズの
インデックスも変更できます。

、新しい値を直接割り当てることができます:

#概要

pandas のシリーズの中核は

レイヤーですNumpy 1 次元配列 のカプセル化を行い、インデックス付けなどの関連関数を追加します。したがって、DataFrame は実際には Series 配列をカプセル化したものであり、さらにデータ処理関連の関数が追加されていると想像できます。核となる構造を理解したら、これらの API を 1 つずつ覚えるよりも、panda の機能全体を理解する方がはるかに役立ちます。

pandas は

Python データ処理 に最適なツールです。資格のあるアルゴリズム エンジニアとして、これはほぼ必須の知識です。これは、機械学習や機械学習に Python を使用するための基礎でもあります。深い学習。調査データによると、アルゴリズム エンジニアの日常業務の 70% はデータ処理に費やされており、実際にモデルの実装とトレーニングに使用されているのは 30% 未満です。したがって、データ処理の重要性がわかりますが、業界で開発したい場合は、モデルを学ぶだけでは十分ではありません。 この記事では、組版に mdnice を使用しています

プログラミングについてさらに詳しく知りたい場合は、
php training
列に注目してください。

以上がpandasを使った一連のデータ処理の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjuejin.imで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。