ホームページ  >  記事  >  バックエンド開発  >  Python データ分析用のサードパーティ ライブラリとは何ですか?

Python データ分析用のサードパーティ ライブラリとは何ですか?

青灯夜游
青灯夜游オリジナル
2021-01-28 16:30:2223083ブラウズ

Python データ分析用のサードパーティ ライブラリは次のとおりです: 1. Numpy、2. Pandas、3. SciPy、4. Matplotlib、5. Scikit-Learn、6. Keras、7. Gensim、8. Scrapy 。

Python データ分析用のサードパーティ ライブラリとは何ですか?

#このチュートリアルの動作環境: Windows 7 システム、Python 3 バージョン、Dell G3 コンピューター。

Python は、数 K から数 T 規模のデータを扱うことができ、開発効率と保守性が高く、高い汎用性とクロスプラットフォーム性能を備えた一般的なデータ処理ツールです。 Python はデータ分析に使用できますが、データ分析に Python 独自のライブラリのみに依存するには一定の制限があり、分析とマイニングの機能を強化するにはサードパーティの拡張ライブラリをインストールする必要があります。

Python データ分析のためにインストールする必要があるサードパーティの拡張ライブラリには、Numpy、Pandas、SciPy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy などがあります。

1. Pandas

Pandas は、Python 用の強力かつ柔軟なデータ分析および探索ツールであり、Series や DataFrame などの高度なデータ構造とツールが含まれています。 Python を作成できます データの処理は非常に高速かつ簡単です。

Pandas は Python 用のデータ分析パッケージです。Pandas はもともと財務データ分析ツールとして開発されたため、時系列分析を適切にサポートします。

Pandas は、データ分析タスクを解決するために作成されました。Pandas には、大規模なデータ セットを効率的に操作するために必要なツールを提供するために、多数のライブラリといくつかの標準データ モデルが組み込まれています。 Pandas は、データを迅速かつ便利に処理するための関数とメソッドを多数提供します。 Pandas には、データ分析を迅速かつ簡単に行うための高度なデータ構造とツールが含まれています。 Numpy 上に構築されているため、Numpy アプリケーションが簡単になります。

自動または明示的なデータ配置をサポートする、座標軸を備えたデータ構造。これにより、データ構造の不整合や、異なるインデックスを使用した異なるソースからのデータの処理によって引き起こされる一般的なエラーが防止されます。

Pandas を使用すると、欠落データの処理が簡単になります。

一般的なデータベース (SQL ベースのデータベースなど) をマージします

Pandas は、データの明確化と整理に最適なツールです。

2. Numpy

Python は配列関数を提供しません。Numpy は配列サポートとそれに対応する効率的な処理関数を提供できます。これは Python データ分析の基礎でもありますSciPy や Pandas と同様、データ処理および科学技術計算ライブラリの最も基本的な関数ライブラリであり、そのデータ型は Python データ分析に非常に役立ちます。

Numpy は、ndarray と ufunc という 2 つの基本オブジェクトを提供します。 ndarray は単一のデータ型を格納する多次元配列であり、ufunc は配列を処理できる関数です。 Numpy の機能:

  • N 次元配列は、メモリを迅速かつ効率的に使用する多次元配列であり、ベクトル化された数学演算を提供します。

  • ループを使用せずに、配列全体のデータに対して標準的な数学演算を実行できます。

  • 低水準言語 (C/C) で書かれた外部ライブラリにデータを転送するのは非常に便利です。また、外部ライブラリがデータを返すのにも便利です。 Numpy 配列の形式。

Numpy は高度なデータ分析機能を提供しませんが、Numpy 配列と配列指向の計算をより深く理解することができます。

#一般以np作为numpy的别名
import numpy as np
#创建数组
a = np.array([2,1,0,5])
print(a)
print(a[:3])
print(a.min())
a.sort()
b = np.array([1,2,3],[4,5,6])
print(b*b)

3. Matplotlib

Matplotlib は強力なデータ視覚化ツールおよび描画ライブラリであり、主にデータ チャートの描画に使用される Python ライブラリであり、さまざまな視覚化ツールを提供します。グラフィック コマンド フォントとシンプルなインターフェイスにより、ユーザーはグラフィック形式を簡単に習得し、さまざまなビジュアル グラフィックを描画できます。

Matplotlib は Python の視覚化モジュールで、折れ線グラフ、円グラフ、ヒストグラム、その他の本格的なグラフィックを簡単に作成できます。

Matplotlib を使用すると、作成したグラフのあらゆる側面をカスタマイズできます。すべてのオペレーティング システムでさまざまな GUI バックエンドをサポートし、PDF SVG JPG PNG BMP GIF などの一般的なベクトル グラフィックスやグラフィックス テストにグラフィックスを出力できます。データ描画を通じて、退屈な数字を人々が簡単に受け入れられるものに変換できます。

Matplotlib は、Numpy をベースにした Python パッケージのセットです。このパッケージは、主に統計グラフィックの描画に使用される、コマンド付きデータ描画ツールを提供します。

Matplotlib には、さまざまなプロパティのカスタマイズを可能にする一連のデフォルト設定があります。Matplotlib のすべてのデフォルト プロパティ (画像サイズ、1 インチあたりのドット数、線幅、色とスタイル、サブプロット、軸、メッシュ プロパティ) を制御できます。テキストとテキストのプロパティ。

4. SciPy

SciPy は、科学計算におけるさまざまな標準的な問題領域を解決するために特別に設計されたパッケージのコレクションであり、最適化、線形代数、積分などの機能が含まれています、内挿、フィッティング、特殊関数、高速フーリエ変換、信号処理と画像処理、常微分方程式の解法、および科学と工学で一般的に使用されるその他の計算は、データ分析とマイニングに非常に役立ちます。

Scipy は、科学および工学向けに特別に設計された便利で使いやすい Python パッケージで、統計、最適化、統合、線形代数モジュール、フーリエ変換、信号および画像処理、常微分方程式が含まれています。ソルバーなどScipy は Numpy に依存しており、数値積分や最適化など、多くのユーザーフレンドリーで効率的な数値ルーチンを提供します。

Python には、Matlab と同じくらい強力な数値計算ツールキットである Numpy、描画ツールキットである Matplotlib、科学計算ツールキットである Scipy があります。

Python はデータを直接処理できますが、Pandas は SQL とほぼ同じようにデータを制御できます。 Matplotlib はデータとデメリットを視覚化して、データを迅速に理解することができます。 Scikit-Learn は機械学習アルゴリズムのサポートを提供し、Theano はプログレッション ラーニング フレームワークを提供します (CPU アクセラレーションも使用可能)。

5. Keras

Keras は、深層学習ライブラリ、人工ニューラル ネットワーク、および深層学習モデルであり、Theano に基づいており、Numpy と Scipy に依存しています。通常のニューラル ネットワークと、言語処理、画像認識、オートエンコーダー、リカレント ニューラル ネットワーク、再帰的監査ネットワーク、畳み込みニューラル ネットワークなどのさまざまな深層学習モデルの構築に使用されます。

6. Scikit-Learn

Scikit-Learn は、一般的に使用される Python 用の機械学習ツールキットで、完全な機械学習ツールボックスを提供し、データの前処理と分類をサポートします。 、回帰、クラスタリング、予測およびモデル分析、および Numpy、Scipy、Matplotlib などに依存するその他の強力な機械学習ライブラリ。

Scikit-Learn は、BSD オープンソース ライセンスに基づく Python 機械学習モジュールです。

Scikit-Learn のインストールには、Numpy Scopy Matplotlib などのモジュールが必要です。Scikit-Learn の主な機能は、分類、回帰、クラスタリング、データ次元削減、モデル選択、データ前処理の 6 つの部分に分かれています。

Scikit-Learn には、分類用の虹彩と数字のデータ セット、回帰分析用のボストン住宅価格データ セットなど、いくつかの古典的なデータ セットが付属しています。データ セットはディクショナリ構造であり、データは .data メンバーに格納され、出力ラベルは .target メンバーに格納されます。 Scikit-Learn は Scipy 上に構築されており、統一されたインターフェイスを通じて一般的に使用される機械学習アルゴリズムのセットを提供します。Scikit-Learn は、一般的なアルゴリズムをデータセットに実装するのに役立ちます。

Scikit-Learn には、自然言語処理用の Nltk、Web サイト データ スクレイピング用の Scrappy、Web マイニング用の Pattern、深層学習用の Theano などのいくつかのライブラリもあります。

7. Scrapy

Scrapy はクローラーに特化したツールで、URL の読み取り、HTML の解析、データの保存などの機能を備えています。非同期ネットワークライブラリ ネットワーク通信を処理するためのアーキテクチャは明確であり、さまざまなミドルウェアインターフェイスが含まれており、さまざまなニーズに柔軟に対応できます。

8. Gensim

Gensim はテキスト トピック モデルの作成に使用されるライブラリで、言語タスクの処理によく使用され、TF-IDF、LSA、LDA およびWord2Vec: ストリーミング トレーニングを含むさまざまなトピック モデル アルゴリズムをサポートし、類似性の計算や情報検索などのいくつかの一般的なタスク用の API インターフェイスを提供します。

プログラミング関連の知識について詳しくは、プログラミング学習をご覧ください。 !

以上がPython データ分析用のサードパーティ ライブラリとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。