ホームページ  >  記事  >  バックエンド開発  >  データ サイエンスに非常に役立つ 9 つの Python ライブラリ

データ サイエンスに非常に役立つ 9 つの Python ライブラリ

PHPz
PHPz転載
2023-04-17 09:25:08983ブラウズ

この記事では、panda、scikit-learn、matplotlib などのより一般的なライブラリではなく、データ サイエンス タスク用の Python ライブラリをいくつか見ていきます。 panda や scikit-learn などのライブラリは機械学習タスクでよく使用されますが、この分野の他の Python 製品を理解することは常に有益です。

1. Wget

インターネットからデータを抽出することは、データ サイエンティストの重要なタスクの 1 つです。 Wget は、インターネットから非対話型ファイルをダウンロードするために使用できる無料のユーティリティです。 HTTP、HTTPS、および FTP プロトコルに加えて、HTTP のプロキシを介したファイルの取得もサポートしています。非対話型であるため、ユーザーがログインしていなくてもバックグラウンドで動作できます。したがって、次回 Web サイトまたはページ上のすべての画像をダウンロードしたい場合は、wget が役に立ちます。

インストール:

$ pip install wget

例:

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'

2. Pendulum

Python で日付と時刻を扱うときにイライラする人には、Pendulum が最適です。あなた。これは日時操作を簡素化する Python パッケージです。これは、Python のネイティブ クラスの単純な置き換えです。より深い学習についてはドキュメントを参照してください。

インストール:

$ pip install pendulum

例:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3

3. 不均衡学習

各クラスのサンプル数が基本的に同様に、ほとんどの分類アルゴリズムは、データのバランスをとる必要がある場合に最適に機能します。ただし、実際のケースのほとんどは不均衡なデータセットであり、機械学習アルゴリズムの学習フェーズとその後の予測に大きな影響を与えます。幸いなことに、このライブラリはこの問題を解決するように設計されています。これは scikit-learn と互換性があり、scikit-lear-contrib プロジェクトの一部です。次回不均衡なデータセットに遭遇したときにこれを使用してみてください。

インストール:

$ pip install -U imbalanced-learn

# 或者

$ conda install -c conda-forge imbalanced-learn

例:

使用方法と使用例についてはドキュメントを参照してください。

4. FlashText

NLP タスクでは、テキスト データのクリーニングでは、多くの場合、文内のキーワードを置き換えたり、文からキーワードを抽出したりする必要があります。通常、これは正規表現を使用して実行できますが、検索される用語の数が数千に達する場合、これは面倒になる可能性があります。 Python の FlashText モジュールは FlashText アルゴリズムに基づいており、この状況に適した代替手段を提供します。 FlashText の優れた点は、検索語の数に関係なく実行時間が同じであることです。詳細については、こちらをご覧ください。

インストール:

$ pip install flashtext

例:

キーワードの抽出

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']

キーワードの置換

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'
Fuzzywuzzy

5. fuzzywuzzy

#このライブラリの名前は奇妙に聞こえますが、fuzzywuzzy は文字列マッチングに関して非常に便利なライブラリです。文字列一致度やトークン一致度の計算などの操作が簡単に実装でき、異なるデータベースに格納されているレコードの照合も簡単に行えます。

インストール:

$ pip install fuzzywuzzy

例:

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# 简单匹配度

fuzz.ratio("this is a test", "this is a test!")
97

# 模糊匹配度
fuzz.partial_ratio("this is a test", "this is a test!")
 100

さらに興味深い例が GitHub リポジトリにあります。

6. PyFlux

時系列分析は、機械学習の分野で最も一般的な問題の 1 つです。 PyFlux は、時系列問題を扱うために構築された Python のオープン ソース ライブラリです。このライブラリには、ARIMA、GARCH、VAR モデルを含む (ただしこれらに限定されない)、最新の時系列モデルの優れたコレクションが含まれています。つまり、PyFlux は時系列モデリングに対する確率的アプローチを提供します。試してみる価値はあります。

インストール

pip install pyflux

詳細な使用法と例については、公式ドキュメントを参照してください。

7. Ipyvolume

結果の表示もデータ サイエンスの重要な側面です。結果を視覚化できることは大きな利点となります。 IPyvolume は、Jupyter ノートブックで 3D ボリュームとグラフィックス (3D 散布図など) を視覚化できる Python ライブラリであり、必要な構成はほんのわずかです。ただし、まだ 1.0 より前のバージョンの段階です。より適切な比喩で説明すると、次のようになります。IPyvolume の volshow は、matplotlib の imshow が 2 次元配列に役立つのと同じように、3 次元配列に役立ちます。さらに詳しい情報はこちらからご覧いただけます。

pip の使用

$ pip install ipyvolume

Conda/Anaconda の使用

$ conda install -c conda-forge ipyvolume

アニメーション

データ サイエンスに非常に役立つ 9 つの Python ライブラリ

body Draw

データ サイエンスに非常に役立つ 9 つの Python ライブラリ

8. Dash

Dash は、Web アプリケーションを構築するための効率的な Python フレームワークです。 Flask、Plotly.js、React.js に基づいて設計されており、ドロップダウン ボックス、スライダー、チャートなどの多くの最新の UI 要素にバインドされており、JavaScript を使用せずに、Python コードを直接使用して関連する分析を記述することができます。 Dash は、データ視覚化アプリケーションの構築に最適です。これらのアプリケーションは、Web ブラウザーでレンダリングできます。ユーザーガイドはここから入手できます。

インストール

pip install dash==0.29.0# 核心 dash 后端
pip install dash-html-components==0.13.2# HTML 组件
pip install dash-core-components==0.36.0# 增强组件
pip install dash-table==3.1.3# 交互式 DataTable 组件(最新!)

例 次の例は、ドロップダウン機能を備えた高度にインタラクティブなグラフを示しています。ユーザーがドロップダウン メニューで値を選択すると、アプリケーション コードはデータを Google Finance からパンダ DataFrame に動的にエクスポートします。

データ サイエンスに非常に役立つ 9 つの Python ライブラリ

九、Gym

OpenAI 的 Gym 是一款用于增强学习算法的开发和比较工具包。它兼容任何数值计算库,如 TensorFlow 或 Theano。Gym 库是测试问题集合的必备工具,这个集合也称为环境 —— 你可以用它来开发你的强化学习算法。这些环境有一个共享接口,允许你进行通用算法的编写。

安装

pip install gym

例子这个例子会运行CartPole-v0环境中的一个实例,它的时间步数为 1000,每一步都会渲染整个场景。

总结

以上这些有用的数据科学 Python 库都是我精心挑选出来的,不是常见的如 numpy 和 pandas 等库。如果你知道其它库,可以添加到列表中来,请在下面的评论中提一下。另外别忘了先尝试运行一下它们。

以上がデータ サイエンスに非常に役立つ 9 つの Python ライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。