ホームページ >バックエンド開発 >Python チュートリアル >データのフォーマットとクリーニングのための Python ツールキット

データのフォーマットとクリーニングのための Python ツールキット

大家讲道理
大家讲道理オリジナル
2016-11-08 10:23:141460ブラウズ

世界は混乱していますが、現実世界のデータも混乱しています。最近の調査報告によると、データ サイエンティストの時間の 60% はデータの整理に費やされています。残念ながら、57% の人がこれが仕事の中で最も面倒な部分だと考えています。

データの整理には非常に時間がかかりますが、この重要なステップをもう少し耐えられるようにするために多くのツールが開発されています。 Python コミュニティは、DataFrame のフォーマットからデータセットの匿名化まで、データを整理するためのライブラリを多数提供しています。

便利だと思うライブラリを教えてください - 私たちは、Mode Python Notebooks に組み込まれるライブラリの最適化に常に取り組んでいます。

データのフォーマットとクリーニングのための Python ツールキット

Dora

Dora は探索的分析用に設計されています。特に自動分析の最も面倒な部分は、特徴の選択と抽出、視覚化、そしてご想像のとおり、データのクリーニングなどです。データ クリーニングに関連する関数は次のことが可能です:

欠損データと標準化されていないデータを含むデータ テーブルを読み取る

欠損データに値を割り当てる

標準化された変数

開発者: Nathan Epstein
詳細情報: https://github.com/NathanEpstein /Dora

datacleaner

つまり、datacleaner はデータをクリーンアップしますが、これはデータが pandas DataFrame インスタンスである場合に限ります。開発者の Randy Olson 氏は、「Datacleaner は魔法ではありません。非構造化データを魔法のように解析することはできません。欠落データを含む行を削除したり、列のモードや中央値を使用して欠落データを埋めたり、非構造化データを置き換えたりすることはできません。」 . 数値変数は数値変数に変換されます。このライブラリは非常に新しいものですが、DataFrame が Python データ分析の基本データ構造であることを考慮すると、試してみる価値があります。

開発者: Randy Olson

詳細情報: https://github.com/rhiever/datacleaner


PrettyPandas

DataFrames は強力ですが、上司に直接見せることができるテーブルを作成することはできません。 PrettyPandas は、パンダ スタイル API を使用して、DataFrame をプレゼンテーション可能なテーブルに変換します。データの概要を生成し、スタイルを設定し、データ形式、列、行を調整します。ボーナス: 堅牢で読みやすい使用法ドキュメント。

開発者: Henry Hammond

詳細情報: https://github.com/HHammond/PrettyPandas


tabulate

tabulate を使用すると、1 回の関数呼び出しで小さくて魅力的なテーブルを生成できます。小数列の配置、データの書式設定、表のヘッダーなどを調整して、表を読みやすくするのに最適です。

これには、表をさまざまな形式 (HTML、PHP、または Markdown Extra) で出力できる非常に優れた機能があり、他のツールや言語を使用して表を作成したデータを引き続き使用できます。

開発者: Sergey Astanin

詳細情報: https://pypi.python.org/pypi/tabulate


scrubadub

医療および金融分野のデータ サイエンティストは、データ セットを匿名化する必要があることがよくあります。 Scrubadub はテキストから個人情報 (PII) を削除できます。例:

名前(名詞)

メールアドレス

インターネットリンク

電話番号

ユーザー名/パスワードの設定

Skypeユーザー名

社会保障番号

この文書は、次のことができる方法をうまく示しています。新しい PII の定義や特定の PII の保持など、scrubadub の動作をカスタマイズします。

開発者: Datascope Analytics

詳細情報: http://scrubadub.readthedocs.io/en/stable/index.html


Arrow

正直に言うと、Python で日付と時刻を扱うのは面倒です。ローカルタイムゾーンは自動的には認識されません。タイムゾーンとタイムスタンプを変換するには、数行のコードが必要になります。

Arrow は、この問題を解決し、機能上のギャップを埋め、より少ないコードとインポートされたライブラリで日付と時刻の操作を完了できるようにすることを目的としています。 Python の標準時刻ライブラリとは異なり、Arrow はデフォルトでタイムゾーンと UTC を自動的に認識します。わずか 1 行のコードで、タイム ゾーンの変換を実行したり、時刻文字列を解析したりできます。

開発者: Chris Smith

詳細情報: http://arrow.readthedocs.io/en/latest/


Beautifier

Beautifier の使命はシンプルです。URL とメール アドレスをクリーンにして見栄えを良くすることです。電子メールはドメイン名とユーザー名で解析でき、URL はドメイン名とパラメータで解析できます。 (UTM またはタグ)

開発者: Sachin Philip Mathew

詳細: https://github.com/sachinvettithanam/beautifier


ftfy

ftfy (テキストを修正) は、悪い Unicode を取り込み、良い Unicode を出力します。すべてのジャンク文字を修正します。「quotes」x9d は "quotes" になります。uÌ^ は ü になります。

ftfy (テキストを修正) は、乱雑な Unicode を認識可能な Unicode に変換します。簡単に言えば、すべての文字化け文字を処理します。 “quotesâ€x9d は「引用符」になります; uÌ ^ は ü になります;

詳細: https://github.com/LuminosoInsight/python-ftfy

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。