ホームページ >バックエンド開発 >Python チュートリアル >データのフォーマットとクリーニングのための Python ツールキット
世界は混乱していますが、現実世界のデータも混乱しています。最近の調査報告によると、データ サイエンティストの時間の 60% はデータの整理に費やされています。残念ながら、57% の人がこれが仕事の中で最も面倒な部分だと考えています。
データの整理には非常に時間がかかりますが、この重要なステップをもう少し耐えられるようにするために多くのツールが開発されています。 Python コミュニティは、DataFrame のフォーマットからデータセットの匿名化まで、データを整理するためのライブラリを多数提供しています。
便利だと思うライブラリを教えてください - 私たちは、Mode Python Notebooks に組み込まれるライブラリの最適化に常に取り組んでいます。
Dora
Dora は探索的分析用に設計されています。特に自動分析の最も面倒な部分は、特徴の選択と抽出、視覚化、そしてご想像のとおり、データのクリーニングなどです。データ クリーニングに関連する関数は次のことが可能です:
欠損データと標準化されていないデータを含むデータ テーブルを読み取る
欠損データに値を割り当てる
標準化された変数
開発者: Nathan Epstein
詳細情報: https://github.com/NathanEpstein /Dora
datacleaner
つまり、datacleaner はデータをクリーンアップしますが、これはデータが pandas DataFrame インスタンスである場合に限ります。開発者の Randy Olson 氏は、「Datacleaner は魔法ではありません。非構造化データを魔法のように解析することはできません。欠落データを含む行を削除したり、列のモードや中央値を使用して欠落データを埋めたり、非構造化データを置き換えたりすることはできません。」 . 数値変数は数値変数に変換されます。このライブラリは非常に新しいものですが、DataFrame が Python データ分析の基本データ構造であることを考慮すると、試してみる価値があります。
開発者: Randy Olson
詳細情報: https://github.com/rhiever/datacleaner
PrettyPandas
DataFrames は強力ですが、上司に直接見せることができるテーブルを作成することはできません。 PrettyPandas は、パンダ スタイル API を使用して、DataFrame をプレゼンテーション可能なテーブルに変換します。データの概要を生成し、スタイルを設定し、データ形式、列、行を調整します。ボーナス: 堅牢で読みやすい使用法ドキュメント。
開発者: Henry Hammond
詳細情報: https://github.com/HHammond/PrettyPandas
tabulate
tabulate を使用すると、1 回の関数呼び出しで小さくて魅力的なテーブルを生成できます。小数列の配置、データの書式設定、表のヘッダーなどを調整して、表を読みやすくするのに最適です。
これには、表をさまざまな形式 (HTML、PHP、または Markdown Extra) で出力できる非常に優れた機能があり、他のツールや言語を使用して表を作成したデータを引き続き使用できます。
開発者: Sergey Astanin
詳細情報: https://pypi.python.org/pypi/tabulate
scrubadub
医療および金融分野のデータ サイエンティストは、データ セットを匿名化する必要があることがよくあります。 Scrubadub はテキストから個人情報 (PII) を削除できます。例:
名前(名詞)
メールアドレス
インターネットリンク
電話番号
ユーザー名/パスワードの設定
Skypeユーザー名
社会保障番号
この文書は、次のことができる方法をうまく示しています。新しい PII の定義や特定の PII の保持など、scrubadub の動作をカスタマイズします。
開発者: Datascope Analytics
詳細情報: http://scrubadub.readthedocs.io/en/stable/index.html
Arrow
正直に言うと、Python で日付と時刻を扱うのは面倒です。ローカルタイムゾーンは自動的には認識されません。タイムゾーンとタイムスタンプを変換するには、数行のコードが必要になります。
Arrow は、この問題を解決し、機能上のギャップを埋め、より少ないコードとインポートされたライブラリで日付と時刻の操作を完了できるようにすることを目的としています。 Python の標準時刻ライブラリとは異なり、Arrow はデフォルトでタイムゾーンと UTC を自動的に認識します。わずか 1 行のコードで、タイム ゾーンの変換を実行したり、時刻文字列を解析したりできます。
開発者: Chris Smith
詳細情報: http://arrow.readthedocs.io/en/latest/
Beautifier
Beautifier の使命はシンプルです。URL とメール アドレスをクリーンにして見栄えを良くすることです。電子メールはドメイン名とユーザー名で解析でき、URL はドメイン名とパラメータで解析できます。 (UTM またはタグ)
開発者: Sachin Philip Mathew
詳細: https://github.com/sachinvettithanam/beautifier
ftfy
ftfy (テキストを修正) は、悪い Unicode を取り込み、良い Unicode を出力します。すべてのジャンク文字を修正します。「quotes」x9d は "quotes" になります。uÌ^ は ü になります。
ftfy (テキストを修正) は、乱雑な Unicode を認識可能な Unicode に変換します。簡単に言えば、すべての文字化け文字を処理します。 “quotesâ€x9d は「引用符」になります; uÌ ^ は ü になります;
詳細: https://github.com/LuminosoInsight/python-ftfy