ホームページ >テクノロジー周辺機器 >AI >スキムピー:データの要約については、パンダの代替()を説明します
データの要約は、データ分析ワークフローの重要な最初のステップです。 Pandasのdescribe()関数は多くの人にとって頼りになるツールでしたが、その機能は数値データに限定されており、基本統計のみを提供します。すべての列タイプについて、詳細で視覚的に魅力的な、包括的なデータの概要を提供するように設計されたPythonライブラリであるSkimpyを入力してください。
この記事では、SkimpyがPandasの説明にふさわしい代替品である理由を探ります。スキムピーのインストールと使用方法を学び、その機能を調査し、その出力を例でdescribe()と比較します。最後に、露出度が探索的データ分析(EDA)をどのように強化するかを完全に理解することができます。
Pandasのdescribe()関数は、データを迅速に要約するために広く使用されています。探索的データ分析(EDA)の強力なツールとして機能しますが、その有用性はいくつかの面で制限されています。以下は、その欠点の詳細な内訳と、ユーザーがしばしば露出度のような代替を求める理由です。
デフォルトでは、明示的に構成されていない限り、describ()は数値列でのみ動作します。
例:
PDとしてパンダをインポートします data = { 「名前」:[「アリス」、「ボブ」、「チャーリー」、「デビッド」]、 「年齢」:[25、30、35、40]、 「都市」:[「ニューヨーク」、「ロサンゼルス」、「シカゴ」、「ヒューストン」]、 「給与」:[70000、80000、120000、90000]、 } df = pd.dataframe(data) print(df.describe())
出力:
年齢給与 カウント4.000000 4.000000 平均32.500000 90000.000000 STD 6.454972 20000.000000 最小25.000000 70000.000000 25%28.750000 77500.000000 50%32.500000 85000.000000 75%36.250000 97500.000000 最大40.000000 120000.000000
重要な問題:
非数字の列(名前と都市)は、明示的にdestribを呼び出しない限り無視されます(= 'all'を含む)。それでも、非数字の列の範囲は出力の範囲のままです。
include = 'All'を使用して非数字の列が含まれている場合、概要は最小限です。それはのみを示しています:
例:
print(df.describe(include = "all"))
出力:
名前の都市の給与 カウント4 4.0 4 4.000000 ユニーク4ナン4ナン トップアリスナンニューヨークナン freq 1 nan 1 nan 平均NAN 32.5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 MIN NAN 25.0 NAN 70000.000000 25%NAN 28.8 NAN 77500.000000 50%NAN 32.5 NAN 85000.000000 75%NAN 36.2 NAN 97500.000000 MAX NAN 40.0 NAN 120000.000000
重要な問題:
Pandas 'describe()は、各列の欠落データの割合を明示的に表示しません。欠落データを識別するには、個別のコマンドが必要です。
print(df.isnull()。sum())
descrid()が提供するデフォルトのメトリックは基本です。数値データについては、次のことを示しています。
ただし、次のような高度な統計的詳細がありません。
descrition()は、単純なテキストの概要を出力します。トレンドや分布を視覚化するには、MatplotlibやSeabornなどの追加のライブラリが必要です。
例:ヒストグラムまたはボックスプロットは分布をよりよく表しますが、()はそのような視覚的能力を提供しません。
Skimpyは、探索的データ分析(EDA)を簡素化および強化するために設計されたPythonライブラリです。データの詳細かつ簡潔な要約を提供し、数値列と非数字の両方の列を効果的に処理します。 Pandasのdescribe()とは異なり、露出度には高度なメトリック、欠損データ洞察、よりクリーンでより直感的な出力が含まれます。これにより、データセットを迅速に理解し、データ品質の問題を特定し、より深い分析の準備をするための優れたツールになります。
PIPを使用して露骨なインストール:
ターミナルまたはコマンドプロンプトで次のコマンドを実行します。
ピップインストール露出度
インストールを確認してください:
インストール後、PythonスクリプトまたはJupyterノートブックにインポートすることにより、露骨が正しくインストールされていることを確認できます。
露出度の高いインポートスキムから print( "スキンピーが正常にインストールされました!")
ここで、露骨を使用する方が良い理由について、さまざまな理由を詳細に探りましょう。
スキムピーは、すべてのデータ型を同等に重要で扱い、単一の統合テーブルで数値列と非数字の両方の列の豊富な要約を提供します。
例:
露出度の高いインポートスキムから PDとしてパンダをインポートします data = { 「名前」:[「アリス」、「ボブ」、「チャーリー」、「デビッド」]、 「年齢」:[25、30、35、40]、 「都市」:[「ニューヨーク」、「ロサンゼルス」、「シカゴ」、「ヒューストン」]、 「給与」:[70000、80000、120000、90000]、 } df = pd.dataframe(data) スキム(df)
出力:
露出度の高いものは、次のような情報を含む簡潔でよく構造化されたテーブルを生成します。
スキムピーは、概要の欠損データを自動的に強調し、各列の欠損値の割合とカウントを表示します。これにより、df.isnull()。sum()などの追加コマンドが必要になります。
なぜこれが重要なのか:
より深い洞察を提供する追加のメトリックを含めることにより、スキムピーは基本的な記述統計を超えています。
文字列のような非数学データの場合、露出度はパンダが説明する詳細な要約を提供します()は一致できません。
テキスト列の出力の例:
カラム | 一意の値 | 最も頻繁な値 | モードカウント | 平均長さ |
---|---|---|---|---|
名前 | 4 | アリス | 1 | 5.25 |
市 | 4 | ニューヨーク | 1 | 7.50 |
スキムピーは、特に大規模なデータセットでは、解釈が容易な色分けされた表現と表の出力を使用します。これらのビジュアルが強調しています:
この視覚的な魅力により、スキンピーの要約はプレゼンテーションに対応しています。これは、利害関係者に調査結果を報告するのに特に役立ちます。
skimpyは、次のような、Pandasの説明()のカテゴリデータの特定のメトリックを提供します。
これにより、人口統計、地理的、またはその他のカテゴリ変数を含むデータセットにとって、露出度が特に価値があります。
以下では、データの要約のために露出度を効果的に使用する方法について説明します。
スキムピーを使用するには、最初にデータセットと一緒にインポートする必要があります。スキムピーは、シームレスにパンダのデータフレームを統合します。
例データセット:
数値、カテゴリ、テキストデータを含む簡単なデータセットを使用してみましょう。
PDとしてパンダをインポートします 露出度の高いインポートスキムから #サンプルデータセット data = { 「名前」:[「アリス」、「ボブ」、「チャーリー」、「デビッド」]、 「年齢」:[25、30、35、40]、 「都市」:[「ニューヨーク」、「ロサンゼルス」、「シカゴ」、「ヒューストン」]、 「給与」:[70000、80000、120000、90000]、 「評価」:[4.5、なし、4.7、4.8]、 } df = pd.dataframe(data)
露出度のコア関数はSkim()です。データフレームに適用されると、すべての列の詳細な要約が提供されます。
使用法:
スキム(df)
skimpyの出力が意味するものを分解しましょう。
カラム | データ型 | ない (%) | 平均 | 中央値 | 分 | マックス | 個性的 | 最も頻繁な値 | モードカウント |
---|---|---|---|---|---|---|---|---|---|
名前 | 文章 | 0.0% | - | - | - | - | 4 | アリス | 1 |
年 | 数値 | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
市 | 文章 | 0.0% | - | - | - | - | 4 | ニューヨーク | 1 |
給料 | 数値 | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
評価 | 数値 | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
露出度は、識別に特に役立ちます。
露出度の高いことにより、ニーズに応じて、ある程度の柔軟性がその出力を調整できます。
スキム(df [["age"、 "salary"]])
Skim(df).loc [:, ["column"、 "Missing(%)"]]]
露出度の高いことは、すべてのタイプのデータセットに関する詳細で人間の読み取り可能な洞察を提供することにより、データの要約を簡素化します。 Pandas describs()とは異なり、数値データへの焦点を制限せず、より豊富な要約体験を提供します。データのクリーニング、トレンドの調査、レポートの準備など、skimpyの機能により、データの専門家にとって不可欠なツールになります。
A.これは、包括的なデータの要約のために設計されたPythonライブラリであり、Pandas oftersion()を超えた洞察を提供します。
Q2。露出度の高い交換はdescrib()を置き換えることができますか?A.はい、機能強化を提供し、descrid()を効果的に置き換えることができます。
Q3。露出度の高いことは大規模なデータセットをサポートしていますか?A.はい、大規模なデータセットを効率的に処理するために最適化されています。
Q4。スキンピーをインストールするにはどうすればよいですか?A.ピップを使用してインストールします:PIPインストールスキンピー。
Q5。 ()より露出度の高いものが()よりも優れている理由は何ですか?A.すべてのデータ型を要約し、値の洞察を欠いていることを含み、よりユーザーフレンドリーな形式で出力を提示します。
以上がスキムピー:データの要約については、パンダの代替()を説明しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。