Pandas DataFrame グループで最も一般的な値を効率的に見つけるにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pandas DataFrame グループで最も一般的な値を効率的に見つけるにはどうすればよいですか?

Linda Hamilton

Nov 29, 2024 am 11:32 AM

How to Efficiently Find the Most Common Value in a Pandas DataFrame Group?

GroupBy pandas DataFrame と最も一般的な値の選択

問題

複数の文字列列を含むデータフレームがあるとします。最初の 2 つの列の各組み合わせでは、3 番目の列に有効な値が 1 つだけ含まれている必要があります。データフレームを最初の 2 列でグループ化し、組み合わせごとに 3 番目の列の最も一般的な値を選択することで、一貫してデータをクリーンアップする必要があります。

次のコードは、これを達成する試み:

pandas as pd<br>from scipy import stats<p>source = pd.DataFrame({</p><pre class="brush:php;toolbar:false">'Country': ['USA', 'USA', 'Russia', 'USA'], 
'City': ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
'Short name': ['NY', 'New', 'Spb', 'NY']})

source.groupby([' Country','City']).agg(lambda x: stats.mode(x['短いname'])[0])

しかし、コードの最後の行が KeyError で失敗します。これを修正するにはどうすればよいですか。問題?

解決策

Pandas>= 0.16

Pandas バージョン 0.16 の場合その後、次を使用しますコード:

source.groupby([' Country','City'])['Short name'].agg(pd.Series.mode)<br>

> ;

このコードは、Pandas 0.16 で導入された pd.Series.mode 関数を使用して、最も一般的な値を見つけます

複数のモードを処理するための代替案

Series.mode 関数は、複数のモードのケースを処理します。実質的に:

複数のモードがある場合は、Series を返します。すべてのモードが含まれています。

モードごとに個別の行が必要な場合は、GroupBy.apply(pd.Series.mode)を使用します。 /li>
いずれかのモードが必要な場合は、次を使用しますGroupBy.agg(lambda x: pd.Series.mode(x)[0]).

の代替案

Python から統計情報.mode を使用することもできますが、複数のモードを適切に処理できないため、StatisticsError が発生する可能性があります。したがって、これはお勧めできません。

以上がPandas DataFrame グループで最も一般的な値を効率的に見つけるにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles