Pandas Groupby を使用して文字列の共用体を取得する方法
Pandas の groupby メソッドを使用してデータをグループ化する場合、数値列は次を使用して簡単に集計できます。合計のような関数です。ただし、単純な連結が常に必要なわけではないため、文字列列の集約には課題が伴います。この記事では、グループ内の文字列の和集合を取得する方法について説明します。
問題:
次の DataFrame について考えてみましょう:
A | B | C |
---|---|---|
1 | 0.749065 | This |
2 | 0.301084 | is |
3 | 0.463468 | a |
4 | 0.643961 | random |
1 | 0.866521 | string |
2 | 0.120737 | ! |
DF を適用します。 groupby("A")["B"].sum() は、各グループの列 B の数値の合計を返します。ただし、文字列列 C で df.groupby("A")["C"].sum() を呼び出すと期待どおりに機能せず、文字列が連結されます。
解決策:
カスタム関数:
1 つのアプローチは、グループ内の文字列値を集計するカスタム関数を定義することです。この関数は、apply() メソッドを使用して DataFrame に適用できます。例:
<code class="python">def f(x): return Series(dict(A = x['A'].sum(), B = x['B'].sum(), C = "{%s}" % ', '.join(x['C']))) df.groupby('A').apply(f)</code>
これは、グループごとに列 C の文字列の結合を含む DataFrame を返します。文字列は中括弧内に含まれます。
Lambda with . sum():
もう 1 つの方法は、数値列には .sum() を使用し、文字列列にはカスタム連結を使用して、ラムダ関数を groupby オブジェクトに適用することです:
<code class="python">df.groupby('A').apply(lambda x: x.sum())</code>
これにより、数値と連結された文字列の合計を含む DataFrame が返されます。文字列の結合を取得するには、ラムダ関数内で文字列操作を使用できます。
パフォーマンスに関する考慮事項:
カスタム関数を groupby に適用することに注意することが重要です。 object は、数値列で集計関数を使用するよりも遅くなります。大規模なデータセットの場合、このパフォーマンスのトレードオフを考慮する必要があります。
以上がPandas Groupby 内で文字列を結合して一意の値を得るにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

numpyarraysarasarebetterfornumeroperations andmulti-dimensionaldata、whilethearraymoduleissuitable forbasic、1)numpyexcelsinperformance and forlargedatasentassandcomplexoperations.2)thearraymuremememory-effictientivearientfa

NumPyArraySareBetterforHeavyNumericalComputing、whilethearrayarayismoreSuitableformemory-constrainedprojectswithsimpledatatypes.1)numpyarraysofferarays andatiledance andpeperancedatasandatassandcomplexoperations.2)thearraymoduleisuleiseightweightandmemememe-ef

ctypesallowsinging andmanipulatingc-stylearraysinpython.1)usectypestointerfacewithclibrariesforperformance.2)createc-stylearraysfornumericalcomputations.3)passarraystocfunctions foreffientientoperations.how、how、becuutiousmorymanagemation、performanceo

Inpython、「リスト」は、「リスト」、自由主義的なもの、samememory効率が高く、均質な偶然の瞬間の想起された「アレイ」の「アレイ」の「アレイ」の均質な偶発的な想起されたものです

pythonlistsandarraysaraybothmutable.1)listsareflexibleandsupportheTeterdatabutarlessmemory-efficient.2)Arraysaremorememory-efficientiant forhomogeneousdative、ressivelessatile、ressing comerttytytypecodeusageodoavoiderorors。

PythonとCにはそれぞれ独自の利点があり、選択はプロジェクトの要件に基づいている必要があります。 1)Pythonは、簡潔な構文と動的タイピングのため、迅速な開発とデータ処理に適しています。 2)Cは、静的なタイピングと手動メモリ管理により、高性能およびシステムプログラミングに適しています。

PythonまたはCの選択は、プロジェクトの要件に依存します。1)迅速な開発、データ処理、およびプロトタイプ設計が必要な場合は、Pythonを選択します。 2)高性能、低レイテンシ、および緊密なハードウェアコントロールが必要な場合は、Cを選択します。

毎日2時間のPython学習を投資することで、プログラミングスキルを効果的に改善できます。 1.新しい知識を学ぶ:ドキュメントを読むか、チュートリアルを見る。 2。練習:コードと完全な演習を書きます。 3。レビュー:学んだコンテンツを統合します。 4。プロジェクトの実践:実際のプロジェクトで学んだことを適用します。このような構造化された学習計画は、Pythonを体系的にマスターし、キャリア目標を達成するのに役立ちます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

WebStorm Mac版
便利なJavaScript開発ツール

ホットトピック









