在Spark DataFrame 中分組時保留其他欄位
在執行DataFrame groupby 運算時,常常會遇到只接收分組的問題欄和聚合值。如果您需要保留原始 DataFrame 中的其他列,這可能會很不方便。
例如,考慮以下分組:
df.groupBy(df("age")).agg(Map("id" -> "count"))
這將傳回一個僅包含「age」的 DataFrame和「計數(id)」欄位。但是,如果原始 DataFrame 中存在「name」和其他資料列,您可能會想要將它們包含在結果中。
在標準 SQL 中,可以使用以下查詢來實現:
select name, age, count(id) from df group by age
要在 Spark 中複製此行為,您可以將聚合結果與原始表連接。連線的關鍵列應與 groupby 欄位相同。
這是使用 Spark SQL 的範例:
val groupedDf = df.groupBy($"age").agg(count($"id").as("count")) val joinedDf = df.join(groupedDf, Seq("age"), "left")
joinedDf 現在將包含所有原始列以及聚合的「計數」列。
另一種方法是使用任意聚合(例如第一個或最後一個)來包含其他欄位。例如:
val groupedDf = df.groupBy($"age").agg(first($"name").as("name"), count($"id").as("count"))
這將確保「name」列保留在聚合的 DataFrame 中。
雖然這些方法允許您在分組期間檢索其他列,但請務必注意此類查詢通常沒有明確定義,並且可能在不同系統中表現出不同的行為。
以上是在 Spark DataFrame 中分組時如何保留其他欄位?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本文介紹了MySQL的“無法打開共享庫”錯誤。 該問題源於MySQL無法找到必要的共享庫(.SO/.DLL文件)。解決方案涉及通過系統軟件包M驗證庫安裝

本文探討了Docker中的優化MySQL內存使用量。 它討論了監視技術(Docker統計,性能架構,外部工具)和配置策略。 其中包括Docker內存限制,交換和cgroups

本文討論了使用MySQL的Alter Table語句修改表,包括添加/刪除列,重命名表/列以及更改列數據類型。

本文比較使用/不使用PhpMyAdmin的Podman容器直接在Linux上安裝MySQL。 它詳細介紹了每種方法的安裝步驟,強調了Podman在孤立,可移植性和可重複性方面的優勢,還

本文提供了SQLite的全面概述,SQLite是一個獨立的,無服務器的關係數據庫。 它詳細介紹了SQLite的優勢(簡單,可移植性,易用性)和缺點(並發限制,可伸縮性挑戰)。 c

文章討論了為MySQL配置SSL/TLS加密,包括證書生成和驗證。主要問題是使用自簽名證書的安全含義。[角色計數:159]

本指南展示了使用自製在MacOS上安裝和管理多個MySQL版本。 它強調使用自製裝置隔離安裝,以防止衝突。 本文詳細詳細介紹了安裝,起始/停止服務和最佳PRA

文章討論了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比較了它們對初學者和高級用戶的功能和適合性。[159個字符]


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器