여러 열로 데이터 그룹화 및 집계
Spark DataFrame의 groupBy 메서드를 사용하면 특정 열에 대해 집계 작업을 수행하여 데이터를 요약할 수 있습니다. . 그러나 결과 DataFrame에는 그룹화된 열과 집계된 결과만 포함됩니다.
이 제한 사항을 해결하고 집계와 함께 추가 열을 검색하려면 다음 해결 방법을 고려하세요.
사용 첫 번째 또는 마지막 집계
한 가지 접근 방식은 first() 또는 last() 집계 함수를 사용하여 포함하는 것입니다. 그룹화된 DataFrame의 추가 열. 예:
df.groupBy(df("age")).agg(Map("name" -> "first", "id" -> "count"))
이 쿼리는 "age", "name" 및 "count(id)"라는 세 개의 열이 있는 DataFrame을 생성합니다. "name" 열에는 각 연령 그룹의 첫 번째 값이 포함되고, "count(id)" 열에는 각 연령 그룹의 "id" 값의 개수가 포함됩니다.
집계된 결과 결합
또 다른 해결책은 그룹화된 열을 조인 키로 사용하여 집계된 DataFrame을 원래 DataFrame과 조인하는 것입니다. 이 접근 방식은 원본 DataFrame의 모든 열을 보존합니다.
val aggregatedDf = df.groupBy(df("age")).agg(Map("id" -> "count")) val joinedDf = aggregatedDf.join(df, Seq("age"), "left")
결과 DataFrame "joinedDf"에는 그룹화된 DataFrame의 "count(id)" 집계와 함께 원본 DataFrame의 모든 열이 포함됩니다.
창 기능 사용하기
마지막으로, 또한 창 함수를 사용하여 추가 열을 사용하여 원하는 groupBy 동작을 에뮬레이트할 수도 있습니다. 예는 다음과 같습니다.
df.withColumn("rowNum", row_number().over(Window.partitionBy("age"))) .groupBy("age").agg(first("name"), count("id")) .select("age", "name", "count(id)")
이 쿼리는 각 연령 그룹 내의 각 레코드에 행 번호를 할당하는 창 함수를 생성합니다. 그런 다음 이 행 번호를 사용하여 "count(id)" 집계와 함께 각 연령 그룹에 대해 처음으로 나타나는 "name"을 검색합니다.
접근 방식 선택은 특정 요구 사항 및 성능 고려 사항에 따라 다릅니다. 귀하의 지원서입니다.
위 내용은 groupBy를 사용하여 Spark DataFrame에서 데이터를 집계할 때 모든 열을 유지하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

이 기사에서는 MySQL의 "공유 라이브러리를 열 수 없음"오류를 다룹니다. 이 문제는 MySQL이 필요한 공유 라이브러리 (.so/.dll 파일)를 찾을 수 없음에서 비롯됩니다. 솔루션은 시스템 패키지 M을 통한 라이브러리 설치 확인과 관련이 있습니다.

이 기사는 Docker에서 MySQL 메모리 사용을 최적화합니다. 모니터링 기술 (Docker Stats, Performance Schema, 외부 도구) 및 구성 전략에 대해 설명합니다. 여기에는 Docker 메모리 제한, 스와핑 및 CGroups와 함께 포함됩니다

이 기사는 MySQL의 Alter Table 문을 사용하여 열 추가/드롭 테이블/열 변경 및 열 데이터 유형 변경을 포함하여 테이블을 수정하는 것에 대해 설명합니다.

이 기사는 Linux에 MySQL을 직접 설치하는 것과 Phpmyadmin이없는 Podman 컨테이너 사용을 비교합니다. 각 방법에 대한 설치 단계에 대해 자세히 설명하면서 Podman의 격리, 이식성 및 재현성의 장점을 강조하지만 또한

이 기사는 자체 포함 된 서버리스 관계형 데이터베이스 인 SQLITE에 대한 포괄적 인 개요를 제공합니다. SQLITE의 장점 (단순성, 이식성, 사용 용이성) 및 단점 (동시성 제한, 확장 성 문제)에 대해 자세히 설명합니다. 기음

기사는 인증서 생성 및 확인을 포함하여 MySQL에 대한 SSL/TLS 암호화 구성에 대해 설명합니다. 주요 문제는 자체 서명 인증서의 보안 영향을 사용하는 것입니다. [문자 수 : 159]

이 안내서는 Homebrew를 사용하여 MacOS에 여러 MySQL 버전을 설치하고 관리하는 것을 보여줍니다. 홈 브루를 사용하여 설치를 분리하여 갈등을 방지하는 것을 강조합니다. 이 기사에는 설치, 서비스 시작/정지 서비스 및 Best Pra에 대해 자세히 설명합니다

기사는 MySQL Workbench 및 Phpmyadmin과 같은 인기있는 MySQL GUI 도구에 대해 논의하여 초보자 및 고급 사용자를위한 기능과 적합성을 비교합니다. [159 자].


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전
