hive 내장 기능: 1. 데이터를 처리하는 사용자 정의 함수 2. 한 줄을 입력하고 여러 줄을 출력해야 하는 문제를 해결하는 데 사용됨[(다대일 매핑)]; 많은 작업 데이터 행이 있는 함수로 하나의 데이터 행을 생성합니다.
이 문서의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.
hive 내장 함수:
정의:
UDF(User-Defined-Function), 데이터를 처리하는 사용자 정의 함수입니다.
UDTF(User-Defined Table-Generating Functions)는 한 줄을 입력하고 여러 줄을 출력해야 하는 필요성을 해결하는 데 사용됩니다(On-to-Many 매핑).
UDAF(User Defined Aggregation Function)는 여러 데이터 행에 대해 작동하여 하나의 데이터 행을 생성하는 사용자 정의 집계 함수입니다.
사용법:
1. UDF 함수는 select 문에 직접 적용하고 쿼리 구조를 포맷한 후 내용을 출력할 수 있습니다.
2. UDF 함수를 작성할 때 다음 사항에 주의해야 합니다:
a) 사용자 정의 UDF는 상속되어야 합니다org.apache.hadoop.hive.ql.UDF
.
b) 평가 기능을 구현해야 합니다.
c) 평가 함수는 오버로딩을 지원합니다.
hive의 로컬 모드:
대부분의 Hadoop 작업에는 빅 데이터를 처리하기 위해 hadoop이 제공하는 완전한 확장성이 필요합니다. 그러나 때로는 하이브에 입력되는 데이터의 양이 매우 작습니다. 이 경우 쿼리에 대한 작업을 실행하는 데 소요되는 시간이 실제 작업 실행 시간보다 훨씬 길어질 수 있습니다. 대부분의 상황에서 Hive는 로컬 모드를 통해 단일 시스템의 모든 작업을 처리할 수 있습니다. 작은 데이터 세트의 경우 실행 시간이 크게 단축됩니다.
이런 방식으로 상대적으로 적은 양의 데이터를 사용하는 작업을 로컬에서 실행할 수 있으며, 이는 실행을 위해 클러스터에 작업을 제출하는 것보다 훨씬 빠릅니다.
Hive의 로컬 모드를 활성화하려면 다음 매개변수를 구성하세요.
hive> set hive.exec.mode.local.auto=true;(默认为false)
작업이 다음 조건을 충족하는 경우에만 로컬 모드를 실제로 사용할 수 있습니다.
1. 작업의 입력 데이터 크기는 매개변수보다 작아야 합니다. : hive.exec.mode.local.auto.inputbytes.max (기본값 128MB)
2. 작업 맵 수는 매개변수 hive.exec.mode.local.auto.tasks.max ( 기본값 4)
3. 작업의 리듀서 수는 0 또는 1이어야 합니다
관련 무료 학습 권장 사항: php 프로그래밍(동영상)
위 내용은 하이브 내장 기능이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!