>  기사  >  백엔드 개발  >  HIVE 파티션을 시작할 때 함정을 피하기 위해 배워야 할 5가지

HIVE 파티션을 시작할 때 함정을 피하기 위해 배워야 할 5가지

坏嘻嘻
坏嘻嘻원래의
2018-09-15 11:11:101700검색

이 기사는 HIVE 파티셔닝을 시작할 때 함정을 피하기 위해 배워야 할 5가지 주요 지식을 제공합니다. 도움이 필요한 친구들이 참고할 수 있기를 바랍니다.

HIVE - 파티셔닝 소개

hive 파티셔닝

첫번째 개념:
1: 정적 파티셔닝은 많은 [파일]을 카테고리별로 디렉토리 아래에 저장하는 것인데, 세부적으로는 콘텐츠는 변환할 수 없습니다. 그러나 한 번의 작업으로 하나의 클래스(영역)만 지정할 수 있습니다.
2: 동적 분할의 한 작업은 필드의 특정 콘텐츠에 따라 여러 범주(영역)로 나눌 수 있습니다. 파티셔닝의 목적은 단일 테이블을 쿼리할 때 쿼리 범위를 좁혀 단일 테이블의 쿼리 효율성을 높이는 것입니다
4: 파티션은 명령줄에 지정되므로 정적 파티션은 하단에서 mr 프로그램을 실행하지 않습니다(상대적으로 강성) 동적 파티션은 mr 프로그램을 실행하고 해당 필드를 추출합니다(상대적으로 더 똑똑함)

데모 단계:

1. 학생 파티션 테이블 만들기

95001, Li Yong, 남성, 20, CS

95002, Liu Chen , 여성, 19세, IS
95003, Wang Min, 여성, 22세, MA
95004, Zhang Li, 남성, 19세, IS
95005,Liu Gang,남성,18,MA
95006,Sun Qing,남성,23,CS

--分区表创建create table t_students(id int,name string,sex string)
partitioned by (age int,class string)row format delimited fields terminated by ',' ;

생성 후 성공 여부 확인

hive> set hive.cli.print.header=true;hive> select * from t_students;OK
t_students.id   t_students.name t_students.sex  t_students.age  t_students.class

2. 콘텐츠 추가

(1)load

--静态分区load data local inpath '/root/logs/students.txt' into table t_students partition (age=19,class='MA');

(2)insert

Insert in Hive는 주로 select 쿼리 문과 함께 사용됩니다.

--动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table t_students  partition (age,class) 
select * from t_student;

보기 메타데이터 SDS 테이블을 실행하면 모든 매핑 정보를 볼 수 있습니다


HIVE 파티션을 시작할 때 함정을 피하기 위해 배워야 할 5가지

--使用同样的数据,再次追加insert一次数据
hive> insert into table t_students  partition (age,class) select * from t_student;

데이터를 다시 추가한 후에도 메타데이터 SDS 테이블 정보는 변경되지 않고 각 파티션 경로 아래의 파일이 두 개의 복사본이 됩니다


HIVE 파티션을 시작할 때 함정을 피하기 위해 배워야 할 5가지

hive 버킷팅

버킷팅 상대 분할을 보다 세밀하게 구분한 것입니다. 버킷팅은 특정 열 속성의 해시 값을 기준으로 전체 데이터 내용을 버킷으로 나누는 방식으로, 이름 속성을 3개의 버킷으로 나누기 위해 이름 속성 값의 해시 값을 3으로 변조한 후 데이터를 버킷으로 나눕니다. 모듈로 결과. 예를 들어, 모듈로 결과가 0인 데이터 레코드는 파일에 저장되고, 모듈로 결과가 1인 데이터는 파일에 저장되며, 모듈로 결과가 2인 데이터는 파일에 저장됩니다.

참고:
먼저 버킷팅 전에 hive.enforce.bucketiong=true 명령을 실행합니다.
두 번째로 클러스터링 기준 키워드를 사용하여 파티션의 열 이름을 지정하고, 분할할 버킷 수도 지정합니다. 3개의 배럴로 나누어 지정합니다.
셋째, 파티셔닝과 달리 파티셔닝은 실제 데이터 테이블 파일의 열을 기반으로 하지 않고 우리가 지정한 의사 열을 기반으로 하지만 버케팅은 의사 열이 아닌 데이터 테이블의 실제 열을 기반으로 합니다. 따라서 파티셔닝의 기반이 되는 컬럼을 지정할 때 해당 컬럼은 데이터 테이블 파일에 존재하지 않으므로 새로운 컬럼을 생성하는 것과 동일하므로 컬럼 유형을 지정해야 한다. 버킷팅은 테이블에 이미 존재하는 열을 기반으로 합니다. 이 열의 데이터 유형은 명백히 알려져 있으므로 열 유형을 지정할 필요가 없습니다.

위 내용은 HIVE 파티션을 시작할 때 함정을 피하기 위해 배워야 할 5가지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.