首頁  >  文章  >  後端開發  >  避免HIVE分區入門踩坑必學的五大知識

避免HIVE分區入門踩坑必學的五大知識

坏嘻嘻
坏嘻嘻原創
2018-09-15 11:11:101700瀏覽

這篇文章帶給大家的內容是關於避免HIVE分區入門踩坑必學的五大知識,有一定的參考價值,有需要的朋友可以參考一下,希望對你有所幫助。

HIVE-分區入門踩坑

hive 分區

#概念在先:
1: 靜態分割區是把一個目錄下面的很多【文件】分類存放起來, 只能細化到【文件】,但是細化不到內容.但是一次操作只能指定一個類(區);
2: 動態分區一次操作可以根據字段具體內容分多類別(區);
3: 分區目的是單表查詢的時候縮小查詢範圍,提高單表的查詢效率
4: 靜態分區因在命令列指定了分區,底層不執行mr程式(相對死板);動態分割執行mr程式,提取對應欄位(相對智慧一點)

Demo步驟:

1.建立一個學生分區表

#95001,李勇,男,20,CS
95002,劉晨,女,19,IS
95003,王敏,女,22,MA
95004,張立,男,19,IS
95005,劉剛,男,18,MA
95006,孫慶,男,23,CS

--分区表创建create table t_students(id int,name string,sex string)
partitioned by (age int,class string)row format delimited fields terminated by ',' ;

創作後看一下成功沒有

hive> set hive.cli.print.header=true;hive> select * from t_students;OK
t_students.id   t_students.name t_students.sex  t_students.age  t_students.class

2.新增內容
(1) load

--静态分区load data local inpath '/root/logs/students.txt' into table t_students partition (age=19,class='MA');

(2)insert
Hive 中insert 主要是結合select 查詢語句使用.

--动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table t_students  partition (age,class) 
select * from t_student;

執行之後查看元資料SDS表, 可以看到所有映射資訊
避免HIVE分區入門踩坑必學的五大知識

--使用同样的数据,再次追加insert一次数据
hive> insert into table t_students  partition (age,class) select * from t_student;

再次追加一次資料後,元資料SDS表資訊不變,每條分割區路徑下的檔案變成兩份
避免HIVE分區入門踩坑必學的五大知識

hive 分桶

分桶是相對分區進行更細粒度的分割。分桶將整個資料內容安裝某一列屬性值得hash值區分,如要安裝name屬性分為3個桶,就是對name屬性值的hash值對3取摸,依照取模結果對資料分桶。如取模結果為0的資料記錄存放到一個文件,取模為1的資料存放到一個文件,取模為2的資料存放到一個文件。
注意:
第一,分桶之前要執行命令hive.enforce.bucketiong=true;
第二,要使用關鍵字clustered by 指定分區依據的列名,還要指定分為多少桶,這裡指定分為3桶。
第三,與分區不同的是,分區依據的不是真實資料表檔案中的列,而是我們指定的偽列,但是分桶是依據資料表中真實的列而不是偽列。所以在指定分區依據的列的時候要指定列的類型,因為在資料表檔案中不存在這個列,相當於新建一個列。而分桶依據的是表中已經存在的列,這個列的資料型態顯然是已知的,所以不需要指定列的型別。 

以上是避免HIVE分區入門踩坑必學的五大知識的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn