[置顶] 数据仓库----Hive进阶篇一-mysql教程-PHP中文網

首頁

資料庫

mysql教程

[置顶] 数据仓库----Hive进阶篇一

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 02:50 PM

倉庫數據置頂進階

数据仓库—-hive进阶篇二（表的链接，子查询，客户端jdbc和Thrift Client操作，自定义函数）一、数据的导入 1、使用Load语句执行数据的导入 1.语法：其中（中括号中表示可加指令）： LOCAL：表示指定的文件路径是否是本地的，没有则说明是HDFS上的文件路径

数据仓库—-hive进阶篇二（表的链接，子查询，客户端jdbc和Thrift Client操作，自定义函数）

一、数据的导入

1、使用Load语句执行数据的导入

<code>1.语法：
</code>

这里写图片描述

<code>    其中（中括号中表示可加指令）：
        LOCAL：表示指定的文件路径是否是本地的，没有则说明是HDFS上的文件路径。
        OVERWRITE：表示覆盖表中的已有数据。
        PARTITION ()：如果是向分区表中导入数据的话需要指定分区。
2.实例：
    (1).无分区情况：
</code>

这里写图片描述

<code>    其中的'/root/data'可以是路径也可以是文件：
        路径表示把该路径下的所有文件都导入到表中；
        文件表示只把当前文件导入到表中。
    (2).有分区情况：
</code>

这里写图片描述

2、使用Sqoop进行数据的导入

<code>1.使用sqoop将mysql数据库中的数据导入到HDFS中
</code>

<code class=" hljs brainfuck"><span class="hljs-comment">hive</span>> <span class="hljs-comment">sqoop</span> <span class="hljs-comment">import</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">connect</span> <span class="hljs-comment">jdbc:mysql://localhost/3306/sfd</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">username</span> <span class="hljs-comment">root</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">password</span> <span class="hljs-comment">123</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">table</span> <span class="hljs-comment">student</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">columns</span> <span class="hljs-comment">'sid</span><span class="hljs-string">,</span><span class="hljs-comment">sname'</span> <span class="hljs-literal">-</span><span class="hljs-comment">m</span> <span class="hljs-comment">1</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">target</span><span class="hljs-literal">-</span><span class="hljs-comment">dir</span> <span class="hljs-comment">'/sqoop/student'</span></code>

<code>    其中：
        --connet ：表示数据库的url链接
        --username ：数据库用户名
        --password ：数据库用户密码
        --table ：源数据所在的表
        --clomns ： 表中的列名，（例子中使用',' 链接）
        -m 1 : 表示启用的mapreduce个数为1个
        --target-dir ： 将源数据导入到HDFS上的那个文件夹下

2.使用sqoop将mysql数据库中的数据导入到hive中：
</code>

<code class=" hljs brainfuck"><span class="hljs-comment">hive</span>> <span class="hljs-comment">sqoop</span> <span class="hljs-comment">import</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">hive</span><span class="hljs-literal">-</span><span class="hljs-comment">import</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">connect</span> <span class="hljs-comment">jdbc:mysql://localhost/3306/sfd</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">username</span> <span class="hljs-comment">root</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">password</span> <span class="hljs-comment">123</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">table</span> <span class="hljs-comment">student</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">columns</span> <span class="hljs-comment">'sid</span><span class="hljs-string">,</span><span class="hljs-comment">sname'</span> <span class="hljs-literal">-</span><span class="hljs-comment">m</span> <span class="hljs-comment">1</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">hive</span><span class="hljs-literal">-</span><span class="hljs-comment">table</span> <span class="hljs-comment">stu</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">where</span> <span class="hljs-comment">'sid=1'</span></code>

<code>    其中：
        --hive-table stu ： 表示在导入到hive中名为stu的表中
        --where ：表示插入数据的条件

3.使用sqoop将mysql数据库中的数据导入到hive中,并使用查询语句；
</code>

<code class=" hljs brainfuck"><span class="hljs-comment">hive</span>> <span class="hljs-comment">sqoop</span> <span class="hljs-comment">import</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">hive</span><span class="hljs-literal">-</span><span class="hljs-comment">import</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">connect</span> <span class="hljs-comment">jdbc:mysql://localhost/3306/sfd</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">username</span> <span class="hljs-comment">root</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">password</span> <span class="hljs-comment">123</span> <span class="hljs-literal">-</span><span class="hljs-comment">m</span> <span class="hljs-comment">1</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">query</span> <span class="hljs-comment">'select</span> <span class="hljs-comment">*</span> <span class="hljs-comment">from</span> <span class="hljs-comment">student</span> <span class="hljs-comment">where</span> <span class="hljs-comment">sid='1'</span> <span class="hljs-comment">and</span> <span class="hljs-comment">$CONDITIONS'</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">target</span><span class="hljs-literal">-</span><span class="hljs-comment">dir</span> <span class="hljs-comment">'/sqoop/student1'</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">hive</span><span class="hljs-literal">-</span><span class="hljs-comment">table</span> <span class="hljs-comment">stu</span> </code>

<code>    其中：
        --query : 表示使用的查询语句,如果查询语句中有where条件限制那么必须加上 and $CONDITIONS(大写)

4.使用sqoop将hive中的数据导出到mysql中：
</code>

<code class=" hljs brainfuck"><span class="hljs-comment">hive</span>> <span class="hljs-comment">sqoop</span> <span class="hljs-comment">export</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">connect</span> <span class="hljs-comment">jdbc:mysql://localhost/3306/sfd</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">username</span> <span class="hljs-comment">root</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">password</span> <span class="hljs-comment">123</span> <span class="hljs-literal">-</span><span class="hljs-comment">m</span> <span class="hljs-comment">1</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">table</span> <span class="hljs-comment">student1</span> <span class="hljs-literal">-</span><span class="hljs-literal">-</span><span class="hljs-comment">export</span><span class="hljs-literal">-</span><span class="hljs-comment">dir</span> <span class="hljs-comment">'/data'</span></code>

<code>    其中：
        --table ：为mysql数据库中的已经建立了的表
        --export-dir ：将数据这个文件夹下的数据导入到mysql的student1表中。
</code>

二、Hive的数据查询

1、查询的语法：

这里写图片描述

<code>    例子：查询student表中的信息：
        select * from student;(查询所有信息不用启用mapreduce)
        select sid from student;（需要启动mapreduce）
        select sid,sname,math,english,math+english from student;(在（math+english）表达式中如果有一个变量为空那么整个表达式为空，可以使用nvl（math，0）函数，表示如果math为空令其为0)
</code>

这里写图片描述

2、简单查询的Fetch Task功能，

<code>从上面的例子中可以看出，简单的查询如果不是查询所有的信息，就会开启mapreduce任务，这样会影响工作效率，从Hive0.10.0版本开始支持了Fetch Task功能；
Fetch Task功能配置方式：
    a. 方式一： set hive.fetch.task.conversion=more
    b. 方式二： hive --hiveconf hive.fetch.task.conversion=more
    c. 方式三： 修改hive-site.xml文件
</code>

这里写图片描述

<code>    前两种方式只在当前hive命令行有用，当重启hive时简单查询还是会调用mapreduce程序；而第二种方式配置是一直起作用的。
</code>

3.、在查询中使用过滤

<code>1.where 语句进行过滤。（字符串过滤区分大小写）
</code>

这里写图片描述

<code>    其中：%\\_%  :  由于_是模糊查询中的关键词（表示有一个字符），所以要用到转义字符，第一个'\'表示后面使用的是转义字符，'\_'表示的是'_';
</code>

4、在查询中排序

排序默认是升序的，要想降序只需在末尾加上desc
这里写图片描述

注意：当使用序号进行排序的使用需要设置一个属性：set hive.groupby.orderby.position.alias=true;

三、Hive的内置函数

这里写图片描述

1、数学函数：

<code>round（45.926,2）：四舍五入（第二个参数表示的是保留小数点后面几位，当参数为负数是表示的是小数点前）
</code>

这里写图片描述
ceil（45.9）：向上取整
floor（45.9）：向下取整

2、字符函数：

<code>lower：把字符串转换成小写
upper：把字符串装换成大写
length：字符串的长度
concat('hello','world')：添加一个字符串
substr(a,b)：截取字符串:(从a中，第b为开始取，取到右边所有的字符)
substr(a,b,c)：截取字符串：(从a中，第b为开始取，取c个字符)
trim：去掉字符串两端的空格
lpad('abc',10,'*')：左填充
rpad：右填充
</code>

3、收集函数和转换函数：

<code>1，收集函数：
    size：
</code>

这里写图片描述

<code>2，转换函数：
    cast：cast(1 as bigint);
</code>

4、日期函数：

<code>to_data：取出字符串中的日期部分
</code>

这里写图片描述

<code>year：取出日期中的年
month：取出日期中的月
day：取出日期中的日
</code>

这里写图片描述

<code>weekofyear：返回一个日期在一年中是第几个星期
</code>

这里写图片描述

<code>datediff：两个日期相减返回相差的天数
</code>

这里写图片描述

<code>date_add：在一个日期上加上多少天
date_sub：在一个日期上减去多少天
</code>

这里写图片描述

5、条件函数：

<code>coalesce(a,b,...)：从做到右返回第一个不为null的值
</code>

这里写图片描述

<code>case...when...: 条件表达式
    case a when b then c [when d then e]* [else f] end
</code>

这里写图片描述

6、聚合函数：

<code>count:个数
sum:求和
min:求最小值
max:求最大值
avg:求平均值
</code>

7、表生成函数：

<code>explode：把一个map集合或者是array数组中的一个元素单独生成一行
</code>

这里写图片描述

数据仓库—-hive进阶篇二

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您什麼時候應該使用複合索引與多個單列索引？Apr 11, 2025 am 12:06 AM

在數據庫優化中，應根據查詢需求選擇索引策略：1.當查詢涉及多個列且條件順序固定時，使用複合索引；2.當查詢涉及多個列但條件順序不固定時，使用多個單列索引。複合索引適用於優化多列查詢，單列索引則適合單列查詢。

如何識別和優化MySQL中的慢速查詢？（慢查詢日誌，performance_schema）Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢，需使用slowquerylog和performance_schema：1.啟用slowquerylog並設置閾值，記錄慢查詢；2.利用performance_schema分析查詢執行細節，找出性能瓶頸並優化。

MySQL和SQL：開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統，SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎，SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢，如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題，可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

描述MySQL異步主奴隸複製過程。Apr 10, 2025 am 09:30 AM

MySQL異步主從復制通過binlog實現數據同步，提升讀性能和高可用性。 1)主服務器記錄變更到binlog；2)從服務器通過I/O線程讀取binlog；3)從服務器的SQL線程應用binlog同步數據。

mysql：簡單的概念，用於輕鬆學習Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1）創建數據庫和表：使用CREATEDATABASE和CREATETABLE命令。 2）基本操作：INSERT、UPDATE、DELETE和SELECT。 3）高級操作：JOIN、子查詢和事務處理。 4）調試技巧：檢查語法、數據類型和權限。 5）優化建議：使用索引、避免SELECT*和使用事務。

MySQL：數據庫的用戶友好介紹Apr 10, 2025 am 09:27 AM

MySQL的安裝和基本操作包括：1.下載並安裝MySQL，設置根用戶密碼；2.使用SQL命令創建數據庫和表，如CREATEDATABASE和CREATETABLE；3.執行CRUD操作，使用INSERT,SELECT,UPDATE,DELETE命令；4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟，你可以從零開始構建和管理MySQL數據庫。

InnoDB緩衝池如何工作，為什麼對性能至關重要？Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中，減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL：初學者的數據管理易用性Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用，因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單，適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施，確保數據的安全和一致性。

See all articles