搜索

Hive安装简介

Jun 07, 2016 pm 03:28 PM
hadoophive基于安装数据简介

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。 我们从Hive的安装开始,逐步学习Hive的方方面面。 安装Hive 安装前提 l Java 6 l Hadoop

Hive是基于Hadoop的数据仓库平台。

Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下,用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。

我们从Hive的安装开始,逐步学习Hive的方方面面。

安装Hive

安装前提

l Java 6

l Hadoop

选择哪一个版本请参照Hive官方文档。安装Have是不需要特别设置关于Hadoop的信息,只要保证HADOOP_HOME环境变量正确设置就可以了。

安装

我们选择下载0.11.1稳定版本。下载地址:

http://mirrors.hust.edu.cn/apache/hive/stable/

1) 解压安装包到指定的目录:

tar xzf hive-0.11.0.tar.gz

2) 设置环境变量

export HIVE_INSTALL=/opt/Hive-0.11.0

export PATH=$PATH:$HIVE_INSTALL/bin

3)输入以下命令进入Shell

Hive

Hive交互环境( Shell)

Shell是我们和Hive交互的主要工具。

Hive的查询语言我们称为HiveQL。HiveQL的设计受到了MySQL的很多影响,所以如果你熟悉MySQL的话,你会发现使用HiveQL是同样的方便。

进入Shell后,输入以下命令看看Hive是否工作正常:

SHOW TABLES;

输出结果为

OK

Time taken: 8.207seconds

如果输出结果显示有错误,可能是Hadoop没有运行,或者HADOOP_HOME变量没有真确设置。

和SQL一样,HiveQL一般是大小写无关的(字符串比较除外)。

输入命令是按Tab键,Hive将提示所有可用的输入。(命令自动完成)

第一次使用该命令可能会花上好几秒中甚至更长,因为Hive将创建metastore数据库(存储于metastore_db目录,此目录在你运行hive时所在目录之下,所以第一次运行Hive时,请先进入到合适的目录下)。

我们也可以直接从命令行运行hive脚本,比如:

hive –f /home/user/ hive.q

其中,-f 后面跟上脚本文件名(包括路径)。

无论是在交互模式还是非交互模式下,hive一般都会输出一些辅助信息,比如执行命令的时间等。如果你不需要输出这些消息,可以在进入hive时加上-s选项,比如:

hive –S

注意:S为大写

简单示例

我们以以下数据作为测试数据,结构为(班级号,学号,成绩)。

C01,N0101,82

C01,N0102,59

C01,N0103,65

C02,N0201,81

C02,N0202,82

C02,N0203,79

C03,N0301,56

C03,N0302,92

C03,N0306,72

执行以下命令:

create table student(classNostring, stuNo string, score int) row format delimited fields terminated by ',';

其中,定义表结构和SQL类似.。其它设置表示字段间以逗号分隔,一行为一个记录。

load data local inpath '/home/user/input/student.txt'overwrite into table student;

输出结果如下:

Copying data fromfile:/home/user/input/student.txt

Copying file:file:/home/user/input/student.txt

Loading data to tabledefault.student

rmr: DEPRECATED: Please use 'rm-r' instead.

Deleted/user/hive/warehouse/student

Table default.student stats:[num_partitions: 0, num_files: 1, num_rows: 0, total_size: 117, raw_data_size:0]

这个命令将student.txt文件内容加载到表student中。这个加载操作将直接把student.txt文件复制到hive的warehouse目录中,这个目录由hive.metastore.warehouse.dir配置项设置,默认值为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件。

Hive不会对student.txt做任何格式处理,因为Hive本身并不强调数据的存储格式。

此例中,Hive将数据存储于HDFS系统中。当然,Hive也可以将数据存储于本地。

如果不加overwrite选项,且加载的文件在Hive中已经存在,则Hive会为文件重新命名。比如不加overwrite选项将以上命令执行两次,则第二次加载后,hive中新产生的文件名将会是“student_copy_1.txt”。(和Hadoop权威教程中描述的不一致,读者请慎重验证)

接下来,我们执行以下命令:

select * from student;

输出如下:

C01 N0101 82

C01 N0102 59

C01 N0103 65

C02 N0201 81

C02 N0202 82

C02 N0203 79

C03 N0301 56

C03 N0302 92

C03 N0306 72

执行以下命令:

Select classNo,count(score) fromstudent where score>=60 group by classNo;

输出如下:

C01 2

C02 3

C03 2

由此看见,HiveQL的使用和SQL及其类似。我们用到了group和count,其实在后台Hive将这些操作都转换成了MapReduce操作提交给Hadoop执行,并最终输出结果。

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
MySQL的位置:数据库和编程MySQL的位置:数据库和编程Apr 13, 2025 am 12:18 AM

MySQL在数据库和编程中的地位非常重要,它是一个开源的关系型数据库管理系统,广泛应用于各种应用场景。1)MySQL提供高效的数据存储、组织和检索功能,支持Web、移动和企业级系统。2)它使用客户端-服务器架构,支持多种存储引擎和索引优化。3)基本用法包括创建表和插入数据,高级用法涉及多表JOIN和复杂查询。4)常见问题如SQL语法错误和性能问题可以通过EXPLAIN命令和慢查询日志调试。5)性能优化方法包括合理使用索引、优化查询和使用缓存,最佳实践包括使用事务和PreparedStatemen

MySQL:从小型企业到大型企业MySQL:从小型企业到大型企业Apr 13, 2025 am 12:17 AM

MySQL适合小型和大型企业。1)小型企业可使用MySQL进行基本数据管理,如存储客户信息。2)大型企业可利用MySQL处理海量数据和复杂业务逻辑,优化查询性能和事务处理。

幻影是什么读取的,InnoDB如何阻止它们(下一个键锁定)?幻影是什么读取的,InnoDB如何阻止它们(下一个键锁定)?Apr 13, 2025 am 12:16 AM

InnoDB通过Next-KeyLocking机制有效防止幻读。1)Next-KeyLocking结合行锁和间隙锁,锁定记录及其间隙,防止新记录插入。2)在实际应用中,通过优化查询和调整隔离级别,可以减少锁竞争,提高并发性能。

mysql:不是编程语言,而是...mysql:不是编程语言,而是...Apr 13, 2025 am 12:03 AM

MySQL不是一门编程语言,但其查询语言SQL具备编程语言的特性:1.SQL支持条件判断、循环和变量操作;2.通过存储过程、触发器和函数,用户可以在数据库中执行复杂逻辑操作。

MySQL:世界上最受欢迎的数据库的简介MySQL:世界上最受欢迎的数据库的简介Apr 12, 2025 am 12:18 AM

MySQL是一种开源的关系型数据库管理系统,主要用于快速、可靠地存储和检索数据。其工作原理包括客户端请求、查询解析、执行查询和返回结果。使用示例包括创建表、插入和查询数据,以及高级功能如JOIN操作。常见错误涉及SQL语法、数据类型和权限问题,优化建议包括使用索引、优化查询和分表分区。

MySQL的重要性:数据存储和管理MySQL的重要性:数据存储和管理Apr 12, 2025 am 12:18 AM

MySQL是一个开源的关系型数据库管理系统,适用于数据存储、管理、查询和安全。1.它支持多种操作系统,广泛应用于Web应用等领域。2.通过客户端-服务器架构和不同存储引擎,MySQL高效处理数据。3.基本用法包括创建数据库和表,插入、查询和更新数据。4.高级用法涉及复杂查询和存储过程。5.常见错误可通过EXPLAIN语句调试。6.性能优化包括合理使用索引和优化查询语句。

为什么要使用mysql?利益和优势为什么要使用mysql?利益和优势Apr 12, 2025 am 12:17 AM

选择MySQL的原因是其性能、可靠性、易用性和社区支持。1.MySQL提供高效的数据存储和检索功能,支持多种数据类型和高级查询操作。2.采用客户端-服务器架构和多种存储引擎,支持事务和查询优化。3.易于使用,支持多种操作系统和编程语言。4.拥有强大的社区支持,提供丰富的资源和解决方案。

描述InnoDB锁定机制(共享锁,独家锁,意向锁,记录锁,间隙锁,下一键锁)。描述InnoDB锁定机制(共享锁,独家锁,意向锁,记录锁,间隙锁,下一键锁)。Apr 12, 2025 am 12:16 AM

InnoDB的锁机制包括共享锁、排他锁、意向锁、记录锁、间隙锁和下一个键锁。1.共享锁允许事务读取数据而不阻止其他事务读取。2.排他锁阻止其他事务读取和修改数据。3.意向锁优化锁效率。4.记录锁锁定索引记录。5.间隙锁锁定索引记录间隙。6.下一个键锁是记录锁和间隙锁的组合,确保数据一致性。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具