Mysql Tutorial

Hive查询

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:28 PM

hiveorsortsupplyInquirepass

Hive查询排序和聚集通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序

Hive查询

排序和聚集

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。

如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，则你可以使用distribute子句来完成。比如：

表student（classNo，stuNo，score）数据如下：

C01 N0101 82

C01 N0102 59

C02 N0201 81

C01 N0103 65

C03 N0302 92

C02 N0202 82

C02 N0203 79

C03 N0301 56

C03 N0306 72

我们希望按照成绩由低到高输出每个班级的成绩信息。执行以下语句：

Select classNo,stuNo,score from student distribute byclassNo sort by score;

输出结果为:

C02 N0203 79

C02 N0201 81

C02 N0202 82

C03 N0301 56

C03 N0306 72

C03 N0302 92

C01 N0102 59

C01 N0103 65

C01 N0101 82

我们可以看到每一个班级里所有的学生成绩是有序的。因为同一个classNo的记录会被分发到一个单独的reduce处理，而同时sort by保证了每一个reduce的输出是有序的。

注意：

为了测试上例中的distribute by的效果，你应该首先设置足够多的reduce。比如上例中有3个不同的classNo，则我们需要设置reduce个数至少为3或更多。如果设置的reduce个数少于3，将会导致多个不同的classNo被分发到同一个reduce，从而不能产生你所期望的输出。设置命令如下：

set mapred.reduce.tasks = 3;

MapReduce脚本

如果我们需要在查询语句中调用外部脚本，比如Python，则我们可以使用transform，map，reduce等子句。

比如，我们希望过滤掉所有不及格的学生记录，只输出及格学生的成绩信息。

新建一个Python脚本文件score_pass.py，内容如下：

#! /usr/bin/env python

import sys

for line in sys.stdin:

(classNo,stuNo,score)= line.strip().split('\t')

ifint(score) >= 60:

print"%s\t%s\t%s" %(classNo,stuNo,score)

执行以下语句

add file /home/user/score_pass.py;

select transform(classNo,stuNo,score) using'score_pass.py' as classNo,stuNo,score from student;

输出结果为：

C01 N0101 82

C02 N0201 81

C01 N0103 65

C03 N0302 92

C02 N0202 82

C02 N0203 79

C03 N0306 72

注意：

1) 以上Python脚本中，分隔符只能是制表符(\t)。同样输出的分隔符也必须为制表符。这个是有hive自身决定的，不能更改，不要尝试使用其他分隔符，否则会报错。同时需要调用strip函数，以去除掉行尾的换行符。（或者直接使用不带参数的line.split()代替。

2) 使用脚本前，先使用add file语句注册脚本文件，以便hive将其分发到Hadoop集群。

3) Transfom传递数据到Python脚本，as语句指定输出的列。

连接（join）

直接编程使用Hadoop的MapReduce是一件比较费时的事情。Hive则大大简化了这个操作。

内连接（inner join）

和SQL的内连相似。执行以下语句查询每个学生的编号和教师名：

Select a.stuNo,b.teacherName from student a join teacherb on a.classNo = b.classNo;

输出结果如下：

N0203 Sun

N0202 Sun

N0201 Sun

N0306 Wang

N0301 Wang

N0302 Wang

N0103 Zhang

N0102 Zhang

N0101 Zhang

注意：

数据文件内容请参照上一篇文章。

不要使用select xx from aa bb where aa.f=bb.f这样的语法，hive不支持这种写法。

如果需要查看hive的执行计划，你可以在语句前加上explain，比如：

explain Select a.stuNo,b.teacherName from student a jointeacher b on a.classNo = b.classNo;

外连接（outer join）

和传统SQL类似，Hive提供了left outer join，right outer join，full out join。

半连接（semi join）

Hive不提供in子查询。此时你可以用leftsemi join实现同样的功能。

执行以下语句：

Select * from teacher left semi join student onstudent.classNo = teacher.classNo;

输出结果如下：

C02 Sun

C03 Wang

C01 Zhang

可以看出，C04 Dong没有出现在查询结果中，因为C04在表student中不存在。

注意：

右表（student）中的字段只能出现在on子句中，不能出现在其他地方，比如不能出现在select子句中。

Map连接（map join）

当一个表非常小，足以直接装载到内存中去时，可以使用map连接以提高效率，比如：

Select /*+mapjoin(teacher) */ a.stuNo,b.teacherNamefrom student a join teacher b on a.classNo = b.classNo;

以上红色标记部分采用了C的注释风格。

当连接时用到不等值判断时，也比较适合Map连接。具体原因需要深入了解Hive和MapReduce的工作原理。

子查询（sub query）

运行以下语句将返回所有班级平均分的最高记录。

Select max(avgScore) as maScore

from

(Select classNo,avg(score) as avgScore from student group byclassNo) a;

输出结果：

80.66666666666667

以上语句中红色部分为一个子查询，且别名为a。返回的子查询结果和一个表类似，可以被继续查询。

视图（view）

和传统数据库中的视图类似，Hive的视图只是一个定义，视图数据并不会存储到文件系统中。同样，视图是只读的。

运行以下两个命令：

Create view avg_score as

Select classNo,avg(score) as avgScore from student groupby classNo;

Select max(avgScore) as maScore

From avg_score;

可以看到输出结果和上例中的结果是一样的。

Statement

The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn

PHP如何查询Oracle数据库中的数据Jul 13, 2023 pm 07:34 PM

PHP如何查询Oracle数据库中的数据随着互联网时代的到来，网站和应用程序的开发越来越普遍。而数据库作为数据存储和管理的关键技术，也成为了开发者们必备的工具之一。其中，Oracle数据库作为一款功能强大、稳定可靠的关系型数据库管理系统，在企业级应用中得到了广泛应用。而在开发网站或应用程序时，如何使用PHP进行Oracle数据库的查询是一个非常重要的问题。在

PHP表单处理：表单数据查询与筛选Aug 07, 2023 pm 06:17 PM

PHP表单处理：表单数据查询与筛选引言在Web开发中，表单是一种重要的交互方式，用户可以通过表单向服务器提交数据并进行进一步的处理。本文将介绍如何使用PHP处理表单数据的查询与筛选功能。表单的设计与提交首先，我们需要设计一个包含查询与筛选功能的表单。常见的表单元素包括输入框、下拉列表、单选框、复选框等，根据具体需求进行设计。用户在提交表单时，会将数据以POS

查询从节点X开始，距离最多为D的子树中的最小权重Aug 25, 2023 am 11:25 AM

在进行计算机编程时，有时需要求出源自特定节点的子树的最小权重，条件是该子树不能包含距离指定节点超过D个单位的节点。这个问题出现在各个领域和应用中，包括图论、基于树的算法和网络优化。子树是较大树结构的子集，指定的节点作为子树的根节点。子树包含根节点的所有后代及其连接边。节点的权重是指分配给该节点的特定值，可以表示其重要性、重要性或其他相关指标。在这个问题中，目标是找到子树中所有节点中的最小权重，同时将子树限制在距离根节点最多D个单位的节点。在下面的文章中，我们将深入研究从子树中挖掘最小权重的复杂性

高德地图API文档解读：Java代码实现公交车在线运行状态查询Jul 29, 2023 pm 10:45 PM

高德地图API文档解读：Java代码实现公交车在线运行状态查询导语：随着城市的发展，公共交通的重要性越来越凸显出来。人们对公交车的运行状态有着强烈的需求，例如实时到站时间、拥挤程度等信息。高德地图提供了强大的API以满足这方面的需求。本文将解读高德地图API文档，使用Java代码实现公交车在线运行状态查询，并提供代码示例。API概述高德地图API提供了丰富的

MySQL中如何进行数据的时序存储和查询？Jul 30, 2023 pm 03:09 PM

MySQL中如何进行数据的时序存储和查询？在许多应用场景中，对于数据的时序性要求是非常常见的，比如传感器数据的监测、日志记录等。MySQL作为一种常用的关系型数据库，也提供了一些方法来进行时序数据的存储和查询。一种常见的方法是使用时间戳字段来存储数据的时间信息。在MySQL中，可以使用TIMESTAMP或DATETIME类型的字段来存储时间。TIMESTAM

如何通过优化查询中的LIKE操作来提高MySQL性能May 11, 2023 am 08:11 AM

MySQL是目前最流行的关系型数据库之一，但是在处理大量数据时，MySQL的性能可能会受到影响。其中，一种常见的性能瓶颈是查询中的LIKE操作。在MySQL中，LIKE操作是用来模糊匹配字符串的，它可以在查询数据表时用来查找包含指定字符或者模式的数据记录。但是，在大型数据表中，如果使用LIKE操作，它会对数据库的性能造成影响。为了解决这个问题，我们可

翻译：对于M个查询，反转给定字符串的范围Aug 25, 2023 pm 08:09 PM

Inthisproblem,wewillperformMreversequeriesonthegivenstringaccordingtothearrayvalues.Thenaïveapproachtosolvingtheproblemistoreverseeachstringsegmentaccordingtothegivenarrayvalue.Theoptimizedapproachusesthelogicthatwhenwereversethesamesubstringtwotimes

在Go语言中使用Hive实现高效的数据仓库Jun 15, 2023 pm 08:52 PM

近年来，数据仓库成为了企业数据管理中不可或缺的一部分。直接使用数据库进行数据分析可以满足简单的查询需求，但当我们需要进行大规模数据分析时，单个数据库已经无法满足需求，这时我们需要使用数据仓库来处理海量数据。而Hive则是数据仓库领域中最流行的开源组件之一，它可以将Hadoop分布式计算引擎和SQL查询集成在一起，并支持海量数据的并行处理。同时，在Go语言中使

See all articles