SQL Join的一些总结(实例)-mysql教程-PHP中文网

首页

数据库

mysql教程

SQL Join的一些总结(实例)

PHP中文网

Jun 07, 2016 pm 06:07 PM

Join是关系型数据库系统的重要操作之一，SQL Server中包含的常用Join：内联接、外联接和交叉联接等

1.1.1 摘要
Join是关系型数据库系统的重要操作之一，SQL Server中包含的常用Join：内联接、外联接和交叉联接等。如果我们想在两个或以上的表获取其中从一个表中的行与另一个表中的行匹配的数据，这时我们应该考虑使用Join，因为Join具体联接表或函数进行查询的特性

本文将通过具体例子介绍SQL中的各种常用Join的特性和使用场合：

1.1.2 正文
首先我们在tempdb中分别定义三个表College、Student和Apply，具体SQL代码如下：
代码如下:

USE tempdb 

---- If database exists the same name datatable deletes it. 
IF EXISTS(SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = &#39;College&#39;) 
DROP TABLE College; 
IF EXISTS(SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = &#39;Student&#39;) 
DROP TABLE Student; 
IF EXISTS(SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES WHERE TABLE_NAME = &#39;Apply&#39;) 
DROP TABLE Apply; 

---- Create Database. 
create table College(cName nvarchar(50), state text, enrollment int); 
create table Student(sID int, sName nvarchar(50), GPA real, sizeHS int); 
create table Apply(sID int, cName nvarchar(50), major nvarchar(50), decision text);

Inner join

内联接（Inner join）是最常用的联接类型之一，它查询满足联接谓词的数据。

假设我们要查询申请表Apply中申请学校的相关信息，由于Apply表中包含学校名字我们并不能预知，所以我们可以根据cName来内联接（Inner join）表College和Apply，从而找到Apply表中包含学校的信息。

具体SQL代码如下：
代码如下:

---- Gets college information from college table 
---- bases on college name. 
SELECT DISTINCT College.cName, College.enrollment 
FROM College INNER JOIN 
Apply ON College.cName = Apply.cName

图1查询结果
表1 College表中的数据

cName	state	enrollment
Stanford	CA	15000
Berkeley	CA	36000
MIT	MA	10000
Cornell	NY	21000
Harvard	MA	29000

如上图1所示，我们把Apply表包含的学校信息查询出来了，由于Harvard并没有被查询出来，所以我们知道暂时还没有学生申请Harvard。

内联接（Inner join）满足交换律：“A inner join B” 和 “B inner join A” 是相等的。

Outer join
假设我们想看到所有学校信息；即使是那些没有申请的学校（如：Harvard），这时我们可以使用外部联接（Outer join）进行查询。由于外部联接保存一个或两个输入表的所有行，即使无法找到匹配联接谓词的行。

具体SQL代码如下：
代码如下:

---- Gets all college information 
SELECT College.cName, College.state, College.enrollment, 
Apply.cName, Apply.major, Apply.decision 
FROM College LEFT OUTER JOIN

图3左联接查询结果

如上图3所示：由于在Apply表中并没有学生申请Harvard，但是我们通过左联接（left outer join）把所有学校信息查询出来了。

由于左联接（left outer join）产生表College的完全集，而Apply表中匹配的则有值，而不匹配的则以NULL值取代，所以我们知道Apply表中没有学生申请Harvard。

通过左联接查询我们可以获取College的完全集，假设现在我们既要获取College的完全集又要获取Apply的完全集，那么我们可以考虑使用完整外部联接（full outer join）。使用完整外部联接，我们可以查询所有的学校，不管它们是否匹配联接谓词：
代码如下:

--- Gets all information from college and apply table. 
SELECT College.cName, College.state, College.enrollment, 
Apply.cName, Apply.major, Apply.decision 
FROM College FULL OUTER JOIN 
Apply ON College.cName = Apply.cName

图3 完整外部联接查询结果

现在我们获取了College和Apply的完全数据集，对于表中匹配的则有值，即使没有找到匹配cName的则以NULL值取代。

下表显示每种外部联接（outer join）匹配时保留数据行的情况：

联接类型	保留数据行
A left outer join B	all A rows
A right outer join B	all B rows
A full outer join B	all A and B rows

表2 外部联接保留数据行

完整外部联接（full outer join）满足交换律：“A full outer join B” 和 “B full outer join A” 是相等的。

Cross join
交叉联接（cross join）执行两个表的笛卡尔积（就是把表A和表B的数据进行一个N*M的组合）。也就是说，它匹配一个表与另一个表中的每一行；我们不能通过使用ON子句在交叉联接指定谓词，虽然我们可以使用WHERE子句来实现相同的结果，这是交叉联接基本上是作为一个内部联接了。

交叉联接相对于内部联接使用率较低，而且两个大表不应该进行交叉联接，因为这将导致一个非常昂贵的操作和一个非常大的结果集。

具体SQL代码如下：
代码如下:

---- College Cross join Apply. 
SELECT College.cName, College.state, College.enrollment, 
Apply.cName, Apply.major, Apply.decision 
FROM College 
CROSS JOIN Apply

图4 College表和Apply表的行数

图5 交叉联接

现在我们对College和Apply表进行交叉联接，而且生成数据行为College和Apply表行数的笛卡尔积即5 * 20 = 100。

Cross apply
在SQL Server 2005中提供了Cross apply使表可以和表值函数（table-valued functions TVF‘s）结果进行join查询。例如，现在我们想通过函数的结果值和表Student进行查询，这时我们可以使用Cross apply进行查询：
代码如下:

---- Creates a function to get data from Apply base on sID. 
CREATE FUNCTION dbo.fn_Apply(@sID int) 
RETURNS @Apply TABLE (cName nvarchar(50), major nvarchar(50)) 
AS 
BEGIN 
INSERT @Apply SELECT cName, major FROM Apply where [sID] = @sID 
RETURN 
END 
---- Student cross apply function fn_Apply. 
SELECT Student.sName, Student.GPA, Student.sizeHS, 
cName, major 
FROM Student CROSS APPLY dbo.fn_Apply([sID])

我们也可以使用内部联接实现和Cross apply相同的查询功能，具体SQL代码如下：
代码如下:

---- Student INNER JOIN Apply bases on sID. 
SELECT Student.sName, Student.GPA, Student.sizeHS, 
cName, major 
FROM Student INNER JOIN [Apply] 
ON Student.sID = [Apply].sID

图6 Cross apply查询

Outer apply
在介绍Cross apply和Outer join之后，现在让我们理解Out apply也就不难了，Outer apply使表可以和表值函数（table-valued functions TVF‘s）结果进行join查询，找到匹配值则有值，没有找到匹配值则以NULL表示。
代码如下:

---- Student outer apply function fn_Apply. 
SELECT Student.sName, Student.GPA, Student.sizeHS, 
cName, major 
FROM Student OUTER APPLY dbo.fn_Apply([sID])

图7 Outer apply查询

Inner Join和Cross apply的区别

首先我们知道Inner join是表和表的联接查询，而Cross apply是表和表值函数的联接查询，在前面Cross apply例子中，我们也可以通过Inner join实现相同的查询。
代码如下:

---- Student cross apply function fn_Apply. 
SET STATISTICS PROFILE ON 
SET STATISTICS TIME ON 
SELECT Student.sName, Student.GPA, Student.sizeHS, 
cName, major 
FROM Student CROSS APPLY dbo.fn_Apply([sID]) 
SET STATISTICS PROFILE OFF 
SET STATISTICS TIME OFF 
---- Student INNER JOIN Apply base on sID. 
SET STATISTICS PROFILE ON 
SET STATISTICS TIME ON 
SELECT Student.sName, Student.GPA, Student.sizeHS, 
cName, major 
FROM Student INNER JOIN [Apply] 
ON Student.sID = [Apply].sID 
SET STATISTICS PROFILE OFF 
SET STATISTICS TIME OFFCross apply

查询执行时间:

CPU 时间= 0 毫秒，占用时间= 11 毫秒。

Inner join查询执行时间:

CPU 时间= 0 毫秒，占用时间= 4 毫秒。

图8 执行计划

如图8所示：Cross apply首先执行TVF（table-valued functions），然后对表Studnet进行全表扫描，接着通过遍历sID查找匹配值。

Inner join对表Student和Apply进行全表扫描，然后通过哈希匹配查找匹配的sID值。

通过以上的SQL执行时间和执行计划，我们能不能说Inner join比Cross apply好呢？答案是否定的，如果表的数据量很大，那么Inner join的全表扫描耗费时间和CPU资源就增加了（可通过数据量大的表进行测试）。

虽然大多数采用Cross apply实现的查询，可以通过Inner join实现，但Cross apply可能产生更好的执行计划和更佳的性能，因为它可以在联接执行之前限制集合加入。

Semi-join和Anti-semi-join

Semi-join从一个表中返回的行与另一个表中数据行进行不完全联接查询（查找到匹配的数据行就返回，不再继续查找）。

Anti-semi-join从一个表中返回的行与另一个表中数据行进行不完全联接查询，然后返回不匹配的数据。

不同于其他的联接运算，Semi-join和Anti-semi-join没有明确的语法来实现，但Semi-join和Anti-semi-join在SQL Server中有多种应用场合。我们可以使用EXISTS子来实现Semi-join查询，Not EXISTS来实现Anti-semi-join。现在让我们通过具体的例子说明吧！

假设要求我们找出Apply和Student表中sID匹配的学生信息，这和前面的Inner join查询结果将一样，具体SQL代码如下：
代码如下:

---- Student Semi-join Apply base on sID. 
SELECT Student.sName, Student.GPA, Student.sizeHS 
----[Apply].cName, [Apply].major 
FROM Student 
WHERE exists ( 
SELECT * 
from [Apply] 
where [Apply].sID = Student.sID 
)

我们发现常用的EXISTS子句，原来是通过Left Semi Join实现的，所以说Semi-join在SQL Server中又许多使用场合。

图9 查询结果

图10 执行计划

现在要求我们找出还没有申请学校的学生信息，这时我们立刻反应可以使用NOT EXISTS子句来实现该查询，具体SQL代码如下：
代码如下:

---- Gets student still not apply for school. 
SELECT Student.sID, Student.sName, Student.GPA, Student.sizeHS 
----[Apply].cName, [Apply].major 
FROM Student 
WHERE NOT EXISTS ( 
SELECT * 
FROM [Apply] 
WHERE [Apply].sID = Student.sID 
)

其实，我们常用的NOT EXISTS子句的实现是通过Anti-semi-join，通过执行计划我们发现在查找匹配sID时，SQL使用 Left Anti Semi Join进行查询。

图11 查询结果

图12 执行计划

1.1.3 总结
本文介绍了SQL中常用了联接查询方式：Inner join、Outer join、Cross join和Cross apply的使用场合和特性，更多相关内容请关注PHP中文网（www.php.cn）！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

MySQL索引基数如何影响查询性能？Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显着影响：1.高基数索引能更有效地缩小数据范围，提高查询效率；2.低基数索引可能导致全表扫描，降低查询性能；3.在联合索引中，应将高基数列放在前面以优化查询。

MySQL：新用户的资源和教程Apr 14, 2025 am 12:16 AM

MySQL学习路径包括基础知识、核心概念、使用示例和优化技巧。1)了解表、行、列、SQL查询等基础概念。2)学习MySQL的定义、工作原理和优势。3)掌握基本CRUD操作和高级用法，如索引和存储过程。4)熟悉常见错误调试和性能优化建议，如合理使用索引和优化查询。通过这些步骤，你将全面掌握MySQL的使用和优化。

现实世界Mysql：示例和用例Apr 14, 2025 am 12:15 AM

MySQL在现实世界的应用包括基础数据库设计和复杂查询优化。1)基本用法：用于存储和管理用户数据，如插入、查询、更新和删除用户信息。2)高级用法：处理复杂业务逻辑，如电子商务平台的订单和库存管理。3)性能优化：通过合理使用索引、分区表和查询缓存来提升性能。

MySQL中的SQL命令：实践示例Apr 14, 2025 am 12:09 AM

MySQL中的SQL命令可以分为DDL、DML、DQL、DCL等类别，用于创建、修改、删除数据库和表，插入、更新、删除数据，以及执行复杂的查询操作。1.基本用法包括CREATETABLE创建表、INSERTINTO插入数据和SELECT查询数据。2.高级用法涉及JOIN进行表联接、子查询和GROUPBY进行数据聚合。3.常见错误如语法错误、数据类型不匹配和权限问题可以通过语法检查、数据类型转换和权限管理来调试。4.性能优化建议包括使用索引、避免全表扫描、优化JOIN操作和使用事务来保证数据一致性

InnoDB如何处理酸合规性？Apr 14, 2025 am 12:03 AM

InnoDB通过undolog实现原子性，通过锁机制和MVCC实现一致性和隔离性，通过redolog实现持久性。1）原子性：使用undolog记录原始数据，确保事务可回滚。2）一致性：通过行级锁和MVCC确保数据一致。3）隔离性：支持多种隔离级别，默认使用REPEATABLEREAD。4）持久性：使用redolog记录修改，确保数据持久保存。

MySQL的位置：数据库和编程Apr 13, 2025 am 12:18 AM

MySQL在数据库和编程中的地位非常重要，它是一个开源的关系型数据库管理系统，广泛应用于各种应用场景。1）MySQL提供高效的数据存储、组织和检索功能，支持Web、移动和企业级系统。2）它使用客户端-服务器架构，支持多种存储引擎和索引优化。3）基本用法包括创建表和插入数据，高级用法涉及多表JOIN和复杂查询。4）常见问题如SQL语法错误和性能问题可以通过EXPLAIN命令和慢查询日志调试。5）性能优化方法包括合理使用索引、优化查询和使用缓存，最佳实践包括使用事务和PreparedStatemen