SQL專欄介紹十個步驟完全理解SQL的技巧
##推薦(免費):SQL
許多程式設計師視SQL 為洪水猛獸。 SQL 是一種少數的聲明性語言,它的運作方式完全不同於我們所熟知的命令列語言、物件導向的程式語言、甚至是函數語言(儘管有些人認為SQL 語言也是一種函數式語言)。 我們每天都在寫 SQL 並且應用在開源軟體 jOOQ 中。於是我想把SQL 之美介紹給那些仍然對它頭痛不已的朋友,所以本文是為了以下讀者而特地寫的:1、 在工作中會用到SQL 但是對它並不完全了解的人。
2、 能夠熟練使用 SQL 但是並不了解其語法邏輯的人。
3、 想要教別人 SQL 的人。
本文著重介紹 SELECT 句式,其他的 DML (Data Manipulation Language 資料操縱語言指令)將會在別的文章中介紹。10個簡單步驟,完全理解SQL
1、 SQL 是一種宣告式語言
首先要把這個概念記在腦中:「聲明」。 SQL 語言是為電腦聲明了一個你想從原始資料中獲得什麼樣的結果的一個範例,而不是告訴電腦如何能夠得到結果。這是不是很棒? (譯者註:簡單地說,SQL 語言宣告的是結果集的屬性,電腦會根據SQL 所宣告的內容來從資料庫中挑選出符合宣告的數據,而不是像傳統程式設計思維去指示電腦如何操作。)SELECT first_name, last_name FROM employees WHERE salary > 100000上面的例子很容易理解,我們不關心這些僱員記錄從哪裡來,我們所需要的只是那些高薪者的數據(譯者註:salary>100000 ) 。
我們要從哪裡學到這些?
如果 SQL 語言這麼簡單,那麼是什麼讓人們「聞 SQL 色變」?主要的原因是:我們潛意識中的是依照命令式程式設計的思考方式思考問題的。就好像這樣:「電腦,先執行這一步,再執行那一步,但在那之前先檢查是否符合條件 A 和條件 B 」。例如,用變數傳參、使用循環語句、迭代、呼叫函數等等,都是這種命令式程式設計的思考慣式。2、 SQL 的語法並沒有按照語法順序執行
SQL 語句有一個讓大部分人都感到困惑的特性,就是:SQL 語句的執行順序跟其語句的語法順序並不一致。 SQL 語句的語法順序是:1、 FROM 是SQL 語句執行的第一步,並非SELECT 。資料庫在執行 SQL 語句的第一步是將資料從硬碟載入到資料緩衝區中,以便對這些資料進行操作。 (譯者註:原文為“The first thing that happens is loading data from the disk into memory, in order to operate on such data.”,但是並非如此,以Oracle 等常用數據庫為例,數據是從硬碟中抽取到資料緩衝區中進行操作。)
2、SELECT 是在大部分語句執行了之後才執行的,嚴格的說是在FROM 和GROUP BY 之後執行的。要理解這一點是非常重要的,這就是為什麼你不能在 WHERE 中使用在 SELECT 中設定別名的欄位作為判斷條件的原因。
SELECT A.x + A.y AS z FROM A WHERE z = 10 -- z 在此处不可用,因为SELECT是最后执行的语句!
如果你想重複使用別名z,你有兩個選擇。要嘛就重新寫一遍 z 所代表的表達式:
SELECT A.x + A.y AS z FROM A WHERE (A.x + A.y) = 10
…或求助於衍生表、通用資料表達式或視圖,以避免別名重用。請看下文中的例子。
3、 無論在語法上或執行順序上, UNION 總是排在 ORDER BY 之前。很多人認為每個 UNION 段都能使用 ORDER BY 排序,但根據 SQL 語言標準和各個資料庫 SQL 的執行差異來看,這並不是真的。雖然某些資料庫允許 SQL 語句對子查詢(subqueries)或派生表(derived tables)進行排序,但這並不說明這個排序在 UNION 操作過後仍保持排序後的順序。
注意:並非所有的資料庫對 SQL 語句使用相同的解析方式。如 MySQL、PostgreSQL和 SQLite 中就不會按照上面第二點所說的方式執行。
我們學到了什麼?既然并不是所有的数据库都按照上述方式执行 SQL 预计,那我们的收获是什么?我们的收获是永远要记得:SQL 语句的语法顺序和其执行顺序并不一致,这样我们就能避免一般性的错误。如果你能记住 SQL 语句语法顺序和执行顺序的差异,你就能很容易的理解一些很常见的 SQL 问题。 当然,如果一种语言被设计成语法顺序直接反应其语句的执行顺序,那么这种语言对程序员是十分友好的,这种编程语言层面的设计理念已经被微软应用到了 LINQ 语言中。 3、 SQL 语言的核心是对表的引用(table references) 由于 SQL 语句语法顺序和执行顺序的不同,很多同学会认为SELECT 中的字段信息是 SQL 语句的核心。其实真正的核心在于对表的引用。 根据 SQL 标准,FROM 语句被定义为: FROM 语句的“输出”是一张联合表,来自于所有引用的表在某一维度上的联合。我们们慢慢来分析: 上面这句 FROM 语句的输出是一张联合表,联合了表 a 和表 b 。如果 a 表有三个字段, b 表有 5 个字段,那么这个“输出表”就有 8 ( =5+3)个字段。 这个联合表里的数据是 ab,即 a 和 b 的笛卡尔积。换句话说,也就是 a 表中的每一条数据都要跟 b 表中的每一条数据配对。如果 a 表有3 条数据, b 表有 5 条数据,那么联合表就会有 15 ( =53)条数据。 FROM 输出的结果被 WHERE 语句筛选后要经过 GROUP BY 语句处理,从而形成新的输出结果。我们后面还会再讨论这方面问题。 如果我们从集合论(关系代数)的角度来看,一张数据库的表就是一组数据元的关系,而每个 SQL 语句会改变一种或数种关系,从而产生出新的数据元的关系(即产生新的表)。 我们学到了什么? 思考问题的时候从表的角度来思考问题提,这样很容易理解数据如何在 SQL 语句的“流水线”上进行了什么样的变动。 4、 灵活引用表能使 SQL 语句变得更强大 灵活引用表能使 SQL 语句变得更强大。一个简单的例子就是 JOIN 的使用。严格的说 JOIN 语句并非是 SELECT 中的一部分,而是一种特殊的表引用语句。SQL 语言标准中表的连接定义如下: 就拿之前的例子来说: a 可能输入下表的连接: 将它放到之前的例子中就变成了: 尽管将一个连接表用逗号跟另一张表联合在一起并不是常用作法,但是你的确可以这么做。结果就是,最终输出的表就有了 a1+a2+b 个字段了。 (译者注:原文这里用词为 degree ,译为维度。如果把一张表视图化,我们可以想象每一张表都是由横纵两个维度组成的,横向维度即我们所说的字段或者列,英文为columns;纵向维度即代表了每条数据,英文为 record ,根据上下文,作者这里所指的应该是字段数。) 在 SQL 语句中派生表的引用甚至比表连接更加强大,下面我们就要讲到表连接。 我们学到了什么? 思考问题时,要从表引用的角度出发,这样就很容易理解数据是怎样被 SQL 语句处理的,并且能够帮助你理解那些复杂的表引用是做什么的。 更重要的是,要理解 JOIN 是构建连接表的关键词,并不是 SELECT 语句的一部分。有一些数据库允许在 INSERT 、 UPDATE 、 DELETE 中使用 JOIN 。 5、 SQL 语句中推荐使用表连接 我们先看看刚刚这句: 高级 SQL 程序员也许学会给你忠告:尽量不要使用逗号来代替 JOIN 进行表的连接,这样会提高你的 SQL 语句的可读性,并且可以避免一些错误。 利用逗号来简化 SQL 语句有时候会造成思维上的混乱,想一下下面的语句: 我们不难看出使用 JOIN 语句的好处在于: 我们学到了什么? 记着要尽量使用 JOIN 进行表的连接,永远不要在 FROM 后面使用逗号连接表。 6、 SQL 语句中不同的连接操作 SQL 语句中,表连接的方式从根本上分为五种: EQUI JOIN 这是一种最普通的 JOIN 操作,它包含两种连接方式: 用例子最容易说明其中区别: 这种连接关系在 SQL 中有两种表现方式:使用 IN,或者使用 EXISTS。“ SEMI ”在拉丁文中是“半”的意思。这种连接方式是只连接目标表的一部分。这是什么意思呢?再想一下上面关于作者和书名的连接。我们想象一下这样的情况:我们不需要作者 / 书名这样的组合,只是需要那些在书名表中的书的作者信息。那我们就能这么写: 尽管没有严格的规定说明你何时应该使用 IN ,何时应该使用 EXISTS ,但是这些事情你还是应该知道的: 因为使用 INNER JOIN 也能得到书名表中书所对应的作者信息,所以很多初学者机会认为可以通过 DISTINCT 进行去重,然后将 SEMI JOIN 语句写成这样: 这是一种很糟糕的写法,原因如下: ANTI JOIN 这种连接的关系跟 SEMI JOIN 刚好相反。在 IN 或者 EXISTS 前加一个 NOT 关键字就能使用这种连接。举个例子来说,我们列出书名表里没有书的作者: 关于性能、可读性、表达性等特性也完全可以参考 SEMI JOIN。 这篇博文介绍了在使用 NOT IN 时遇到 NULL 应该怎么办,因为有一点背离本篇主题,就不详细介绍,有兴趣的同学可以读一下 CROSS JOIN 这个连接过程就是两个连接的表的乘积:即将第一张表的每一条数据分别对应第二张表的每条数据。我们之前见过,这就是逗号在 FROM 语句中的用法。在实际的应用中,很少有地方能用到 CROSS JOIN,但是一旦用上了,你就可以用这样的 SQL语句表达: pISION pISION 的确是一个怪胎。简而言之,如果 JOIN 是一个乘法运算,那么 pISION 就是 JOIN 的逆过程。pISION 的关系很难用 SQL 表达出来,介于这是一个新手指南,解释 pISION 已经超出了我们的目的。 我们学到了什么? 学到了很多!让我们在脑海中再回想一下。SQL 是对表的引用, JOIN 则是一种引用表的复杂方式。但是 SQL 语言的表达方式和实际我们所需要的逻辑关系之间是有区别的,并非所有的逻辑关系都能找到对应的 JOIN 操作,所以这就要我们在平时多积累和学习关系逻辑,这样你就能在以后编写 SQL 语句中选择适当的 JOIN 操作了。 7、 SQL 中如同变量的派生表 在这之前,我们学习到过 SQL 是一种声明性的语言,并且 SQL 语句中不能包含变量。但是你能写出类似于变量的语句,这些就叫做派生表: 说白了,所谓的派生表就是在括号之中的子查询: 需要注意的是有些时候我们可以给派生表定义一个相关名(即我们所说的别名)。 派生表可以有效的避免由于 SQL 逻辑而产生的问题。举例来说:如果你想重用一个用 SELECT 和 WHERE 语句查询出的结果,这样写就可以(以 Oracle 为例): 需要我们注意的是:在有些数据库,以及 SQL :1990 标准中,派生表被归为下一级——通用表语句( common table experssion)。这就允许你在一个 SELECT 语句中对派生表多次重用。上面的例子就(几乎)等价于下面的语句: 当然了,你也可以给“ a ”创建一个单独的视图,这样你就可以在更广泛的范围内重用这个派生表了。 我们学到了什么? 我们反复强调,大体上来说 SQL 语句就是对表的引用,而并非对字段的引用。要好好利用这一点,不要害怕使用派生表或者其他更复杂的语句。 8、 SQL 语句中 GROUP BY 是对表的引用进行的操作 让我们再回想一下之前的 FROM 语句: 现在,我们将 GROUP BY 应用到上面的语句中: 上面语句的结果就是产生出了一个包含三个字段的新的表的引用。我们来仔细理解一下这句话:当你应用 GROUP BY 的时候, SELECT 后没有使用聚合函数的列,都要出现在 GROUP BY 后面。(译者注:原文大意为“当你是用 GROUP BY 的时候,你能够对其进行下一级逻辑操作的列会减少,包括在 SELECT 中的列”)。 需要注意的是:其他字段能够使用聚合函数: 还有一点值得留意的是:MySQL 并不坚持这个标准,这的确是令人很困惑的地方。(译者注:这并不是说 MySQL 没有 GROUP BY 的功能)但是不要被 MySQL 所迷惑。GROUP BY 改变了对表引用的方式。你可以像这样既在 SELECT 中引用某一字段,也在 GROUP BY 中对其进行分组。 我们学到了什么? GROUP BY,再次强调一次,是在表的引用上进行了操作,将其转换为一种新的引用方式。 9、 SQL 语句中的 SELECT 实质上是对关系的映射 我个人比较喜欢“映射”这个词,尤其是把它用在关系代数上。(译者注:原文用词为 projection ,该词有两层含义,第一种含义是预测、规划、设计,第二种意思是投射、映射,经过反复推敲,我觉得这里用映射能够更直观的表达出 SELECT 的作用)。一旦你建立起来了表的引用,经过修改、变形,你能够一步一步的将其映射到另一个模型中。SELECT 语句就像一个“投影仪”,我们可以将其理解成一个将源表中的数据按照一定的逻辑转换成目标表数据的函数。 通过 SELECT语句,你能对每一个字段进行操作,通过复杂的表达式生成所需要的数据。 SELECT 语句有很多特殊的规则,至少你应该熟悉以下几条: 一些更复杂的规则多到足够写出另一篇文章了。比如:为何你不能在一个没有 GROUP BY 的 SELECT 语句中同时使用普通函数和聚合函数?(上面的第 4 条) 原因如下: 糊涂了?是的,我也是。我们再回过头来看点浅显的东西吧。 我们学到了什么? SELECT 语句可能是 SQL 语句中最难的部分了,尽管他看上去很简单。其他语句的作用其实就是对表的不同形式的引用。而 SELECT 语句则把这些引用整合在了一起,通过逻辑规则将源表映射到目标表,而且这个过程是可逆的,我们可以清楚的知道目标表的数据是怎么来的。 想要学习好 SQL 语言,就要在使用 SELECT 语句之前弄懂其他的语句,虽然 SELECT 是语法结构中的第一个关键词,但它应该是我们最后一个掌握的。 10、 SQL 语句中的几个简单的关键词:DISTINCT , UNION , ORDER BY 和 OFFSET 在学习完复杂的 SELECT 豫剧之后,我们再来看点简单的东西: 集合运算( DISTINCT 和 UNION ) 排序运算( ORDER BY,OFFSET…FETCH) 集合运算( set operation): 集合运算主要操作在于集合上,事实上指的就是对表的一种操作。从概念上来说,他们很好理解: DISTINCT 在映射之后对数据进行去重 UNION 将两个子查询拼接起来并去重 UNION ALL 将两个子查询拼接起来但不去重 EXCEPT 將第二個字查詢中的結果從第一個子查詢中去掉 INTERSECT 保留兩個子查詢中都有的結果並去重 排序運算( ordering operation): 排序運算跟邏輯關係無關。這是一個 SQL 特有的功能。排序運算不僅在 SQL 語句的最後,在 SQL 語句運行的過程中也是最後執行的。使用 ORDER BY 和 OFFSET…FETCH 是保證資料能夠按照順序排列的最有效的方式。其他所有的排序方式都有一定隨機性,儘管它們得到的排序結果是可重現的。 OFFSET…SET是一個沒有統一確定語法的語句,不同的資料庫有不同的表達方式,如 MySQL 和 PostgreSQL 的 LIMIT…OFFSET、SQL Server 和 Sybase 的 TOP…START AT 等。 讓我們在工作中盡情的使用 SQL! 就像其他語言一樣,想要學好 SQL 語言就要大量的練習。上面的 10 個簡單的步驟能夠幫助你對你每天所寫的 SQL 語句有更好的理解。另一方面來講,從平常常見的錯誤也能累積到很多經驗。 <from clause> ::= FROM <table reference> [ { <comma> <table reference> }... ]
FROM a, b
<table reference> ::=
<table name>
| <derived table>
| <joined table>
FROM a, b
a1 JOIN a2 ON a1.id = a2.id
FROM a1 JOIN a2 ON a1.id = a2.id, b
FROM a, b
FROM a, b, c, d, e, f, g, h
WHERE a.a1 = b.bx
AND a.a2 = c.c1
AND d.d1 = b.bc
-- etc...
-- This table reference contains authors and their books.
-- There is one record for each book and its author.
-- authors without books are NOT included
author JOIN book ON author.id = book.author_id
-- This table reference contains authors and their books
-- There is one record for each book and its author.
-- ... OR there is an "empty" record for authors without books
-- ("empty" meaning that all book columns are NULL)
author LEFT OUTER JOIN book ON author.id = book.author_id
-- Using IN
FROM author
WHERE author.id IN (SELECT book.author_id FROM book)
-- Using EXISTS
FROM author
WHERE EXISTS (SELECT 1 FROM book WHERE book.author_id = author.id)
-- Find only those authors who also have books
SELECT DISTINCT first_name, last_name
FROM author
JOIN book ON author.id = book.author_id
-- Using IN
FROM author
WHERE author.id NOT IN (SELECT book.author_id FROM book)
-- Using EXISTS
FROM author
WHERE NOT EXISTS (SELECT 1 FROM book WHERE book.author_id = author.id)
-- Combine every author with every book
author CROSS JOIN book
-- A derived table
FROM (SELECT * FROM author)
-- A derived table with an alias
FROM (SELECT * FROM author) a
-- Get authors' first and last names, and their age in days
SELECT first_name, last_name, age
FROM (
SELECT first_name, last_name, current_date - date_of_birth age
FROM author
)
-- If the age is greater than 10000 days
WHERE age > 10000
WITH a AS (
SELECT first_name, last_name, current_date - date_of_birth age
FROM author
)
SELECT *
FROM a
WHERE age > 10000
FROM a, b
GROUP BY A.x, A.y, B.z
SELECT A.x, A.y, SUM(A.z)
FROM A
GROUP BY A.x, A.y
以上是介紹十步完全理解 SQL的詳細內容。更多資訊請關注PHP中文網其他相關文章!