索引的優點和缺點
為什麼要建立索引?這是因為,建立索引可以大大提高系統的效能。第一,透過建立唯一性索引,可以保證資料庫表中每一行資料的唯一性。第二,可以大幅加快資料的檢索速度,這也是創建索引的最主要的原因。第三,可以加速表和表之間的連接,特別是在實現資料的參考完整性方面特別有意義。第四,在使用分組和排序子句進行資料檢索時,同樣可以大幅減少查詢中分組和排序的時間。第五,透過使用索引,可以在查詢的過程中,使用最佳化隱藏器,提高系統的效能。
也許會有人要問:增加索引有這麼多的優點,為什麼不對表中的每一個欄位建立一個索引呢?這種想法固然有其合理性,然而也有其片面性。雖然,索引有許多優點,但是,為表中的每一個列都增加索引,是非常不明智的。這是因為,增加索引也有許多不利的一個面向。第一,建立索引和維護索引要耗費時間,這種時間隨著資料量的增加而增加。第二,索引需要佔實體空間,除了資料表佔資料空間之外,每個索引還要佔一定的實體空間,如果要建立叢集索引,那麼需要的空間就會更大。第三,當對錶中的資料進行增加、刪除和修改的時候,索引也要動態的維護,這樣就降低了資料的維護速度。
索引是建立在資料庫表中的某些欄位的上面。因此,在建立索引的時候,應該仔細考慮在哪些欄位上可以建立索引,在哪些欄位上不能建立索引。一般來說,應該在這些列上建立索引,例如:在經常需要搜尋的列上,可以加快搜尋的速度;在作為主鍵的列上,強制該列的唯一性和組織表中資料的排列結構;在經常用在連接的列上,這些列主要是一些外鍵,可以加快連接的速度;在經常需要根據範圍進行搜尋的列上建立索引,因為索引已經排序,其指定的範圍是連續的;在在經常需要排序的列上建立索引,因為索引已經排序,這樣查詢可以利用索引的排序,加快排序查詢時間;在經常使用在WHERE子句中的列上面建立索引,加快條件的判斷速度。
同樣,對於有些欄位不應該建立索引。一般來說,不應該建立索引的的這些列具有下列特點:第一,對於那些在查詢中很少使用或參考的欄位不應該建立索引。這是因為,既然這些列很少使用到,因此有索引或無索引,並不能提高查詢速度。相反,由於增加了索引,反而降低了系統的維護速度和增加了空間需求。第二,對於那些只有很少資料值的欄位也不應該增加索引。這是因為,由於這些列的值很少,例如人事表的性別列,在查詢的結果中,結果集的資料行佔了表中資料行的很大比例,即需要在表中搜尋的數據行的比例很大。增加索引,並不能明顯加快檢索速度。第三,對於那些定義為text, image和bit資料類型的資料列不應該增加索引。這是因為,這些列的資料量不是相當大,就是取值很少。第四,當修改效能遠大於檢索效能時,不應該建立索引。這是因為,修改效能和檢索效能是互相矛盾的。當增加索引時,會提高檢索效能,但是會降低修改效能。當減少索引時,會提高修改效能,降低檢索效能。因此,當修改效能遠大於檢索效能時,不應該建立索引。
建立索引的方法和索引的特徵
建立索引的方法
建立索引有多種方法,這些方法包括直接建立索引的方法和間接建立索引的方法。直接建立索引,例如使用CREATE INDEX語句或使用建立索引精靈,間接建立索引,例如在表中定義主鍵約束或唯一性鍵約束時,同時也建立了索引。雖然,這兩種方法都可以建立索引,但是,它們建立索引的具體內容是有區別的。
使用CREATE INDEX語句或使用建立索引精靈建立索引,這是最基本的索引建立方式,而此方法最具有柔性,可以自訂建立符合自己需求的索引。使用這種方式建立索引時,可以使用許多選項,例如指定資料頁的充滿度、進行排序、整理統計資料等,這樣可以最佳化索引。使用這種方法,可以指定索引的類型、唯一性和複合性,也就是說,既可以建立叢集索引,也可以建立非叢集索引,既可以在一個欄位上建立索引,也可以在兩個或兩個以上的列上建立索引。
定義主鍵約束或唯一性鍵約束,也可以間接建立索引。主鍵約束是一種保持資料完整性的邏輯,它限製表中的記錄有相同的主鍵記錄。在建立主鍵約束時,系統自動建立了一個唯一性的叢集索引。雖然,在邏輯上,主鍵約束是一種重要的結構,但是,在物理結構上,與主鍵約束相對應的結構是唯一性的聚集索引。換句話說,在物理實作上,不存在主鍵約束,而只存在唯一性的叢集索引。同樣,在建立唯一性鍵約束時,也同時建立了索引,這種索引則是唯一性的非聚集索引。因此,當使用約束創建索引時,索引的類型和特徵基本上都已經確定了,由使用者自訂的餘地比較小。
當在表上定義主鍵或唯一性鍵約束時,如果表中已經有了使用CREATE INDEX語句創建的標準索引時,那麼主鍵約束或者唯一性鍵約束創建的索引覆蓋先前創建的標準索引。也就是說,主鍵約束或唯一性鍵約束所建立的索引的優先權高於使用CREATE INDEX語句所建立的索引。
索引的特徵
索引有兩個特徵,即唯一性索引和複合索引。
唯一性索引保證在索引列中的全部資料是唯一的,不會包含冗餘資料。如果表中已經有一個主鍵約束或唯一性鍵約束,那麼當建立表格或修改表時,SQL Server會自動建立一個唯一性索引。然而,如果必須保證唯一性,那麼應該建立主鍵約束或唯一性鍵約束,而不是建立一個唯一性索引。當建立唯一性索引時,應該認真考慮這些規則:當在表中建立主鍵約束或唯一性鍵約束時,SQL Server會自動建立一個唯一性索引;如果表中已經包含有數據,那麼當建立索引時, SQL Server檢查表中已有資料的冗餘性;每當使用插入語句插入資料或使用修改語句修改資料時,SQL Server檢查資料的冗餘性:如果有冗餘值,那麼SQL Server取消該語句的執行,並且傳回一個錯誤訊息;確保表中的每一行資料都有一個唯一值,這樣可以確保每一個實體都可以唯一確認;只能在可以保證實體完整性的資料列上建立唯一性索引,例如,不能在人事表中的姓名欄位上建立唯一性索引,因為人們可以有相同的姓名。
複合索引就是一個索引建立在兩個欄位或多個欄位上。在搜尋時,當兩個或多個列作為一個關鍵值時,最好在這些列上建立複合索引。當創建複合索引時,應該考慮這些規則:最多可以把16個列合併成一個單獨的複合索引,構成複合索引的列的總長度不能超過900字節,也就是說複合列的長度不能太長;在複合索引中,所有的列必須來自同一個表中,不能跨表建立複合列;在複合索引中,列的排列順序是非常重要的,因此要認真排列列的順序,原則上,應該先定義最唯一的列,例如在(COL1,COL2)上的索引與在(COL2,COL1)上的索引是不相同的,因為兩個索引的列的順序不同;為了使查詢優化器使用複合索引,查詢語句中的WHERE子句必須參考複合索引中第一個欄位;當表中有多個關鍵列時,複合索引是非常有用的;使用複合索引可以提高查詢效能,減少在一個表中所建立的索引數量。
索引的型別
依照索引的順序與資料表的實體順序是否相同,可以把索引分成兩種。一種是資料表的物理順序與索引順序相同的聚集索引,另一種是資料表的物理順序與索引順序不相同的非聚集索引。
聚簇索引的體系結構
索引的結構類似於樹狀結構,樹的頂部稱為葉級,樹的其它部分稱為非葉級,樹的根部在非葉級中。同樣,在叢集索引中,叢集索引的葉級和非葉級構成了一個樹狀結構,索引的最低級是葉級。在叢集索引中,表格中的資料所在的資料頁是葉級,在葉級之上的索引頁是非葉級,索引資料所在的索引頁是非葉級。在聚集索引中,資料值的順序總是依照升序排列。
應該在表格中經常搜尋的欄位或依照順序存取的欄位上建立叢集索引。當建立聚簇索引時,應該考慮這些因素:每個表只能有一個聚集索引,因為表中資料的物理順序只能有一個;表中行的物理順序和索引中行的物理順序是相同的,在建立任何非叢集索引之前建立叢集索引,這是因為叢集索引改變了表格中行的物理順序,資料行按照一定的順序排列,並且自動維護這個順序;關鍵值的唯一性要麼使用UNIQUE關鍵字明確維護,要么由一個內部的唯一標識符明確維護,這些唯一性標識符是系統自己使用的,用戶不能訪問;聚簇索引的平均大小大約是數據表的百分之五,但是,實際的叢集索引的大小常常會根據索引列的大小變化而改變;在索引的建立過程中,SQL Server暫時使用目前資料庫的磁碟空間,當建立叢集索引時,需要1.2倍的表空間的大小,因此,一定要確保有足夠的空間來建立叢集索引。
當系統存取表中的資料時,首先確定在對應的列上是否存在有索引和該索引是否對要檢索的資料有意義。如果索引存在且該索引非常有意義,那麼系統使用該索引存取表中的記錄。系統從索引開始瀏覽到數據,索引瀏覽則從樹狀索引的根部開始。從根部開始,搜尋值與每個關鍵值比較,確定搜尋值是否大於或等於關鍵值。這一步驟重複進行,直到碰上一個比搜尋值大的關鍵值,或該搜尋值大於或等於索引頁上所有的關鍵值為止。
非聚集索引的體系結構
非聚集索引的結構也是樹狀結構,與叢集索引的結構非常類似,但也有明顯的差異。
在非聚集索引中,葉級僅包含關鍵值,而沒有包含資料行。非聚集索引表示行的邏輯順序。 非叢集索引有兩種體系結構:一種體系結構是在沒有叢集索引的資料表上建立非叢集索引,另一種體系結構則是在有叢集索引的資料表上建立非叢集索引。
如果一個資料表中沒有聚集索引,那麼這個資料表也稱為資料堆。當非聚集索引在資料堆的頂部建立時,系統使用索引頁中的行標識符指向資料頁中的記錄。行標識符儲存了資料所在位置的資訊。資料堆是透過使用索引分配圖(IAM)頁面來維護的。 IAM頁包含了資料堆所在群集的儲存資訊。在系統表sysindexes中,有一個指標指向了與資料堆相關的第一個IAM頁。系統使用IAM頁在資料堆中瀏覽和尋找可以插入新的記錄行的空間。這些數據頁和在這些數據頁中的記錄沒有任何的順序並且也沒有連結在一起。在這些資料頁之間的唯一的連接是IAM中記錄的順序。當在資料堆上建立了非聚集索引時,葉級中包含了指向資料頁的行標識符。行標識符指定記錄行的邏輯順序,由文件ID、頁號和行ID組成。這些行的識別碼維持唯一性。非聚集索引的葉級頁的順序不同於表中資料的物理順序。這些關鍵值在葉級中以升序維持。
當非聚集索引建立在有叢集索引的表上的時候,系統使用索引頁中的指向叢集索引的叢集鍵。聚簇鍵儲存了資料的位置資訊。如果某一個表有聚集索引,那麼非聚集索引的葉級包含了映射到叢集鍵的叢集鍵值,而不是映射到物理的行標識符。當系統存取有非聚集索引的表中資料時,並且這種非聚集索引會建立在叢集索引上,那麼它首先從非叢集索引來找到指向叢集索引的指標,然後透過使用叢集索引來找到資料。
當需要以多種方式擷取資料時,非聚集索引是非常有用的。當建立非聚集索引時,請考慮這些情況:在預設情況下,所建立的索引是非聚集索引;在每個資料表上面,可以建立不多於249個非叢集索引,而叢集索引最多只能有一個。