一.前言:
在我們的生活中,導出可以看到索引效果的應用,如在火車站觀看的車次表、字典的目錄等。它們的作用就是索引的作用,透過不斷的縮小想要獲得資料的範圍來篩選出最終想要的結果,同時把隨機的事件變成順序的事件,也就是我們總是透過同一種查找方式來鎖定資料(字典的A-Z查找)。
生活舉例-搭火車:我去搭火車回老家,如果要坐火車時沒有車次表,最壞的結果我要跑遍每一個火車停靠點才能找到我要坐的火車;但是有了時刻表,我能快速知道我要做的火車在哪裡停靠,可以直接奔向那裡去,而不是一個過去看看是否為我要做的列車,從而加快訪問的速度。這個車次表,就是資料庫的索引。
二.磁碟原理:
這一部分文字理論比較多,看著還頭疼,有興趣也可看看,沒興趣也不影響後邊篇章的閱讀,只要記住本部分的一個結論即可:
讀取資料盡可能的【減少與作業系統I/O互動的次數】。
好了沒興趣的可以跳過了,到下一部分了。
資料庫實現比較複雜,資料保存在磁碟上,而為了提高效能,每次又可以把部分資料讀入記憶體來計算,因為我們知道存取磁碟的成本大概是存取記憶體的十萬倍左右,所以簡單的搜尋樹難以滿足複雜的應用場景。前面提到了存取磁盤,那麼這裡先簡單介紹一下磁碟IO和預讀,磁碟讀取資料靠的是機械運動,每次讀取資料花費的時間可以分為尋道時間、旋轉延遲、傳輸時間三個部分,
a)·尋道時間:磁臂移動到指定磁軌所需的時間,主流磁碟一般在5ms以下; b)旋轉延遲:就是我們常聽說的磁碟轉速,例如一個磁碟7200轉,表示每分鐘能轉7200次,也就是說1秒鐘能轉120次,旋轉延遲就是1/120/2 = 4.17ms; c).傳輸時間:指的是從磁碟讀出或將資料寫入磁碟的時間,一般在零點幾毫秒,相對於前兩個時間可以忽略。
(看過一篇很詳細文章:http://wdxtub.com/2016/04/16/thin-csapp-3/)
那麼造訪一次磁碟的時間,即一次磁碟IO的時間約等於5+ 4.17 = 9ms左右,聽起來還挺不錯的,但要知道一台500-MIPS(Million Instructions Per Second每秒百萬指令數)的機器每秒可以執行5億條指令,因為指令依靠的是電的性質,換句話說執行一次IO的時間可以執行40萬條指令,資料庫動輒十萬百萬乃至千萬級數據,每次9毫秒的時間,顯然是個災難。
所以,結論:減少作業系統I/O互動的次數。
(每一次IO讀取的資料我們稱為一頁(page)。具體一頁有多大資料跟作業系統有關,一般為4k或8k,也就是我們讀取一頁內的資料時候,實際上才發生了一次IO)
三.什麼是索引:
在資料庫系統的使用過程當中,資料的查詢是使用最頻繁的一種資料運算。
最基本的查詢演算法當然是順序查找(linear search),遍歷表然後逐行匹配行值是否等於待查找的關鍵字,其時間複雜度為O(n)。但時間複雜度為O(n)的演算法規模小的表,負載輕的資料庫,也能有好的效能。 但是資料增加的時候,時間複雜度為O(n)的演算法顯然是糟糕的,效能很快就下降了。
好在電腦科學的發展提供了許多更優秀的查找演算法,例如二分查找(binary search)、二元樹查找(binary tree search)等。如果稍微分析一下會發現,每種查找演算法都只能應用於特定的資料結構之上,例如二分查找要求被檢索資料有序,而二叉樹查找只能應用於二叉查找樹上,但是資料本身的組織結構不可能完全滿足各種資料結構(例如,理論上不可能同時將兩列都按順序進行組織),所以,在資料之外,資料庫系統還維護著滿足特定查找演算法的資料結構,這些資料結構以某種方式引用(指向)數據,這樣就可以在這些數據結構上實現高級查找演算法。這種資料結構,就是索引。
四.MySQL的B-Tree索引(技術上說B+Tree)
好,本篇的核心來了!
在 MySQL 中,主要有四種類型的索引,分別為: B-Tree 索引, Hash 索引, Fulltext 索引和 R-Tree 索引。我們主要分析B-Tree 索引。 ( B:balace 平衡之意,非binary tree 二元樹)
1.詳解b+樹資料結構
上圖,是一顆b+tree,(innodb引擎下的,與myisam引擎下的B+結構又不一樣,說白了就是聚簇索引與非聚簇索引的區別,詳細見:
Mysql-聚簇索引
淺藍色的區塊我們稱為一個磁碟區塊,可以看到每個磁碟區塊包含幾個資料項目(深藍色所示,範圍: [(M/2)-1, M-1] M為總資料)和指標(黃色所示),如磁碟區塊1包含資料項17和35,包含指標P1、P2、P3,P1表示小於17的磁碟區塊,P2表示在17和35之間的磁碟區塊,P3表示大於35的磁碟區塊。不儲存真實的資料(B+的特點),只儲存指引搜尋方向的資料項,如17、35並不真實存在於資料表中。示,如果要查找資料項29,那麼首先會把磁碟區塊1由磁碟加載到內存,此時發生一次IO,在內存中用二分查找確定29在17和35之間,鎖定磁碟塊1的P2指針,內存時間因為非常短(相比磁碟的IO)可以忽略不計,透過磁碟區塊1的P2指標的磁碟位址把磁碟區塊3由磁碟載入到內存,發生第二次IO,29在26和30之間,鎖定磁碟區塊3的P2指針,透過指針載入磁碟區塊8到內存,發生第三次IO,同時記憶體中做二分查找找到29,結束查詢,總計三次IO。 b+樹可以表示百萬的數據,如果上百萬的數據查找只需要三次IO,性能提高將是巨大的,如果沒有索引,每個數據項都要發生一次IO,那麼總共需要百萬次的IO,顯然成本非常非常高。個索引,難不成每個索引下邊都儲存有資料?每張表只能有一個聚集索引,可以有多個輔助索引。
1). 透過上面的分析,我們知道IO次數取決於b+數的高度h,假設當前資料表的資料為N,每個磁碟區塊的資料項的數量是m,則有h=㏒(m +1)N,當資料量N一定的情況下,m越大,h越小;而m
= 磁碟區塊的大小/ 資料項的大小,磁碟區塊的大小也就是一個資料頁的大小,是固定的,如果資料項佔的空間越小,資料項的數量越多,樹的高度h越低, I/O也就少。這就是為什麼每個資料項,也就是索引欄位要盡量的小。
如果是左邊的結構,I/O次數為三次;如果是右邊的線性表,I/O次數為6次,很明顯嘛IO變多了
映射兩個結論:1.要設定成索引的字段len要小;2.做聯合索引時,聯合的字段數也要少2).當b+樹的資料項是複合的資料結構(多列索引),例如(name,age,sex)的時候,b+數是按照從左到右的順序來建立搜尋樹的。
映射兩個結論:
2.如果有了多列索引,那麼從左到右一次的索引不需要建立(a,b,c) 那麼(a),(a,b)就不用建立了
3. 更多結論: Mysql-索引總結 http://blog.csdn.net/ty_hf/article/details/53526405
以上就是 Mysql-索引資料結構的內容,更多相關內容請關注PHP中文網(www.php.cn)!