面試官:有操作過Linux嗎?
我:有的呀
面試官:我想查看記憶體的使用情況該用什麼指令
我:free 或top
#面試官:那你說一下用free指令都可以看到啥資訊
我:那,如下圖所示可以看到記憶體以及快取的使用情況
total 總記憶體
#used 已使用記憶體
free 空閒記憶體
buff/cache 已使用的快取
##avaiable 可用記憶體
#面試官:那你知道怎麼清理已使用的快取嗎(buff/cache)
我:em… 不知道
面試官:sync; echo 3 > /proc/sys/vm/drop_caches
就可以清理buff/cache了,你說說我在線上執行這條指令做好不好?
我:(送分題,內心大喜)好處大大的有,清理出緩存我們就有更多可用的內存空間, 就跟pc上面xx衛士的小火箭一樣,點一下,就釋放出好多的內存
面試官:em…., 回去等通知吧
面試官:換個話題,談談你對join的理解
我:好的(再答錯就徹底完了,把握住機會)
#SQL中的join可以根據某些條件把指定的表結合起來並將資料傳回給客戶端
join的方式有
inner join 內連線
#left join 左邊連線
#right join 右邊連接
full join 全連接
#################### #圖片來源:https://www.cnblogs.com/reaptomorrow-flydream/p/8145610.html############
面試官:在專案開發中如果需要使用join語句,如何優化提升效能?
我:分為兩種情況,資料規模小的,資料規模大的。
面試官: 然後?
我:對於
1.資料規模較小全部乾進記憶體就完事了嗷
2.資料規模較大
#可以透過增加索引來最佳化join語句的執行速度
可以透過冗餘資訊來減少join的次數
#盡量減少表格連結的次數,一個SQL語句表連接的次數不要超過5次
面試官:可以總結為join語句是相對比較耗費效能,對嗎?
我:是的
面試官: 為什麼?
我: 在執行join語句的時候必然要有一個比較的過程
面試官: 是的
我:逐條比較兩個表的語句是比較慢的,因此我們可以把兩個表中資料依次讀進一個記憶體區塊中, 以MySQL的InnoDB引擎為例,使用以下語句我們必然可以查到相關的記憶體區域show variables like '%buffer%'
#面試官: 除此之外呢?
##一個大前提任何專案終究要上線,不可避免的要產生數據,數據的規模又不可能太小
面試官:是這樣的
我:大部分資料庫中的資料最終要保存到硬碟上,並且以檔案的形式進行儲存。 以MySQL的InnoDB引擎為例 #InnoDB以頁(page)為基本的IO單位,每頁的大小為16KB InnoDB會為每個表建立用於儲存資料的.ibd檔案 驗證 我:這意味著我們有多少表要連接就需要讀多少個文件,雖然可以利用索引,但還是免不了頻繁的移動硬碟的磁頭 面試官:也就是說頻繁的移動磁頭會影響性能對吧 我:是的,現在的開源框架不都喜歡說自己透過順序讀寫大大的提升了效能嗎,比如hbase、kafka 面試官:說的沒錯,那你認為Linux有對此做出最佳化嗎?提示,你可以再執行一次free指令看一下 我:奇怪快取怎麼佔用了1.2G多
#圖片來源:https://www.linuxatemyram.com/ 面試官:你有沒有想過 buff/cache 裡面存的是什麼? 為什麼buff/cache 佔了那麼多內存,可用內存即availlable還有1.1G? 為什麼你可以透過兩個指令來清理buff/cache佔用的內存,而想要釋放used只能透過結束進程來實現? 品,你細品 思考了幾分鐘後 我:這麼隨便就釋放了buff/cache所佔用的內存,說明它就不重要, 清除它不會對系統的運行造成影響 面試官: 不完全對 我:難道是?想起來《CSAPP》(深入理解電腦系統)裡面說過一句話 記憶體層次結構的本質是,每一層儲存裝置都是較低一層裝置的快取 通俗來說,就是說Linux會把記憶體當作是硬碟的快取問題 相關資料:http://tldp.org /LDP/sag/html/buffer-cache.html 面試官:現在知道那道送分題該怎麼回答了吧 我:我…. 面試官:再給你個機會,如果讓你來實作Join演算法你會怎麼做? 我:無索引的話,巢狀迴圈就完事了嗷。有索引的話,則可以利用索引來提升效能. 面試官:說回join_buffer 你認為join_buffer裡面儲存的是什麼? 我:在掃描過程中,資料庫會選擇一個表格把他要返回以及需要進行和其他表格進行比較的資料放進join_buffer 面試官:有索引的情況下是怎麼處理的? 我:這個就比較簡單了,直接讀取兩個表的索引樹進行比較就完事了嗷,我這邊介紹一下無索引的處理方式 Nested Loop Join
#嵌套循環,每次只讀取表中的一行數據,也就是說如果outerTable有10萬行數據, innerTable有100行數據,需要讀取10000000次(假設這兩個表的檔案沒有被操作系統給緩存到內存, 我們稱之為冷數據表) #當然現在沒啥資料庫引擎使用這種演算法(太慢了) Block nested loop # #Block 區塊,也就是說每次都會取一塊資料到記憶體以減少I/O的開銷
當沒有索引可以使用的時候,MySQL InnoDB 就會使用這種演算法 考慮以下兩個表t_a 和t_b 《Experiments and fun with the Linux disk cache》作者透過幾個例子來說明硬碟快取對程式執行效能的影響
Join演算法
#總結
上學時,資料庫老師最喜歡考資料庫範式,直到上班才學會一切以效能為準,能冗餘就冗餘,實在冗餘不了的就join如果join真的影響到效能。試著調大你的join_buffer_size, 或換固態硬碟。
參考資料
《深入理解電腦系統》- 第6章記憶體層次結構
《Linux ate my ram》 Free參數的解釋
How to clear the buffer/pagecache (disk cache) under Linux 文章開頭送分題指令的解釋
MySQL 是怎麼運作的:從根兒上理解MySQL
Block bested loop 來自MariaDB官方文件解釋了Block-Nested-Loop演算法的實作
以上是為什麼程式碼規格要求SQL語句不要過多的join?的詳細內容。更多資訊請關注PHP中文網其他相關文章!