phper優化MySQL千萬級大表的方法詳解-php教程-PHP中文網

首頁

後端開發

php教程

phper優化MySQL千萬級大表的方法詳解

藏色散人

Jan 25, 2020 pm 02:16 PM

mysqlphp

phper優化MySQL千萬級大表的方法詳解

首先採用Mysql儲存千億級的數據，確實是一項非常大的挑戰。 Mysql單表確實可以儲存10億級的數據，只是這個時候效能非常差，專案中大量的實驗證明，Mysql單表容量在500萬左右，效能處於最佳狀態。

針對大表的最佳化，主要是透過資料庫分庫分錶來解決，目前比較普遍的方案有三個：分區，分庫分錶， NoSql/NewSql。實際專案中，這三種方案是結合的，目前絕大部分系統的核心資料都是以RDBMS儲存為主，NoSql/NewSql儲存為輔。

分割區

首先來了解分割區方案。

分區表是由多個相關的底層表實現的。這些底層表也是由句柄物件表示，所以我們也可以直接存取各個分區，儲存引擎管理分區的各個底層表和管理普通表一樣（所有的底層表都必須使用相同的儲存引擎），分區表的索引只是在各個底層表上各自加上一個相同的索引。這個方案對使用者屏蔽了sharding的細節，即使查詢條件沒有sharding column，它也能正常運作（只是這時候效能一般）。

不過它的缺點很明顯：很多的資源都受到單機的限制，例如連線數，網路吞吐等。如何進行分區，在實際應用上是一個非常關鍵的要素之一。

以下開始舉例：以客戶資訊為例，客戶資料量5000萬加，專案背景要求保存客戶的銀行卡綁定關係，客戶的證件綁定關係，以及客戶綁定的業務資訊。

此業務背景下，該如何設計資料庫呢。在專案一期的時候，我們建立了一張客戶業務綁定關係表，裡面冗餘了每位客戶綁定的業務資訊。

基本結構大致如下：

phper優化MySQL千萬級大表的方法詳解

查詢時，對銀行卡做索引，業務編號做索引，證件號碼做索引。隨著需求大增多，這張表的索引會達到10個以上。而且客戶解約再簽約，裡面會保存兩條數據，但綁定的狀態不同。

假設我們有5千萬的客戶，5個業務類型，每位客戶平均2張卡，那麼這張表的數據量將會達到驚人的5億，事實上我們系統用戶量還沒有過百萬時就已經不行了。這樣的設計絕對是不行的，無論是插入，還是查詢，都會讓系統崩潰。

mysql資料庫中的資料是以檔案的形勢存在磁碟上的，預設放在/mysql/data下面（可以透過my.cnf中的datadir來檢視），一張表主要對應三個文件，一個是frm存放表結構的，一個是myd存放表資料的，一個是myi存表索引的。這三個文件都非常的龐大，尤其是.myd文件，快5個G了。下面進行第一次分區優化，Mysql支援的分區方式有四種：

phper優化MySQL千萬級大表的方法詳解

在我們的專案中，range分區和list分區沒有使用場景，如果基於綁定號做range或list分區，綁定編號沒有實際的業務意義，無法透過它進行查詢，因此，我們就剩下HASH 分區和KEY 分區了，HASH分區僅支援int類型列的分區，且是其中的一列。

KEY 分割區倒是可以支援多列，但也要求其中的一列必須是int型別；看我們的函式庫表結構，發現沒有哪一列是int型別的，如何做分割區呢？增加一列，綁定時間列，將此列設定為int類型，然後依照綁定時間進行分區，將每一天綁定的使用者分到同一個區裡面去。

這次優化之後，我們的插入快了許多，但是查詢依然很慢，為什麼？

因為在做查詢的時候，我們也只是根據銀行卡或證件號碼來查詢，並沒有根據時間查詢，相當於每次查詢，mysql都會把所有的分區表查詢一遍。

進行第二次方案最佳化，既然 HASH 分區和 KEY分區要求其中的一列必須是int型別的，那麼創造出一個int型別的列出來分區是否可以？

分析發現，銀行卡的那串數字有秘密。銀行卡一般是16位到19位不等的數字串，我們取其中的某一位拿出來作為表分區是否可行呢，透過分析發現，在這串數字中，其中確實有一位是0到9隨機產生的，我們基於銀行卡號隨機位元進行KEY分區，每次查詢的時候，透過計算截取出這位隨機位數字，再加上卡號，聯合查詢，達到了分區查詢的目的，需要說明的是，分區之後，建立的索引，也必須是分區列，否則Mysql還是會在所有的分區表中查詢資料。

透過銀行卡號查詢綁定關係的問題解決了，那麼證件號碼呢，如何透過證件號碼來查詢綁定關係。

前面已經講過，做索引一定是要在分區健上進行，否則會造成全表掃描。我們再創建了一張新表，保存客戶的證件號綁定關係，每位客戶的證件號都是唯一的，新的證件號綁定關係表裡，證件號作為了主鍵，那麼如何來計算這個分區健呢，客戶的證件資料比較龐雜，有身分證號，港澳台通行證，機動車駕駛證等等，如何在無序的證件號裡找到分區健。

為了解決這個問題，我們將證件號綁定關係表一分為二，其中的一張表專用於保存身分證類型的證件號，另一張表則保存其他證件類型的證件號，在身分證類型的證件綁定關係表中，我們將身分證號中的月數拆分出來作為了分區健，將同一個月出生的客戶證件號保存在同一個區，這樣分成了12個區，其他證件類型的證件號，資料量不超過10萬，就沒有必要進行分區了。

這樣每次查詢時，先透過證件類型決定要去查詢哪張表，再計算分區健進行查詢。作了分區設計之後，保存2000萬用戶資料時銀行卡表的資料保存文件就分成了10個小文件，證件表的資料保存文件分成了12個小文件，解決了這兩個查詢的問題，還剩下一個問題：業務編號怎麼辦？

一個客戶有多個簽約業務，如何進行保存？這時候，採用分區的方案就不太適合了，它需要用到分錶的方案。

分錶

我們前面有提到對於mysql，其資料檔案是以檔案形式儲存在磁碟上的。當一個資料檔案過大時，作業系統對大文件的操作就會比較麻煩耗時，且有的作業系統就不支援大文件，這個時候就必須分錶了。

另外對於mysql常用的儲存引擎是Innodb，它的底層資料結構是B 樹。當其資料檔案過大的時候，查詢一個節點可能會查詢很多層次，而這必定會導致多次IO操作進行裝載進內存，肯定會耗時的。

除此之外還有Innodb對於B 樹的鎖定機制。對每個節點進行加鎖，那麼當更改表結構的時候，這時候就會樹進行加鎖，當表檔案大的時候，這可以認為是不可實現的。所以綜上我們就必須進行分錶與分庫的操作。

如何進行分庫分錶，目前網路上有許多的版本，比較知名的一些方案：阿里的TDDL，DRDS和cobar，京東金融的sharding-jdbc；民間組織的MyCAT；360的Atlas ；美團的zebra；其他如網易，58，京東等公司都有自研的中間件。

這麼多的分庫分錶中間件方案歸總起來，就兩類：client模式和proxy模式。

phper優化MySQL千萬級大表的方法詳解

#client模式

phper優化MySQL千萬級大表的方法詳解

################################ #########proxy模式#########無論是client模式，或是proxy模式。幾個核心的步驟是一樣的：SQL解析，重寫，路由，執行，結果歸併。個人比較傾向於採用client模式，它架構簡單，效能損耗也比較小，維運成本低。 ######如何對業務類型進行分庫分錶。分庫分錶最重要的一步，即sharding column的選取，sharding column選擇的好壞將直接決定整個分庫分錶方案最終是否成功。而sharding column的選取跟業務強相關。 ######在我們的專案場景中，sharding column無疑最好的選擇是業務編號。透過業務編號，將客戶不同的綁定簽約業務保存到不同的表裡面去，根據業務編號路由到相應的表中進行查詢，達到進一步優化sql的目的。 ######更多相關php知識，請造訪###php教學###！ ###

以上是phper優化MySQL千萬級大表的方法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：cnblogs。如有侵權，請聯絡admin@php.cn刪除

使用數據庫存儲會話的優點是什麼？Apr 24, 2025 am 12:16 AM

使用數據庫存儲會話的主要優勢包括持久性、可擴展性和安全性。 1.持久性：即使服務器重啟，會話數據也能保持不變。 2.可擴展性：適用於分佈式系統，確保會話數據在多服務器間同步。 3.安全性：數據庫提供加密存儲，保護敏感信息。

您如何在PHP中實現自定義會話處理？Apr 24, 2025 am 12:16 AM

在PHP中實現自定義會話處理可以通過實現SessionHandlerInterface接口來完成。具體步驟包括：1)創建實現SessionHandlerInterface的類，如CustomSessionHandler；2)重寫接口中的方法（如open,close,read,write,destroy,gc）來定義會話數據的生命週期和存儲方式；3)在PHP腳本中註冊自定義會話處理器並啟動會話。這樣可以將數據存儲在MySQL、Redis等介質中，提升性能、安全性和可擴展性。

什麼是會話ID？Apr 24, 2025 am 12:13 AM

SessionID是網絡應用程序中用來跟踪用戶會話狀態的機制。 1.它是一個隨機生成的字符串，用於在用戶與服務器之間的多次交互中保持用戶的身份信息。 2.服務器生成並通過cookie或URL參數發送給客戶端，幫助在用戶的多次請求中識別和關聯這些請求。 3.生成通常使用隨機算法保證唯一性和不可預測性。 4.在實際開發中，可以使用內存數據庫如Redis來存儲session數據，提升性能和安全性。

您如何在無狀態環境（例如API）中處理會議？Apr 24, 2025 am 12:12 AM

在無狀態環境如API中管理會話可以通過使用JWT或cookies來實現。 1.JWT適合無狀態和可擴展性，但大數據時體積大。 2.Cookies更傳統且易實現，但需謹慎配置以確保安全性。

您如何防止與會議有關的跨站點腳本（XSS）攻擊？Apr 23, 2025 am 12:16 AM

要保護應用免受與會話相關的XSS攻擊，需採取以下措施：1.設置HttpOnly和Secure標誌保護會話cookie。 2.對所有用戶輸入進行輸出編碼。 3.實施內容安全策略(CSP)限制腳本來源。通過這些策略，可以有效防護會話相關的XSS攻擊，確保用戶數據安全。

您如何優化PHP會話性能？Apr 23, 2025 am 12:13 AM

优化PHP会话性能的方法包括：1.延迟会话启动，2.使用数据库存储会话，3.压缩会话数据，4.管理会话生命周期，5.实现会话共享。这些策略能显著提升应用在高并发环境下的效率。

什麼是session.gc_maxlifetime配置設置？Apr 23, 2025 am 12:10 AM

theSession.gc_maxlifetimesettinginphpdeterminesthelifespanofsessiondata，setInSeconds.1）它'sconfiguredinphp.iniorviaini_set（）.2）abalanceisesneededeededeedeedeededto toavoidperformance andunununununexpectedLogOgouts.3）

您如何在PHP中配置會話名？Apr 23, 2025 am 12:08 AM

在PHP中，可以使用session_name()函數配置會話名稱。具體步驟如下：1.使用session_name()函數設置會話名稱，例如session_name("my_session")。 2.在設置會話名稱後，調用session_start()啟動會話。配置會話名稱可以避免多應用間的會話數據衝突，並增強安全性，但需注意會話名稱的唯一性、安全性、長度和設置時機。

See all articles