MongoDB中shard key的选择-mysql教程-PHP中文網

首頁

資料庫

mysql教程

MongoDB中shard key的选择

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:15 PM

将存储在MongoDB数据库中的Collection进行分片需要选定分片Key（Shard key),对于分片Key的选定直接决定了集群中数据分布是否均衡

将存储在MongoDB数据库中的Collection进行分片需要选定分片Key（Shard key),对于分片Key的选定直接决定了集群中数据分布是否均衡、集群性能是否合理。那么我们究竟该选择什么样的字段来作为分片Key呢？有如下几个需要考虑点。

以下述记录日志的Document为例：

{

server : "ny153.example.com" ,

application : "apache" ,

time : "2011-01-02T21:21:56.249Z" ,

level : "ERROR" ,

msg : "something is broken"

}

基数

Mongodb中一个被分片的Collection的所有数据都存放在众多的Chunk中。一个Chunk存放分片字段的一个区间范围的数据。选择一个好的分片字段非常重要，否则就会遭遇到不能被拆分的大Chunk。

用上述的日志为例，如果选择{server:1}来作为一个分片Key的话，一个server上的所有数据都是在同一个Chunk中，很容易想到一个Server上的日志数据会超过200MB（默认Chunk大小）。如果分片Key是{server:1,time:1}，那么能够将一个Server上的日志信息进行分片，直至毫秒级别，绝对不会存在不可被拆分的Chunk。

将Chunk的规模维持在一个合理的大小是非常重要的，只有这样数据才能均匀分布，并且移动Chunk的代价也不会过大。

写操作可扩展

使用分片的一个主要原因之一是分散写操作。为了实现这个目标，尽可能的将写操作分散到多个Chunk就尤为重要了。

用上述的日志实例，选择{time：1}来作为分片key将导致所有的写操作都会落在最新的一个Chunk上去，这样就形成了一个热点区域。如果选择{server:1,application:1,time:1}来作为分片Key的话，那么每一个Server上的应用的日志信息将会写在不同的地方，如果有100个Server和应用对，有10台Server，那么每一台Server将会分担1/10的写操作。

查询隔离

另外一个需要考虑的是任何一个查询操作将会由多少个分片来来提供服务。最理想的情况是，一个查询操作直接从Mongos进程路由到一个Mongodb上去，并且这个Mongodb拥有该次查询的全部数据。因此，如果你知道最为通用的查询操作的都以server作为一个查询条件的话，以Server作为一个起始的分片Key会使整个集群更加高效。

任何一个查询都能执行，不管使用什么来作为分片Key，但是，如果Mongos进程不知道是哪一个Mongodb的分片拥有要查询的数据的话，Mongos将会让所有的Mongod分片去执行查询操作，再将结果信息汇总起来返回。显而易见，这回增加服务器的响应时间，会增加网络成本，也会无谓的增加了Load。

排序

在需要调用sort()来查询排序后的结果的时候，以分片Key的最左边的字段为依据，Mongos可以按照预先排序的结果来查询最少的分片，并且将结果信息返回给调用者。这样会花最少的时间和资源代价。

相反，如果在利用sort()来排序的时候，，排序所依据的字段不是最左侧（起始）的分片Key，那么Mongos将不得不并行的将查询请求传递给每一个分片，然后将各个分片返回的结果合并之后再返回请求方。这个会增加Mongos的额外的负担。

可靠性

选择分片Key的一个非常重要因素是万一某一个分片彻底不可访问了，受到影响的Chunk有多大（即使是用貌似可以信赖的Replica Set）。

假定，有一个类似于Twiter的系统，Comment记录类似如下形式：

{

_id: ObjectId("4d084f78a4c8707815a601d7"),

user_id : 42 ,

time : "2011-01-02T21:21:56.249Z" ,

comment : "I am happily using MongoDB",

}

由于这个系统对写操作非常敏感，所以需要将写操作扁平化的分布到所有的Server上去，这个时候就需要用id或者user_id来作为分片Key了。使用Id作为分片Key有最大粒度的扁平化，但是在一个分片宕机的情况下，会影响几乎所有的用户（一些数据丢失了）。如果使用User_id作为分片Key，只有极少比率的用户会收到影响（在存在5个分片的时候，20%的用户受影响），但是这些用户会再也不会看到他们的数据了。

linux

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

MySQL索引基數如何影響查詢性能？Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显著影响：1.高基数索引能更有效地缩小数据范围，提高查询效率；2.低基数索引可能导致全表扫描，降低查询性能；3.在联合索引中，应将高基数列放在前面以优化查询。

MySQL：新用戶的資源和教程Apr 14, 2025 am 12:16 AM

MySQL學習路徑包括基礎知識、核心概念、使用示例和優化技巧。 1)了解表、行、列、SQL查詢等基礎概念。 2)學習MySQL的定義、工作原理和優勢。 3)掌握基本CRUD操作和高級用法，如索引和存儲過程。 4)熟悉常見錯誤調試和性能優化建議，如合理使用索引和優化查詢。通過這些步驟，你將全面掌握MySQL的使用和優化。

現實世界Mysql：示例和用例Apr 14, 2025 am 12:15 AM

MySQL在現實世界的應用包括基礎數據庫設計和復雜查詢優化。 1)基本用法：用於存儲和管理用戶數據，如插入、查詢、更新和刪除用戶信息。 2)高級用法：處理複雜業務邏輯，如電子商務平台的訂單和庫存管理。 3)性能優化：通過合理使用索引、分區表和查詢緩存來提升性能。

MySQL中的SQL命令：實踐示例Apr 14, 2025 am 12:09 AM

MySQL中的SQL命令可以分為DDL、DML、DQL、DCL等類別，用於創建、修改、刪除數據庫和表，插入、更新、刪除數據，以及執行複雜的查詢操作。 1.基本用法包括CREATETABLE創建表、INSERTINTO插入數據和SELECT查詢數據。 2.高級用法涉及JOIN進行表聯接、子查詢和GROUPBY進行數據聚合。 3.常見錯誤如語法錯誤、數據類型不匹配和權限問題可以通過語法檢查、數據類型轉換和權限管理來調試。 4.性能優化建議包括使用索引、避免全表掃描、優化JOIN操作和使用事務來保證數據一致性

InnoDB如何處理酸合規性？Apr 14, 2025 am 12:03 AM

InnoDB通過undolog實現原子性，通過鎖機制和MVCC實現一致性和隔離性，通過redolog實現持久性。 1）原子性：使用undolog記錄原始數據，確保事務可回滾。 2）一致性：通過行級鎖和MVCC確保數據一致。 3）隔離性：支持多種隔離級別，默認使用REPEATABLEREAD。 4）持久性：使用redolog記錄修改，確保數據持久保存。

MySQL的位置：數據庫和編程Apr 13, 2025 am 12:18 AM

MySQL在數據庫和編程中的地位非常重要，它是一個開源的關係型數據庫管理系統，廣泛應用於各種應用場景。 1）MySQL提供高效的數據存儲、組織和檢索功能，支持Web、移動和企業級系統。 2）它使用客戶端-服務器架構，支持多種存儲引擎和索引優化。 3）基本用法包括創建表和插入數據，高級用法涉及多表JOIN和復雜查詢。 4）常見問題如SQL語法錯誤和性能問題可以通過EXPLAIN命令和慢查詢日誌調試。 5）性能優化方法包括合理使用索引、優化查詢和使用緩存，最佳實踐包括使用事務和PreparedStatemen