首页 >数据库 >mysql教程 >高基数与低基数:范围索引中哪一列应该排在第一位?

高基数与低基数:范围索引中哪一列应该排在第一位?

DDD
DDD原创
2024-12-08 07:30:15960浏览

High Cardinality vs. Low Cardinality: Which Column Should Come First in a Range Index?

范围索引中的高基数列排序

在数据库设计中,当在多个列上创建索引时,这些列的顺序可以显着影响范围查询的性能。特别是,对于同时涉及高基数列和低基数列的查询,索引中的最佳列排序可能是违反直觉的。

场景:

考虑具有以下架构的表:

CREATE TABLE `files` (
  `did` int(10) unsigned NOT NULL DEFAULT '0',
  `filename` varbinary(200) NOT NULL,
  `ext` varbinary(5) DEFAULT NULL,
  `fsize` double DEFAULT NULL,
  `filetime` datetime DEFAULT NULL,
  PRIMARY KEY (`did`,`filename`),
  KEY `fe` (`filetime`,`ext`),          -- This?
  KEY `ef` (`ext`,`filetime`)           -- or This?
) ENGINE=InnoDB DEFAULT CHARSET=utf8 ;

该表存储文件元数据,大约有 100 万行。 filetime 列大部分具有不同的值,表示高基数,而 ext 列具有有限数量的值,表示低基数。

查询:

以下查询用于根据 ext 和 filetime 检索文件信息:

WHERE ext = '...'
  AND filetime BETWEEN ... AND ...

最佳索引选择:

问题是哪个索引 fe 或 ef 更适合此查询。直观上,人们可能会认为首先具有高基数列(文件时间)的索引会更有效。然而,分析表明事实恰恰相反。

解释:

使用 EXPLAIN 命令,我们可以检查不同索引选择的查询计划:

-- Force index on fe (filetime first)
EXPLAIN SELECT COUNT(*), AVG(fsize)
FROM files FORCE INDEX(fe)
WHERE ext = 'gif' AND filetime >= '2015-01-01' AND filetime < '2015-01-01' + INTERVAL 1 MONTH;

-- Force index on ef (ext first)
EXPLAIN SELECT COUNT(*), AVG(fsize)
FROM files FORCE INDEX(ef)
WHERE ext = 'gif' AND filetime >= '2015-01-01' AND filetime < '2015-01-01' + INTERVAL 1 MONTH;

结果表明,低基数 ext 列在前的索引 ef 的性能明显优于fe.

使用优化器跟踪的进一步分析表明,使用 fe 索引,优化器估计会扫描大量行 (16684) 以过滤 ext 值。通过 ef 索引,它可以有效地使用两个索引列并仅检索相关行 (538)。

结论:

创建复合索引以支持范围时查询时,建议首先放置参与相等性测试的列(在本例中为 ext),无论其基数如何。这使得索引可以在查询执行计划中更有效地使用,从而提高性能。

以上是高基数与低基数:范围索引中哪一列应该排在第一位?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn