数据库在磁盘上的存储布局HeapFile-mysql教程-PHP中文网

首页

数据库

mysql教程

数据库在磁盘上的存储布局HeapFile

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:03 PM

存储布局数据库磁盘

----《大规模分布式存储系统：原理解析与架构实战》读书笔记这篇依然是学习《大规模分布式存储系统：原理解析与架构实战》一书之外的一个话题。通过学习本书，知道了分布式键值系统，通常使用SSTable(一个无序的键值对集合容器)作为其磁盘上的布局。这不禁

----《大规模分布式存储系统：原理解析与架构实战》读书笔记

这篇依然是学习《大规模分布式存储系统：原理解析与架构实战》一书之外的一个话题。通过学习本书，知道了分布式键值系统，通常使用SSTable(一个无序的键值对集合容器)作为其磁盘上的布局。这不禁让人产生联想，传统数据库使用的是什么存储布局来存储数据呢？这就是今天要探讨的主题----HeapFile.

HeapFile是什么？

HeapFile是一种保存Page数据的数据结构，类似于链表，HeapFile也是一种无序容器。
HeapFile和SSTable其实都是具有特殊结构的文件。既然都是保存数据，为什么不直接使用文件呢？因为系统文件并不区分文件的内容。处理起来粒度大。而HeapFile和SSTable都能够提供记录级别的管理，从这一点上来说，二者的功能都是相同的，都是为系统提供更细粒度的存储管理。
基本上，Oracle,MySql,PostgreSql，SQLServer等传统数据库都使用HeapFile作为其存储布局管理。如同SSTable一样，HeapFile的结构实际很简单，但是你需要时刻知道，数据库中存储使用的是HeapFile。
我们都知道，数据库通常使用B+树作为索引，但是国内很少有人提到数据库使用的是HeapFile来管理记录的存储。国外的一些大学在“数据库系统实现”这门课上通常会让学生实现一个简单的数据库，因此有不少HeapFile的资料。

基于Page的HeapFile

采用链表形式的是HeapFile如下：

Heap file和链表结构类似的地方：
支持增加（append）功能
支持大规模顺序扫描
不支持随机访问

这种方式的HeapFile在寻找具有合适空间的半空Page时需要遍历多个页，I/O开销大。因此一般常用的是采用基于索引的HeaFile.在HeapFile中使用一部分空间来存储Page作为索引，并记录对应Page的剩余量。如下：

像上图那样，索引单独存在一个page上。数据记录存在其他page上，如果有多个索引的page，则可以表示为：

下面是Heap file自有的一些特性：

数据保存在二级存储体（disk）中：Heapfile主要被设计用来高效存储大数据量，数据量的大小只受存储体容量限制；

Heapfile可以跨越多个磁盘空间或机器：heapfile可以用大地址结构去标识多个磁盘，甚至于多个网络；

数据被组织成页；

页可以部分为空（并不要求每个page必须装满）；

页面可以被分割在某个存储体的不同的物理区域，也可以分布在不同的存储体上，甚至是不同的网络节点中。我们可以简单假设每一个page都有一个唯一的地址标识符PageAddress，并且操作系统可以根据PageAddress为我们定位该Page。

一般情况下，使用page在其所在文件中的偏移量就可以表示了。

一种简单的布局实现方案

File的布局

在实现数据在文件中的布局的时候，为了实现更简单，我先做了一个简单的约定：一个文件表示一个关系。

这意味着一个关系的记录的条数受到文件系统的限制，如果是FAT32位系统，一个文件最大只能是4G，如果是普通的etx3,单个文件则是2TB。

同样为了实现简单，采用了数组的方式来组织页。

HeapFile的组织如下：

其中N和P为文件的最开始的16(或32)个字节。即N和P实际保存的是两个long型的值。N表示文件中页的数目，P表示每页的大小。则：

文件的总大小 FileSize = N * P + 2 * sizoeof(long).
任意一页的页首地址 Page(k) = P * ( k - 1 ) +2 * sizeof(long) (k = 1,2,...,N)

Page的布局

页中可以包含多条记录。如果每天记录的长度都相同，则称为定长记录，如果每条记录的长度有不相同，则称为变长记录。定长记录可以采用数组的方式记录，但是变长记录不行。因此采用偏移量的方式来记录。page的布局如下：

从页首开始一条条记录。页尾用一个int整形记录剩余空间的偏移量，再用一个Int整形该页已存储的记录数，每一条记录在页中的偏移量和是否被删除的标记。

其中，

FreeSpace表示该页空间剩余量的首地址，也是最后一条记录的尾地址+1；
N表示该页中已经存在的记录的条数，包括哪些被标记为删除的记录；
尾部的R1,R2,..表示其对应记录在页内的偏移地址，同时还会分出1个bit位标记这条记录是否被删除。如果要支持记录跨页存储的话，还需要再分出2bit来标记其是否是跨页的记录。
尾部的R1，R2等可以定义为如下结构体：

struct IndexRecord
{
unsigned int pos:29; <em>//记录在页内的偏移地址</em>
unsigned int isdelete:1; <em>//是否删除的标记</em>
unsigned int spanned:2;  <em>//是否跨页存储</em>
};

IndexRecord总共为32bit，其中29bit表示记录的页内偏移地址 ; 1bit表示记录是否被删除 ; 2bit表示是否跨页存储，0x00表示不跨页，0x01表示跨页，记录为开始的部分，0x10表示跨页，记录为中间部分，中间部分可以有多条，0x11表示跨页，记录为结尾的部分。
则：
任意一条记录的IndexRecord首地址为 R(k) = P-(2+k)*sizeof(int); (k=1,2,..,N)
计算一个页还能容纳的长度为 FreeLength = P-(2+N)*sizeof(int)
判断一个页是否装满的条件为 FreeLength > 0

一个Page通常的大小为2K，4K,8K,16K等。

这里还要再提下空隙的问题，同时删除记录时直接采用标记法，但是当更新记录的时候，由于是变长记录。存在以下3种情况：

新记录和原记录一样长：原处更新记录即可
新纪录比原记录长：原记录标记删除，并新增一条记录，如果有索引，更新索引文件。
新纪录变原记录短：原处更新记录，无需更新索引文件，但是出现了记录的空隙。

当空间紧张时，可以尝试压缩页，剔除其中的空隙。

记录的布局

定长记录的布局可以比较简单，此处不提。本节主要讨论变长记录的布局,也叫记录的序列化。

一个常见的例子为给定表Person的定义，使name可以是不超过1024个字符。Schema如下：

CREATE TABLE Person (
    name      VARCHAR(1024) NOT NULL,
    age       INTEGER NOT NULL,
    birthdate DATETIME
)

上面表的记录是变长的原因为：

name字段是一个变长的字符串；
birthdate可以为NULL；

变长record的序列化的关键是字段边界的界定。一种比较流行的方法是在record的首部保存字段边界的offset。

Person的record的编排方式如下：

Note：我们在首部设置4个整型去存储三个字段的四个边界offset。

上面的编排方式很自然的提供一种NULL字段的编排方式--可以标识该字段的值为NULL，如下图：

第三个offset和第四个offset指向同一个位置，那么就表明第三个字段的大小是零，即是一个NULL值。

可以看到，使用偏移量无论是Page的布局，还是记录的序列化，都是非常方便的。

根据以上介绍，可以有以下推断：

记录的总长度 RecordLength = R[k] k为字段数
每个字段的长度为 ColnumLength(k) = R[k] - R[k-1] , (k=1,2,3,...)
判断一个字段是否为NULL ColnumLength[k] = 0 ,(k=1,2,3,...)

最后我们在来看一遍关系Person的HeapFile文件的整体布局图

参考

这里有一篇关于HeapFile的翻译关系型数据在磁盘上的存储布局

原文来自http://dblab.cs.toronto.edu/courses/443/tas/

欢迎光临我的网站----蝴蝶忽然的博客园----人既无名的专栏。

如果阅读本文过程中有任何问题，请联系作者，转载请注明出处！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何识别和优化MySQL中的慢速查询？（慢查询日志，performance_schema）Apr 10, 2025 am 09:36 AM

要优化MySQL慢查询，需使用slowquerylog和performance_schema：1.启用slowquerylog并设置阈值，记录慢查询；2.利用performance_schema分析查询执行细节，找出性能瓶颈并优化。

MySQL和SQL：开发人员的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是开发者必备技能。1.MySQL是开源的关系型数据库管理系统，SQL是用于管理和操作数据库的标准语言。2.MySQL通过高效的数据存储和检索功能支持多种存储引擎，SQL通过简单语句完成复杂数据操作。3.使用示例包括基本查询和高级查询，如按条件过滤和排序。4.常见错误包括语法错误和性能问题，可通过检查SQL语句和使用EXPLAIN命令优化。5.性能优化技巧包括使用索引、避免全表扫描、优化JOIN操作和提升代码可读性。

描述MySQL异步主奴隶复制过程。Apr 10, 2025 am 09:30 AM

MySQL异步主从复制通过binlog实现数据同步，提升读性能和高可用性。1)主服务器记录变更到binlog；2)从服务器通过I/O线程读取binlog；3)从服务器的SQL线程应用binlog同步数据。

mysql：简单的概念，用于轻松学习Apr 10, 2025 am 09:29 AM

MySQL是一个开源的关系型数据库管理系统。1）创建数据库和表：使用CREATEDATABASE和CREATETABLE命令。2）基本操作：INSERT、UPDATE、DELETE和SELECT。3）高级操作：JOIN、子查询和事务处理。4）调试技巧：检查语法、数据类型和权限。5）优化建议：使用索引、避免SELECT*和使用事务。

MySQL：数据库的用户友好介绍Apr 10, 2025 am 09:27 AM

MySQL的安装和基本操作包括：1.下载并安装MySQL，设置根用户密码；2.使用SQL命令创建数据库和表，如CREATEDATABASE和CREATETABLE；3.执行CRUD操作，使用INSERT,SELECT,UPDATE,DELETE命令；4.创建索引和存储过程以优化性能和实现复杂逻辑。通过这些步骤，你可以从零开始构建和管理MySQL数据库。

InnoDB缓冲池如何工作，为什么对性能至关重要？Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通过将数据和索引页加载到内存中来提升MySQL数据库的性能。1)数据页加载到BufferPool中，减少磁盘I/O。2)脏页被标记并定期刷新到磁盘。3)LRU算法管理数据页淘汰。4)预读机制提前加载可能需要的数据页。

MySQL：初学者的数据管理易用性Apr 09, 2025 am 12:07 AM

MySQL适合初学者使用，因为它安装简单、功能强大且易于管理数据。1.安装和配置简单，适用于多种操作系统。2.支持基本操作如创建数据库和表、插入、查询、更新和删除数据。3.提供高级功能如JOIN操作和子查询。4.可以通过索引、查询优化和分表分区来提升性能。5.支持备份、恢复和安全措施，确保数据的安全和一致性。