索引 vs 全表扫描

之前我们介绍了第一个文件格式：

文件格式简介

在这个文件格式里，数据没有排序，顺序存储，我们只提供了查询所有数据的接口，当我们想进行值过滤时，比如查询大于10的数据，需要将所有数据遍历一遍，如果把这个文件看做一个只有一列的表，这种查询方式就叫全表扫描。

磁盘结构和基本耗时

磁盘的组织结构盘片->磁道->扇区。由于盘片是并行操作的，因此可以忽略寻找盘片的时间。所以基本上要找一个数据需要找到对应的磁道（类似树的年轮），再找对应的扇区（一段扇形）。

磁盘性能的主要度量指标有以下几个：

访问时间：从发出读写请求到数据开始传输之间的时间。也就是磁盘定位数据的时间，在程序中就是那个 seek。访问时间包括寻道时间（找磁道）和旋转等待时间（找扇区）。一般在几毫秒级。

数据传输率：在定位数据之后。就开始将数据从磁盘和内存之间传输了。这个时间一般每秒几十MB。

顺序访问 vs 随机访问

磁盘上的文件是一块一块组织的，这里的块（block）是逻辑概念，可能512字节到几KB。从磁盘读数据需要一块一块读。即使你只读1Byte数据，也会读一块。

顺序访问：连续访问磁盘相邻的块。这样磁盘只需要一次磁盘寻道。

随机访问：随机访问磁盘不同位置的块，一般每次只读少量数据。这样磁盘每处理一个随机访问请求就需要一次磁盘寻道。随机访问的效率远低于顺序访问。

存储模型

硬件：磁盘数据传输率记做 T，平均访问时间记为 S。

数据：一个包含 N 个数据的数据集，数据是可比较的。数据在磁盘上无序存储，数据均匀分布。每个数据所占空间为 X，那么数据的总大小为 NX。

这张图表示数据在磁盘上的存放顺序：

这里写图片描述

索引：在数据上建立索引，索引可以看成数据的一种映射，一种表示方式。可以全部放在内存中，并且精确定位原始数据。

查询流程

查询模式：查询有过滤条件，假设过滤条件的选择度为 F，意思是查询结果集占总数据量的 F 倍，F 处于 [0,1] 之间。

现在有两种查询方式：全表扫描、索引。全表扫描和索引都是逻辑概念。

全表扫描：最简单的查询操作。即将数据从磁盘上一个个读到内存中做过滤，最后返回结果。这种方式的特点是不管数据有没有用，都先读出来，磁盘读取数据总量大，但是seek只有一次。对应磁盘的顺序访问。

黄色表示需要从磁盘读到内存中的数据，全表扫描时候就是这样：

这里写图片描述

全表扫描总耗时 = IO耗时 = NX/T

索引：由于磁盘上数据是乱序的，我们建一个B+树索引，并在内存中维护索引，索引将所有数据排序，并记录对应的磁盘位置。在查询时，首先在索引上过滤出所有结果集在磁盘上的位置，再到磁盘上去精确读取结果集。这种包括少量的磁盘IO+大量的 seek。对应磁盘的随机访问。

效果图如下图：磁盘的操作为定位一个数据，读取，再定位下一个数据……

这里写图片描述

Seek耗时：NFS

IO耗时：NFX/T

索引查询总耗时 = Seek耗时 + IO 耗时 = NFS + NFX/T

对比

接下来看看这些参数，在不考虑更新硬件时，磁盘吞吐率 T、平均访问耗时 S、数据量 N、每个数据大小 X 都是常量，没得改。

一共就 NTFSX 五个参数，接下来只有 F 了，这个东西是个变量，取决于查询过滤条件。比如你想查身高150以上的男生，这个过滤条件就没啥区分度，可能 F=0.8，大部分都会被选出来，但是如果查190以上的男生，可能 F=0.1，只有一小部分会被选出来。

有区别就有不同的应对措施，我们可以根据 F 选择查索引还是全表扫描。直接算一下什么时候索引查询比全表扫描快，也就是下边这个式子：

NFS + NFX/T < NX/T

即：F < X / (TS+X)

可以看到，跟总数据量没关系，当 F 足够小的时候，选择索引比较好。如果结果集比较多，seek过多，那么全表扫描是更优的。

举个实际例子感受一下：

平均Seek时间： S=5 ms

磁盘吞吐率：T=300 MB/s

单个数据大小：X=128 Byte

这个时候，过滤条件的选择度需要小于 0.008%。

传统数据库中一般对索引的介绍是，当表很大的时候可以考虑建立索引。Seek是一个很耗时的操作，需要避免查询中过多的 seek。同时，数据库应该根据不同的查询条件选择查询方式。

个人公众号

数据库漫游指南

这里写图片描述

磁盘结构和基本耗时

顺序访问 vs 随机访问

存储模型

查询流程

对比

个人公众号

猜你喜欢