Bitcask:A Log-Structured Hash Table for Fast Key/Value Data 阅读笔记

一个Bitcask实例就是一个目录，我们保证在一个时刻只有一个系统进程可以打开Bitcask进行写操作。
在一个时刻，只有一个文件是“active”的。当文件达到一定的大小限制就会关闭，并创建一个新的“active”文件。
一旦一个文件关闭了，就视为是不可变的，即不会再打开来进行写操作。
在这里插入图片描述

“active”file是以追加的方式来进行写操作，意味着顺序写不会导致磁盘搜索。

一个key-value entry的结构如下：
在这里插入图片描述
一个Bitcask数据文件的结构如下所示：

当追加完成之后，一个在内存中的称为“keydir”的结构就已经更新了。一个keydir就是一个哈希表，每一个key都映射到一个包含文件、偏移量、大小等信息的结构体。大概看起来像是这样：
在这里插入图片描述

当一个写操作发生时，keydir会自动更新数据。虽然旧数据还存在磁盘中，但是新的读操作将会根据keydir读取到最新版本的数据。之后会讲解merge process来移除旧数据。

读操作的流程如下：
在这里插入图片描述

这个简单的模型的一个问题是会浪费很多空间。因此要用一个merge process来解决。

这个merge process会遍历所有non-active在Bitcask中的文件，然后生成一个只包含每个key最新的值的数据集合。

在合并完后，我们会创建一个称为hint file放在每个合并数据集合的后面。

读操作的性能依赖于操作系统的缓存，也可以添加一个Bitcask内部的读缓存。

Bitcask:A Log-Structured Hash Table for Fast Key/Value Data 阅读笔记

猜你喜欢