Bitcask:A Log-Structured Hash Table for Fast Key/Value Data 阅读笔记

一个Bitcask实例就是一个目录,我们保证在一个时刻只有一个系统进程可以打开Bitcask进行写操作。
在一个时刻,只有一个文件是“active”的。当文件达到一定的大小限制就会关闭,并创建一个新的“active”文件。
一旦一个文件关闭了,就视为是不可变的,即不会再打开来进行写操作。
在这里插入图片描述

“active”file是以追加的方式来进行写操作,意味着顺序写不会导致磁盘搜索。

一个key-value entry的结构如下:
在这里插入图片描述
一个Bitcask数据文件的结构如下所示:
在这里插入图片描述

当追加完成之后,一个在内存中的称为“keydir”的结构就已经更新了。一个keydir就是一个哈希表,每一个key都映射到一个包含文件、偏移量、大小等信息的结构体。大概看起来像是这样:
在这里插入图片描述

当一个写操作发生时,keydir会自动更新数据。虽然旧数据还存在磁盘中,但是新的读操作将会根据keydir读取到最新版本的数据。之后会讲解merge process来移除旧数据。

读操作的流程如下:
在这里插入图片描述

这个简单的模型的一个问题是会浪费很多空间。因此要用一个merge process来解决。

这个merge process会遍历所有non-active在Bitcask中的文件,然后生成一个只包含每个key最新的值的数据集合。

在合并完后,我们会创建一个称为hint file放在每个合并数据集合的后面。

读操作的性能依赖于操作系统的缓存,也可以添加一个Bitcask内部的读缓存。

猜你喜欢

转载自blog.csdn.net/westbrookliu/article/details/85320130