多维数据桶方法

【研究背景】
当数据规模很大时，大量数据需要存储在硬盘上，而不能存储在主存上。这时候每个节点的扇出是有限的，在树的层次上做到1到d次检验的存储结构就不能在使用。因为我们每次访问节点都必须得做一次磁盘访问，这是不现实的。因此研究出了桶方法。
【两类方法】
第一类：将数据对象聚集在所在空间中。
第二类：利用恰当的访问结构将数据所在空间进行分解。
【树目录方法】
树访问结构构成了树目录桶方法的基础。此方法和R-树类似，将数据点聚集成一组集合（点桶）。这些集合对应原有访问结构T的一棵子树S。和R-树相似的地方在于T的中间节点（非叶子节点）也聚集在桶中（区域桶），这种结构定义为多路树（例如B-树）。它与桶PR四叉树、桶PRK-D 树，桶PMR四叉树等结构（仅仅把叶子节点的内容聚集到桶中）不同。区域桶的元素树区域。
树状访问结构与R-树也有区别：
1.该结构一般是隐式地对树节点生成的空间进行聚集。
2.每个层次上的所有节点都是不相交的，它们通常能够生成整个空间。
相反R-树必须满足一下两个条件：
1.空间聚集必须通过存储最小包围盒的方式显示表示，这些最小包围盒应与子树节点生成的空间相对应。
2.包围盒可以重叠。
【几种树目录方法】
内容为T中间节点的区域桶R对应于T的一棵子树，扇出值对应R所表示子树的叶子节点个数。（区域桶所表示的子树的叶子节点是访问结构T的中间节点）
K-D-B树——概念层面最简单的树目录方法（当一个节点溢出的时候，可能需要分裂很多节点）
混合树——K-D-B树的一种变形（跟踪了一些额外信息，减少了因溢出而引起的分裂节点数。但是结果区域有可能相交会是搜索变复杂）
LSD树——克服了K-D-B树的缺点但是可能导致较低的存储利用率。
hB-树——模块可以不是矩形，提高了存储利用率。
BV-树——一种具有极好查询性能的新方法。
基于广义K-D树的静态方法。
这些方法结构我会陆续更新出来，大家敬请期待。

猜你喜欢