大数据：数据分片和数据路由(一)

常见的数据分片有：哈希分片和范围分片

用图进行分析，图画的实在是不咋地：

可以将上图看成是一个二级映射关系：

　　第一级：key-partition映射：将数据记录映射到数据分片空间，特点：多对一的映射关系

　　第二级：partition-machine映射：将数据分片映射到物理机器中特点：多对一的映射关系

哈希分片和范围分片都可以映射到上面画的这个抽象模型中，哈希分片：采用哈希函数来建立key-partition映射关系，支持点查询（根据某条记录的主键可以获得记录内容），但是它无法支持范围查询。

范围分片：既支持点查询，也支持范围查询（指定记录的主键范围内一次读取多条满足条件的数据），向支持范围查询的系统就有 Google的BigTable 系统。

通过哈希函数来进行数据分片比较常见：其中最为常见的三种：

　　1.Round Robin（哈希取模法）

　　　　　　　　　　　　　　　　　　　H(key)=hash(key)mod K

　　　　假设有k台物理机，对它进行编号 0到k-1,根据上面的hash函数，H(Key)的数值就是存储物理机的编号，将数据全部分配到 K 台物理机上，在查找的时候也可以通过这个函数来找打存储相应信息的物理机。

　　优点：实现起来非常简单。

　　缺点：缺乏灵活性。

　一旦新增一个物理机到分布式存储系统，此时哈希函数就变成了：

　　　　　　　　　　　　　　　　　　H(key)=hash(key)mod (K+1)

为什么缺乏灵活性：

　　从上面的模型图中我们可以看到 Round robin 是将物理机和数据分片两个功能合二为一了，这样造成的结果就是一个物理机对应一个数据分片，这样 key-partition和partition-machine映射也成为一体，都由同一个哈希函数来承担，造成机器个数 K 出现在映射函数，过度的紧密耦合。只要机器个数变动了，哈希函数也会跟着变动。

　　2.虚拟桶（Virtual Buckets）

　　如上图所示，在待存储记录和物理机之间引入了虚拟桶层，所有记录先通过哈希函数映射到对应的虚拟桶，记录和虚拟桶的映射关系：多对一，

第二层映射是虚拟桶到物理机之间的映射：多对一。其具体实现方式通过查表来实现，通过内存表来管理这层关系。

对照第一个图的抽象模型可以看出，虚拟桶层就是对应的 “数据分片” 层，key-partition映射采用哈希函数，而partition-machine 映射采用表格管理来实现。

　　与Round Robin相比，引入了虚拟桶层，将原先记录到物理机的单层映射解耦成两层映射，阿达加强了系统的可扩展性。新的机器加入时，只需要修改partition-machine映射表中的个别条目就能实现扩展。

　　优点：具有较强的灵活性。

　　3.一致性哈希算法

　　　　《数据分片与数据路由》（二）...

大数据：数据分片和数据路由(一)

猜你喜欢