连接预排序和预分区过的数据

其他 2018-11-25 22:20:18 阅读次数: 0

Map-side joins 是最有效的技术，前面的两种 map-side 策略都要求其中有一个数据集可被加载到内存。但是，如果两个数据集都很大且无法”瘦身”而无法做到这一点时，该怎么办?在这种情况下，如果满足以下条件，则可以使用复合的 map-side join:

两个数据集都无法整体加载到内存中.
两个数据集都按 join key 排好了序
每个数据集都有相同的文件数.
在每个数据集中的 File N 都包含相同的 join key K.
每个文件的大小都小于一个 HDFS block，这样分区时不会被 split者，或者用于该数据的 input split不会切分该文件。

下图显示了一个排序的和分区的文件的例子，这些文件可以用于复合连接。

应用场景:
想要在排序的、分区的数据上执行一个 map-side join。解决方案:
使用 MapReduce 自带的 CompositeInputFormat。CompositeInputFormat 功能相当强大，并且支持内连接和外连接。

猜你喜欢

转载自my.oschina.net/u/4009325/blog/2396211

连接预排序和预分区过的数据

6、region的拆分，和预分区

hbase的split策略和预分区

hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计

预期数据下HBase的预分区的实现

hbase HexStringSplit预分区，spark通过bulkload入数据

HBase表设计----预分区和散列存储

HBase预分区设计

HBase的预分区设计

HBase预分区

Hbase 预分区代码

HBase预分区设置

HBase之预分区

Hbase - 预分区的技巧

HBase的预分区

HBase:HBase的预分区

关于HBase的预分区

HBase优化预分区

hbase 预分区与自动分区

HBASE 预分区建表

Hbase优化之预分区

HBase 预分区 & Phoenix 加盐

理解Hbase RowKey的字典排序；HBase Rowkey的散列与预分区设计

数据结构和算法：预排序遍历树算法

hbase Normalizer解决预分区错误，在不动数据的情况下完美解决热点问题

解决预期数据下HBase建表时如何预分区regions.

HBase 热点问题——rowkey散列和预分区设计

MapReduce分区和排序

Hbase优化之预分区设计

HBase 创建表时的预分区

今日推荐

周排行

AIZU 2224 Save your cats(并查集)

HTTP响应头状态码详解

Python socket编程（2）

MaxCompute Studio使用心得系列7—作业对比

Supervisor安装使用

LeetCode 164. Maximum Gap

mysql面试题: 一张表里面有ID自增主键，当insert了17条记录之后，删除了第15,16,17条记录，再把mysql重启，再insert一条记录，这条记录的ID是18还是15

nutch1.2 DeleteDuplicates IndexMerger 详解

OC - @property与setter,getter方法

SpringBoot @Transactional的rollbackFor属性

每日归档

2024-09-19(0)

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)