在 shuffle 阶段,可以看到数据通过大量的拷贝,从 map 阶段输出的数据,都要通过网络拷贝,发送到 reduce 阶段,这一过程中,涉及到大量的 网络 IO,如果数据能够进行压缩,那么数据的发送量就会少得多。
Hadoop 当中支持的压缩算法:
- gzip
- bzip2
- LZO
- LZ4
- Snappy
这几种压缩算法综合压缩和解压缩的速率,Google 的 Snappy 是最优的,一般都选择 Snappy 压缩。
我们下期见,拜拜!
在 shuffle 阶段,可以看到数据通过大量的拷贝,从 map 阶段输出的数据,都要通过网络拷贝,发送到 reduce 阶段,这一过程中,涉及到大量的 网络 IO,如果数据能够进行压缩,那么数据的发送量就会少得多。
Hadoop 当中支持的压缩算法:
这几种压缩算法综合压缩和解压缩的速率,Google 的 Snappy 是最优的,一般都选择 Snappy 压缩。
我们下期见,拜拜!