Shuffle 阶段的数据压缩机制

在 shuffle 阶段,可以看到数据通过大量的拷贝,从 map 阶段输出的数据,都要通过网络拷贝,发送到 reduce 阶段,这一过程中,涉及到大量的 网络 IO,如果数据能够进行压缩,那么数据的发送量就会少得多。

Hadoop 当中支持的压缩算法:

  • gzip
  • bzip2
  • LZO
  • LZ4
  • Snappy

这几种压缩算法综合压缩和解压缩的速率,Google 的 Snappy 是最优的,一般都选择 Snappy 压缩。


我们下期见,拜拜!

猜你喜欢

转载自blog.csdn.net/frdevolcqzyxynjds/article/details/131852803