MapReduce之：详解shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里我尽最大的可能试着把Shuffle说清楚，让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任何疑问或建议请留言到后面，谢谢！ Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么，那么请看这张图：
 
 
 
<img alt="" class="magplus" height="331" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-5cae6aa679b3b67eb7f76e198831cb3e.png" style="border:0px;color:rgb(0,0,0);font-family:Helvetica, Tahoma, Arial, sans-serif;font-size:14px;text-align:left;background-color:rgb(255,255,255);" title="点击查看原始大小图片" width="700">

 
 
 
这张是官方对Shuffle过程的描述。但我可以肯定的是，单从这张图你基本不可能明白Shuffle的过程，因为它与事实相差挺多，细节也是错乱的。后面我会具体描述Shuffle的事实情况，所以这里你只要清楚Shuffle的大致范围就成－怎样把map task的输出结果有效地传送到reduce端。也可以这样理解， Shuffle描述着数据从map task输出到reduce task输入的这段过程。 在Hadoop这样的集群环境中，大部分map task与reduce task的执行是在不同的节点上。当然很多情况下Reduce执行时需要跨节点去拉取其它节点上的map task结果。如果集群正在运行的job有很多，那么task的正常执行对集群内部的网络资源消耗会很严重。这种网络消耗是正常的，我们不能限制，能做的就是最大化地减少不必要的消耗。还有在节点内，相比于内存，磁盘IO对job完成时间的影响也是可观的。从最基本的要求来说，我们对Shuffle过程的期望可以有： 
<ul style="margin-bottom:1.5em;"><li style="margin-top:0px;margin-bottom:.25em;margin-left:30px;padding:0px;">完整地从map task端拉取数据到reduce 端。</li><li style="margin-top:0px;margin-bottom:.25em;margin-left:30px;padding:0px;">在跨节点拉取数据时，尽可能地减少对带宽的不必要消耗。</li><li style="margin-top:0px;margin-bottom:.25em;margin-left:30px;padding:0px;">减少磁盘IO对task执行的影响。</li></ul>
 OK，看到这里时，大家可以先停下来想想，如果是自己来设计这段Shuffle过程，那么你的设计目标是什么。我想能优化的地方主要在于减少拉取数据的量及尽量使用内存而不是磁盘。
 
 我的分析是基于Hadoop0.21.0的源码，如果与你所认识的Shuffle过程有差别，不吝指出。我会以WordCount为例，并假设它有8个map task和3个reduce task。从上图看出，Shuffle过程横跨map与reduce两端，所以下面我也会分两部分来展开。
 
 先看看map端的情况，如下图：
 
 
 
<br style

MapReduce之：详解shuffle过程

浏览过的版块