两个数据集中一个非常小,可以让小数据集存入缓存.在作业开始这些文件会被复制到运行task的节点上. 一开始,它的setup方法会检索缓存文件. 与reduce侧连接不同,Map侧连接需要等待参与连接的数据集满足如下条件: 1.除了连接键外,所有的输入都必须按照连接键排序. 输入的各种数据集必须有相同的分区数. 所有具有相同键的记录需要放在同一分区中. 当Map任务对其他Mapreduce作业的结果进行处理时(Cleanup时),Map侧的连接条件都自动满足 CompositeInputForma…