当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce: 在hive中叫mapjoin(map-side join),配置为 hive.auto.convert.join 在spark中叫BroadcastHashJoin (broadcast hash join) Spark SQL uses broadcast join (aka…