Hive表关联查询,如何解决数据倾斜的问题
倾斜原因:
map 输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性等原因造成reduce 上的数据量差异太大
- 1)key分布不均匀
- 2)业务数据本身的特性
- 3)建表时考虑不周
- 4)某些SQL语句本身就有数据倾斜
解决方案:
[x] 参数调节
hive.map.aggr = true hive.groupby.skewindata=true
$quad$
有数据倾斜的时候进行==负载均衡==,当选项设定为true,生成的查询计划会有两个MR job:第一个MR Job 中,Map的输出结果集合会==随机分布==到Reduce中,每个Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的GROUP BY Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照GROUP By Key分布到Reduce中(这个过程可以保证相同的GROUP By Key被分布到同一个Reduce中),最后完成最终的聚合操作
[x] SQL 语句调节:
1)选用join key 分布最均匀的表作为驱动表。做好列裁剪和filter 操作,以达到两表做join 的时候,数据量相对变小的效果
2)大小表Join:使用map join 让小的维度表先近内存,在map端完成Reduce
3)大表 Join大表:把空值的key变成一个字符串加随机数,把倾斜的数据分布到不同的reduce上,由于null值关联不上,处理后并不影响最终结果
4) count distinct大量相同特殊值:count distinct 时,将值为空的情况单独处理
Hive的特点是什么
$quad$
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce的应用
Multi-group by 是hive的一个非常好的特性
from Ainsert overwrite table B select A.a, count(distinct A.b) group by A.ainsert overwrite table C select A.c, count(distinct A.b) group by A.c
Hive中的 Sort By,Order By,Cluster By,Distribute By 各代表什么意思
order by:会对输入做全局排序,因此只有一个reducer,只有一个reducer会导致当输入规模较大时,需要较长的计算时间
sort by:不是全局排序,其在数据进入到reducer前完成排序
distribute by:按照指定的字段对数据进行划分输出到不同的reduce中
cluster by: 除了具有distribute by的功能还兼具sort by的功能
参考 https://blog.csdn.net/haohaixingyun/article/details/52819588