对码当歌,猿生几何?

Hive问题总结

Hive表关联查询,如何解决数据倾斜的问题

倾斜原因:  
map 输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性等原因造成reduce 上的数据量差异太大  
- 1)key分布不均匀
- 2)业务数据本身的特性
- 3)建表时考虑不周  
- 4)某些SQL语句本身就有数据倾斜

解决方案:

  • [x] 参数调节

hive.map.aggr = true
hive.groupby.skewindata=true

$quad$有数据倾斜的时候进行==负载均衡==,当选项设定为true,生成的查询计划会有两个MR job:第一个MR Job 中,Map的输出结果集合会==随机分布==到Reduce中,每个Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的GROUP BY Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照GROUP By Key分布到Reduce中(这个过程可以保证相同的GROUP By Key被分布到同一个Reduce中),最后完成最终的聚合操作

  • [x] SQL 语句调节:

    • 1)选用join key 分布最均匀的表作为驱动表。做好列裁剪和filter 操作,以达到两表做join 的时候,数据量相对变小的效果

    • 2)大小表Join:使用map join 让小的维度表先近内存,在map端完成Reduce

    • 3)大表 Join大表:把空值的key变成一个字符串加随机数,把倾斜的数据分布到不同的reduce上,由于null值关联不上,处理后并不影响最终结果

    • 4) count distinct大量相同特殊值:count distinct 时,将值为空的情况单独处理

Hive的特点是什么

$quad$hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce的应用

Multi-group by 是hive的一个非常好的特性

from Ainsert overwrite table B select A.a, count(distinct A.b) group by A.ainsert overwrite table C  select A.c, count(distinct A.b) group by A.c

Hive中的 Sort By,Order By,Cluster By,Distribute By 各代表什么意思

order by:会对输入做全局排序,因此只有一个reducer,只有一个reducer会导致当输入规模较大时,需要较长的计算时间

sort by:不是全局排序,其在数据进入到reducer前完成排序
distribute by:按照指定的字段对数据进行划分输出到不同的reduce中  
cluster by: 除了具有distribute by的功能还兼具sort by的功能

参考 https://blog.csdn.net/haohaixingyun/article/details/52819588

阅读更多