一个键盘码代码,两只黄鹂名翠柳

hive中常用的UDF函数总结

1、类型转换cast(expr as <type>)  如: cast('1' as BIGINT) 字符串转换为数字2、if语句if(boolean testCondition, T valueTrue, T valueFalseOrNull)如果 testCondition 为 true 返回 valueTrue, 否则返回 valueFalse 或 Null如: if(1 == 1, 1, 2) 结果为13、case语句CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END如:case when a == b then b when a == c then c else d end4、字符串连接concat(stri 查看全文

transform语句中使用php编写map-red脚本

transform语句中使用php编写map-red脚本1、编写hql-- 集群上php的执行环境 set mapred.cache.archives=hdfs://host:port/pathtophp/php.tgz#home; set mapred.job.priority=VERY_HIGH; -- 添加的本地文件 add file /pathtoscript/script.php; SELECT   transform(val1, val2,...)  -- 列的分隔符   ROW FORMAT DELIMITED FIELDS TERMINATED BY&nbs 查看全文

大数据技术之Hive(一)

一 、Hive 基本概念1.1 什么是 Hive  Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。  Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。  本质是:将 HQL 转化成 MapReduce 程序  1)Hive 处理的数据存储在 HDFS  2)Hive 分析数据底层的实现是 MapReduce  3)执行程序运行在 Yarn 上1.2 Hive 的优缺点 1.2.1 优点  1)操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)  2)避免了去写 MapReduce,减少开发人员的学习成本。  3)Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求不高的场合;  4)Hive 优势在于处理大数据,对于处理小数 查看全文

hive从建库到建表

登陆(docker中): beeline -u "jdbc:hive2://localhost:10000/default 建库: select current_databases(); usedefault create database myhive1 use myhive1 建表:(有LOCATION的是外部表) CREATE EXTERNAL TABLE IF NOT EXISTS employee_external (   name string,  work_place ARRAY<string>,  sex_age  查看全文

Hive学习笔记:Hive数据类型

环境:CentOS7           hive-1.1.0-cdh5.14.0           hadoop-2.6.0-cdh5.14.0 简单类型数字类型TINYINT(1字节,有符号整数,从-128至127)SMALLINT(2字节,有符号整数,从-32,768至32,767)INT / INTEGER(4字节,有符号整数,从-2,147,483,648到2,147,483,647)BIGINT(8字节,符号整数,从-9,223,372,036,854,775,808至9,223,372,036,854,775,807)FLOAT (4字节,单精度浮点数)DOUBLE (8字节,双精度浮点数)DOUBLE P 查看全文

大数据学习之路33-hive的DDL语法,显示命令

show tables;show databases;show partitions;show functions; --->显示hive中所有的内置函数这里的函数就和我们平时使用的函数一样,有输入有返回:这里截取字符串的时候下标是从1开始的,当然写成0也可以查出来,因为0本来就不存在。desc extended t_name; ------->显示表的详细信息,但是显示的有点乱desc formatted table_name; ----->也是显示表的详细信息,但是比上面的显示的要好看。是格式化的。阅读更多 查看全文

Hive常用函数

1.修改表:ALTER TABLE table_name SET TBLPROPERTIES('comment' = '这是表注释!');2.修改字段:ALTER TABLE table_name CHANGE COLUMN muid muid_new STRING COMMENT '这里是列注释!'; 3.json字段解析(get_json_object)select    date,    url,    get_json_object(`extract_json`, '$.text') as `text`,    get_json_object( get 查看全文

Hive问题总结

Hive表关联查询,如何解决数据倾斜的问题倾斜原因:  map 输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性等原因造成reduce 上的数据量差异太大  - 1)key分布不均匀 - 2)业务数据本身的特性 - 3)建表时考虑不周  - 4)某些SQL语句本身就有数据倾斜解决方案:[x] 参数调节hive.map.aggr = true hive.groupby.skewindata=true$quad$有数据倾斜的时候进行==负载均衡==,当选项设定为true,生成的查询计划会有两个MR job:第一个MR Job 中,Map的输出结果集合会==随机分布==到Reduce中,每个Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的GROUP 查看全文
加载更多
其它 ( 244 )
python ( 199 )
java ( 174 )
算法 ( 136 )
linux ( 112 )
mysql ( 82 )
js ( 82 )
android ( 56 )
c/c++ ( 47 )
信息技术 ( 41 )
php ( 41 )
nginx ( 23 )
css ( 23 )
shell ( 22 )
教育 ( 21 )
操作系统 ( 19 )
html ( 19 )
设计模式 ( 18 )
node ( 14 )
tcp/udp ( 11 )
hive ( 11 )
es6 ( 10 )
es ( 10 )
编码 ( 9 )
redis ( 8 )
unix ( 5 )
SpringBoot ( 5 )
数据库 ( 5 )
hadhoop ( 4 )