hive concat_ws源代码

其他相关源码可以到以下链接查看: https://github.com/apache/hive/tree/master/ql/src/java/org/apache/hadoop/hive/ql/udf/generic package org.apache.hadoop.hive.ql.udf.generic; import org.apache.hadoop.hive.ql.exec.Description; import org.apache.hadoop.hive.ql.exec.UDFA…

hive UDAF源代码分析

sss /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ownership. The ASF licenses this file * t…

037 对于HIVE架构的理解

0.发展在hive公布源代码之后公司又公布了presto,这个比较快,是基于内存的. impala:3s处理1PB数据. 1.Hive 能做什么,与 MapReduce 相比优势在哪里关于hive这个工具,hive学习成本低,入手快,对于熟悉sql语法的人来说,操作简单,熟悉. 其实,还有一个,就是统一的数据管理,可与impala/spark等共享元数据. 2.为什么说 Hive 是 Hadoop 数据仓库,从[数据存储和分析]方面理解对于有固定格式的文件,使用HIVE把他存储到H…

Hive Web Interface的安装

Hive Web Interface,简称hwi,是Hive的Web接口. 首先,安装ant,下载ant,解压,并在/etc/profile中设置: export ANT_HOME=/opt/apache-ant-1.10.1 export ANT_LIB=$ANT_HOME/lib 然后 source /etc/profile 修改${HIVE_HOME}/conf/hive-site.xml文件,加上下面几个设置: <property> <name>hive.hwi.war.f…

Hive内置函数和自定义函数的使用

一.内置函数的使用查看当前hive版本支持的所有内置函数 show function; 查看某个函数的使用方法及作用,比如查看upper函数 desc function upper; 查看upper函数更为详细的信息 desc function extended upper; 转换为小写: lower() 查询emp表中员工姓名,员工姓名小写显示 select empno, ename, lower(ename) from emp; 字符串连接: concat() 查询emp表,将员工姓名追加…

CIA Hive Beacon Infrastructure复现1——使用Apache mod_rewrite实现http流量分发

0x00 前言 2017年11月9日维基解密公布一个代号为Vault8的文档,包含服务器远程控制工具Hive的源代码和开发文档.开发文档中的框架图显示Hive支持流量分发功能,若流量有效,转发至Honeycomb服务器,若流量存在问题,转发至Cover Server.本文仅站在技术研究的角度,尝试使用Apache的mod_rewrite模块实现http流量分发,完成相同的目标. 标记后的框架图如下: 之前的分析文章: <CIA Hive测试指南--源代码获取与简要分析> 0x01 简介本文将…

远程调试hadoop各组件

远程调试对应用程序开发十分有用.例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序.其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等. 为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本. JPDA 简介 Sun Microsystem 的 Java Platform Debugger Archite…

【转】大数据分析（Big Data OLAP）引擎Dremel, Tenzing 以及Impala

引自:http://blog.csdn.net/xhanfriend/article/details/8434896 对于数据分析师来说,SQL是主要的语言. Hive为Hadoop提供了支持SQL运行的能力,可是目前Hive运行速度达不到实时要求.这是因为Hive将SQL翻译成一个或多个MapReduce任务,而MapReduce原本是大数据批处理计算框架,并不适应实时数据分析的速度要求. 现在有两种思路去提高SQL在大数据平台上的执行速度: 1. 用一种更快的SQL执行引擎取代Ma…

hive源代码解析之一hive主函数入口

hive其实做的就是解析一条sql然后形成到mapreduce任务,就是一个代码解释器.hive源代码本身就可以分为ql/metasotre/service/serde 这几块:其中对于Hive来说,ql是整个Hive最最核心的一个模块,Hive主要的功能都集中在这样一个模块中,即org.apache.hadoop.hive.ql.*,其中最重要的几个模块: parse:语法解析器和语义分析器,将SQL转化为执行计划. optimizer:优化器,包括执行计划Operator图的改写(逻辑优化…

concat_ws 使用在hive spark-sql上的区别

concat_ws() 在hive中,被连接对象必须为string或者array<string>,否则报错如下: hive> select concat_ws(',',unix_timestamp('2012-12-07 13:01:03'),unix_timestamp('2012-12-07 15:01:03')); FAILED: SemanticException [Error 10016]: Line 1:21 Argument type mismatch ''2012-12-…

hive splict, explode, lateral view, concat_ws

hive> create table arrays (x array<string>) > row format delimited fields terminated by '\001' > collection items terminated by '\002' > ; OK Time taken: 0.574 seconds hive> show tables; OK arrays jigou Time taken: 0.15 seconds, Fetch…

hive之案例分析(grouping sets，lateral view explode, concat_ws)

有这样一组搜索结果数据: 租户,平台, 登录用户, 搜索关键词, 搜索的商品结果List {"tenantcode":"", "platform":"IOS","loginName":"", "keywords":"手机","goodsList":[{"skuCode":"sku00001"…

hive中的concat，concat_ws，collect_set用法

select id, str_to_map(concat_ws(',',collect_set(concat(substr(repay_time,0,7), ':',round(interest,2)))),',',':') repay_interest from 50_repay t…

从源代码剖析Mahout推荐引擎

转载自:http://blog.fens.me/mahout-recommend-engine/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始…

hive 创建三种文件类型的表

--TextFile set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; INSERT OVERWRITE table hzr…

Hive函数大全

一.关系运算: 1. 等值比较: = 语法:A=B 操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为FALSE 举例: hive> select 1 from lxw_dual where 1=1; 1 2. 不等值比较: <> 语法: A <> B 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL:如果表达式A与表达式B不相等,则为TRUE:否则为FALSE 举例: hive> select…

附录C 编译安装Hive

如果需要直接安装Hive,可以跳过编译步骤,从Hive的官网下载编译好的安装包,下载地址为http://hive.apache.org/downloads.html . C.1 编译Hive C.1.1 下载Hive源代码包在Hive的官网下载页面上下载,为加快下载速度选择中国境内的镜像,并下载apache-hive-1.2.1-src.tar.gz源代码包.下载后把安装包方放在目录/home/spark/work目录下,用如下命令解压缩hive安装文件: $cd /home/spark…

Hive基本语法操练

建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (…

Hive 字符串操作[转]

1. 字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度举例: hive> select length('abcedfg') from lxw_dual; 7 2. 字符串反转函数:reverse 语法: reverse(string A) 返回值: string 说明:返回字符串A的反转结果举例: hive> select reverse(abcedfg') from lxw_dual; gfdecba 3. 字符串连接函数…

hive安装--设置mysql为远端metastore

作业任务:安装Hive,有条件的同学可考虑用mysql作为元数据库安装(有一定难度,可以获得老师极度赞赏),安装完成后做简单SQL操作测试.将安装过程和最后测试成功的界面抓图提交 . 已有的当前虚拟机: 总共三台虚拟机,使用CentOS.一台是NameNode,另两台为DataNode,由于搭载虚拟机的内存不是很足,所以不打算再新增一台虚拟机来另外安装mysql,所以选择其中一台datanode虚拟机来安装mysql,由于很早时候已经安装布署了hadoop,所以不再累述hadoop如何安装使用:…

HIVE: collect_set(输出未包含在groupby的字段);

今天帮同事测试,发现代码里有个好用的hive 函数: 1. collect_set 可以输出未包含在groupby里的字段.条件是,这个字段值对应于主键是唯一的. select a, collect_set(b)[0], count(*) -- 同时想输出每个主键对应的b字段 from ( select 'a' a, 'b' b from test.dual )a group by a; -- 根据a group by 2. concat_ws 和collect_set 一起可以把group b…

编译CDH Spark源代码

如何编译CDH Spark源代码经过漫长的编译过程(我编译了2个半小时),最终成功了,在assembly/target/scala-2.10目录下面有spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar文件,用rar打开看看hive jdbc package有没有包含在里面,有的话说明编译成功了. <dependency> <groupId>jline</groupId> <artifactId>jl…

hive脚本出现Error: java.lang.RuntimeException: Error in configuring object和Caused by: java.lang.IndexOutOfBoundsException: Index: 9, Size: 9

是在reduce阶段报的错误,详细错误信息是朱传豪 19:04:48 Diagnostic Messages for this Task: Error: java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109) at org.apache.hadoop.util.ReflectionU…