Hive相关随笔】的更多相关文章

1).Hive中Select Top N的实现 Hive中使用 Order by + Limit 可以很容易地实现Select Top N. 但是在Hive中Order by只能使用1个Reduce,如果表的数据量很大,那么Order by就会力不从心.相对的,Sort by可以启动多个Reduce,每个Reduce做局部排序. 从执行计划explain中可以看出Sort by Limit N启动了两个MR Job.第一个Job是在每个Reduce中做局部排序,然后分别取Top N.假设启动了M…
Hive介绍 http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.htmlHive的数据类型和数据模型 http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.htmlHive内表与外表详述 http://www.aboutyun.com/thread-7458-1-1.htmlHive基础之分区和桶 http://my.oschina.net/leejun…
以下是阅读<Hive编程指南>后整理的一些零散知识点: 1. 有时候用户需要频繁执行一些命令,例如设置系统属性,或增加对于Hadoop的分布式内存,加入自定的Hive扩展的Jave包(JAR文件),我们可以将这些命令加入hiverc文件里,这样每当CLI(command-line interface命令行界面)启动时,在'hive>'提示符出现前先执行这个hiverc文件. 2. Hive脚本(.hql后缀文件)注释用--. 3. 在Hive内使用Hadoop的dfs命令,直接在Hive…
---恢复内容开始--- 转载:Hive 性能优化 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题. count(distinct ),在…
HIVE JOIN:http://blog.csdn.net/yfkiss/article/details/8073608 HIVE资料: 一条记录map阶段输出KV,shuffle sort,输出KV,最后reduce输出结果 https://skydrive.live.com/?mkt=zh-CN#!/view.aspx?cid=D04547F5707AF6F9&resid=D04547F5707AF6F9%21107&app=PowerPoint RCFILE:http://www.…
1.Spark On Yarn(HDFS HA)详细配置过程 2.Hive安装与配置详解…
Hive语句: Join应该把大表放到最后 左连接时,左表中出现的JOIN字段都保留,右表没有连接上的都为空.对于带WHERE条件的JOIN语句,例如: 1 SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key) 2 WHERE a.ds='2009-07-07' AND b.ds='2009-07-07' 执行顺序是,首先完成2表JOIN,然后再通过WHERE条件进行过滤,这样在JOIN过程中可能会输出大量结果,再对这些结果进…
内存不够: set mapreduce.map.memory.mb=4096;set mapreduce.map.java.opts=-Xmx3280m; set mapreduce.reduce.memory.mb=4096;set mapreduce.reduce.java.opts=-Xmx3280m; 或者设置每一个任务的最大数据处理量: set hive.exec.reducers.bytes.per.reducer=500000000; 或者设置任务数目: set mapred.re…
set hive.mapred.mode=strict; //设置hive执行模式,默认为nonstrict(非严格模式),这里设置为严格模式 set hiveconf:hive.cli.print.current.db=true; //显示当前数据库的名称, 默认是false,这里开启 set hive.cli.print.header=true; 查询表数据的时候,显示字段名称,默认是false,这里开启 动态分区属性 set hive.exec.dynamic.partition.mode…
AOP: 原理:底层利用动态代理(两种动态代理技术都使用了) 两种实现方案: 第一种:JDK动态代理技术 实现的InvocationHandler接口,要想实现某个类的动态代理对象,必须有接口有实现类. 第二种:cglib动态代理技术(需要导入spring包--4个核心包) 实现了MethodInterceptor接口,原理是继承要代理的类. 第一步:导入包  4+2+2+2 第二步:准备肉鸡 编写一个接口UserService  和 UserServiceImpl,具体详见代码 第三步:编写通…
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.另外一个是Windows注册表文件. #hive debug命令nuhup hive --service hiveserver2 --debug & 1>/dev/null 2&g…
一,使用vue-baidu-map 1.下载相关包依赖 npm i vue-baidu-map   2.在main.js中import引入相关包依赖,在main.js中添加如下代码: import BaiduMap from 'vue-baidu-map'; Vue.use(BaiduMap,{ ak:'你在百度地图官网申请的apk' })   3.在页面中引入,只需在页面中添加如下代码: <baidu-map class="bm-view" :center="cent…
对于nuxt.js从未接触,对于项目需要进行零散了解,作此归纳,以下都是一个新手的拙见与理解,有不同意见欢迎提出,但请勿喷. 一.项目创建 npx create-nuxt-app projectName npx在NPM版本5.2.0以上默认安装,而安装node.js时会自带安装npx. 项目创建完成之后进入对应文件路径的cmd窗口,运行命令npm run dev启动项目.项目启动成功之后输入127.0.0.1:3000进入项目(nuxt项目由于是运用了SSR渲染,所以在项目创建之初就自带了一个基…
DR(Instantaneous Decoding Refresh)--即时解码刷新. I和IDR帧都是使用帧内预测的.它们都是同一个东西而已,在编码和解码中为了方便,要首个I帧和其他I帧区别开,所以才把第一个首个I帧叫IDR,这样就方便控制编码和解码流程.IDR帧的作用是立刻刷新,使错误不致传播,从IDR帧开始,重新算一个新的序列开始编码.而I帧不具有随机访问的能力,这个功能是由IDR承担.IDR会导致DPB(DecodedPictureBuffer参考帧列表——这是关键所在)清空,而I不会.…
//获取所有name='id'.被选择的的多选框var idArr = $("input[type='checkbox'][name='id']:checked");//将这些多选框的id值(实际上是个数组)组合成以‘,’分隔的字符串var ids = "";$.each(idArr,function(index,o){ ids = ids + $(o).val()+",";});ids = ids.substring(0,ids.length-…
安装 下载ruby并且安装 点击这里 打开命令行输入 gem install sass 我使用的是sublime text3 还需要下载三个插件 sass -- 可以帮助你语法高亮 sass build -- 可以通过Ctrl+B来编译文件 SublimeOnSaveBuild -- 帮助你在保存的时候编译 4.编译的命令 单个文件转换 sass style.scss style.css 单文件监听 sass --watch style.scss:style.css 文件夹监听 sass --w…
web.xml部分 1.欢迎界面 <welcome-file-list> <welcome-file>/views/login.jsp</welcome-file> </welcome-file-list> 2.字符编码过滤器 <filter> <filter-name>CharacterEncoding</filter-name> <filter-class>org.springframework.web.f…
完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐…
1.Hive相关 脚本导数据,并设置运行队列 bin/beeline -u 'url' --outputformat=tsv -e "set mapreduce.job.queuename=queue_1" -e "select * from search_log where date <= 20150525 and date >= 20150523" > test.txt 将毫秒转换为日期 select from_unixtime(cast(cr…
一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识.那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料.第三个问题,就得慢慢靠实践和时间积累了. 如果有什么问题,可以直接留言! 为什么出现?解决了什么问题? 背景 说到这个问题,还得先说个小故事,在很久很久以前.... 有一个叫facebook的贼有名的公司,他们内部搭建了数据…
前言: hive本身提供了丰富的函数集, 有普通函数(求平方sqrt), 聚合函数(求和sum), 以及表生成函数(explode, json_tuple)等等. 但不是所有的业务需求都能涉及和覆盖到, 因此hive提供了自定义函数的接口, 方便用户扩展. 自己好像很久没接触hadoop了, 也很久没博客了, 今天趁这个短期的项目, 对hive中涉及的自定义函数做个笔记. 准备: 编写hive自定义函数前, 需要了解下当前线上hive的版本. hive --vesion 比如作者使用到的hive…
现在整理博客的时间少了,大多是在用为知笔记收藏和整理,一次集中发点Linux相关随笔整理和一个目录,是按时间顺序来的.每一篇都是自己用过之后整理的,应用场景已经尽可能的说明了,不明白的可以Q我,上班时间请尽量避免. ========目录========= centos6.5安装mongodb2.6 Linux下DB2数据库安装教程 [Installing Metasploit Framework on CentOS_RHEL 6]在CentOS_RHEL 6上安装Metasploit的框架[翻译…
2.3 Hive 内部介绍: P44 $HIVE_HOME/lib 下的 jar 文件是具体的功能部分:(CLI模块) 其它组件,Thrift 服务,可以远程访问其他进程功能:也有使用 JDBC 和 ODBC 访问 Hive 的功能: 所有Hive 客户端都需要一个 metastoreservice(元数据服务),Hive 用这个服务来存储表模式信息和其他元数据信息:默认会使用内置的 Derby SQL服务器提供有限的单进程的存储服务: HWI Hive 网页界面,提供了远程访问Hive 的服务…
安装了0.12之后,听说0.13.1有许多新的特性,包括永久函数,所以想更新成0.13版的(元数据放在mysql中) 2014年8月5日实验成功 hive0.13.1的新特性 新特性详见 http://zh.hortonworks.com/blog/announcing-apache-hive-0-13-completion-stinger-initiative/ 1.下载0.13.1压缩包 地址http://mirrors.hust.edu.cn/apache/hive/ 打开后有 点开hiv…
Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必每一步都是必须的,正确的,大家可以参考一下. 第一步:安装和测试mysql(已装好的可跳过) 见我总结的http://blog.csdn.net/unflynaomi/article/details/37811229 第二步.开始正式安装hive 1.在hdfs上建目录: $ hadoop fs -…
一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</…
我的Hadoop版本是1.2.0,mysql版本是5.6.12. 先介绍一下嵌入式derby模式: 1.下载/解压 在hive官网上选择要下载的版本,我选择的版本是hive-0.10.0. 下载好解压到:/usr/local/hadoop,因为我的hadoop安装在了这个文件下 leefon@ubuntu:~/Download$ sudo .tar.gz -C /usr/local/hadoop leefon@ubuntu:~/Download$ cd /usr/local/hadoop 之后便…
原文来自: http://blog.csdn.net/songchunhong/article/details/51423823 1.下载Hive安装包apache-hive-1.2.1-bin.tar.gz 2.解压安装包,并移动到要安装的路径下 sudo tar -zxvf apache-hive-1.2.1-bin.tar.gz sudo mv -r hive1.2.1 /usr/local/ 3.配置hive环境变量 vi /etc/profile 添加环境变量值  export HIV…
一.Hive的基本概念 1.1 hive是什么? (1)Hive是建立在hadoop数据仓库基础之上的一个基础架构: (2)相当于hadoop之上的一个客户端,可以用来存储.查询和分析存储在hadoop中的数据: (3)是一种SQL解析引擎,能够将SQL转换成Map/Reduce中的Job在hadoop上执行. 1.2 hive的数据存储特点 (1)数据存储是基于hadoop的HDFS: (2)没有专门的数据存储格式: (3)存储结构主要有:数据库.文件(默认可以直接加载文本文件).表.视图.索…
Hive是什么! 一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识.那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料.第三个问题,就得慢慢靠实践和时间积累了. 如果有什么问题,可以直接留言! 为什么出现?解决了什么问题? 背景 说到这个问题,还得先说个小故事,在很久很久以前.... 有一个叫facebook的贼有名的公司,…