这几年的大数据热潮带动了一激活了一大批hadoop学习爱好者.有自学hadoop的,有报名培训班学习的.所有接触过hadoop的人都知道,单独搭建hadoop里每个组建都需要运行环境.修改配置文件测试等过程.对于我们这些入门级新手来说简直每个都是坑.国内的发行版hadoop那么多,似乎都没有来填这样的坑?不知道是没法解决,还是没有想到? 安装运行环境这样的坑,那些做国产大数据底层开发的,如果不能解决这个问题的话,我觉得不是一个合格的大数据底层开发机构.不过比较幸运的是,三月的时候申请拿到了一个D…
一.安装部署 1.Zookeeper正常部署 (见前篇博文大数据软件安装之ZooKeeper监控 ) [test@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start [test@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh start [test@hadoop104 zookeeper-3.4.10]$ bin/zkServer.sh start 2.Hadoop正常部署 (见前篇博文大数据软件安装之H…
ABC三个hive表 每个表中都只有一列int类型且列名相同,求三个表中互不重复的数 create table a(age int) row format delimited fields terminated by ','; create table b(age int) row format delimited fields terminated by ','; create table c(age int) row format delimited fields terminated by…
1新建一个数据库 create database db3; 2创建一个外部表 --外部表建表语句示例: create external table student_ext(Sno int,Sname string,Sex string,Sage int,Sdept string) row format delimited fields terminated by ',' location '/stu'; 3添加数据 vi student.txt ,李勇,男,,CS ,刘晨,女,,IS ,王敏,女…
create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hivedata/t_access_times.dat' into table t_access_times; A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,20…
一.Redis内存数据库 一个key-value存储系统,支持存储的value包括string(字符串).list(链表).set(集合).zset(sorted set--有序集合)和hash(哈希类型).数据存在缓存中. 与MemCached区别: (*)支持持久化 (*)丰富的数据类型 (*)实现了主从同步 (*)补偿了key/Value存储的不足 3.Redis的特点 (*)基于内存 (*)持久化: RDB.AOF (*)消息机制:支持String,只支持Topic的消息(广播) (*)…
一.为什么要把数据存入内存? 1.原因:快2.常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据库,持久化(RDB.AOF) (*)Oracle TimesTen (*)SAP HANA 二.MemCached缓存技术 1.基本原理和体系结构 (*) 就是在内存中,维护一张巨大的Hash表 (*) MemCached通过一个路由算法(由客户端决定),来决定数据保存到哪一个节点上 2.安装和配置…
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效.可伸缩的特点. 大数据学习资料分享群119599574 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 2.HDFS 源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测…
1. 练习 数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额 第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(money) day_money FROM v_orders GROUP BY sid,dt 第二步:给每个商家中每日的订单按时间排序并打上编号 SELECT sid,dt,day_money, ROW_NUMBER() OVER(PARTITION BY sid ORDER BY dt) rn FROM…
1. hive的简介(具体见文档) Hive是分析处理结构化数据的工具   本质:将hive sql转化成MapReduce程序或者spark程序 Hive处理的数据一般存储在HDFS上,其分析数据底层的实现是MapReduce/spark,执行程序运行在Yarn上 其大致可以按如下图理解(具体可见HIVE文档) sql语句是对某个表进行操作,所以hive一定要创建一个表格,这个表格必须要映射到hdfs中某个具体的文件才行,而映射关系.表的结构数据以及hdfs中数据的存储结构都会在创建表时规定,…