一、Hive的JDBC连接

日志分析结果数据,存储在hive中

<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
<description>Port number of HiveServer2 Thrift interface.
Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</description>
</property> <property>
<name>hive.server2.thrift.bind.host</name>
<value>localhost</value>
<description>Bind host on which to run the HiveServer2 Thrift interface.
Can be overridden by setting $HIVE_SERVER2_THRIFT_BIND_HOST</description>
</property>

hive.server2.thrift.bind.host

如果需要远程连接,则改成主机名beifeng-hadoop-02,或者0.0.0.2(表示任何主机都可以连接)

hiveserver2进程的启动:nohup hiveserver2 > /home/beifeng/hiveserver2.start.log 2>&1 &

nohup hive --service hiveserver2 > /home/beifeng/hiveserver2.start.log 2>&1 &
ps -ef | grep HiveServer2
netstat -tlnup | grep 10000

如果需要远程连接,则改成主机名beifeng-hadoop-02,或者0.0.0.2(表示任何主机都可以连接)

JDBC连接
beeline连接客户端beeline

进入beeline交互式窗口以后,

执行:!connect jdbc:hive2://beifeng-hadoop-02:10000

首次用beeline访问Hive,会出现异常

hive.server2.long.polling.timeout

username:用户名一定要用hdfs上的用户,或者对hdfs上与hive相关的目录有写权限的用户名

hive.metastore.warehouse

passwd

二、Sqoop

1. 数据来源:

(1)日志数据:业务系统运行过程中产生的业务日志数据(用户行为数据),上传到hdfs

对于小数据量: shell脚本方式 hdfs dfs -put

对于大数据量: 使用专门框架

Flume:使用mapreduce导数据到

LogStah:ELK   --->  E elasticsearch | L logstach | K kinbana

(2)RMBMS的记录:需要先导入到HDFS上

金融行业,反欺诈模型--》通过分析历史金融交易记录

金融交易记录:一般是存储在DB2、ORACLE

Sqoop框架:

RMDBS <=======> HDFS

Sqoop框架底层本质:还是mapreduce,只需要map,并发执行

2. Sqoop架构

sqoop

sqoop1:包含了sqoop的核心,使用命令操作

sqoop2:在sqoop1的基础上封装了一些服务,比如添加连接池、客户端

导数据其实一般是通过编写脚本,定时去执行。

3. Sqoop安装部署

统一使用cdh版本: 各个框架之间存在版本的兼容性,

Cloudera公司 Doug Cutting

Cloudera Manager:集群监控、管理的工具

cdh版本: hadoop、hive、sqoop、flume、hue、oozie

bin/sqoop help

bin/sqoop export

bin/sqoop import

bin/sqoop list-databases

bin/sqoop list-tables

bin/sqoop --options-file 文件名

4. 项目案例

订单分析:数据来源于RDBMS

统计的需求:

日期维度:年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

日期维度+地域维度:某个国家省份城市+年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

某个客户下:历史、年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

实现实录:

1)将订单记录从RDBMS上导入到HDFS

2)Hive进行统计分析

3)将统计结果数据导出到RDBMS

sqoop export

bin/sqoop --list-databases \

--connection --jdbc:mysql://host:port/database\

--username \

--password

1)用sqoop将数据导入到hdfs

bin/sqoop help import

bin/sqoop import \

--connection --jdbc:mysql://host:port/database\

--username \

--password

--table cust info\

--target-dri hdfs://host/user/beifeng/import/cust_info

--delete-target-dir

增量导入

--check-column  依据字段,类型应该使用数字类型

--incremental 模式 append lastmodified

--last-value 上次导的值

强烈建议使用数字类型的字段进行切分

指定map个数 --num-mappers

默认导入到hdfs上的文件是CSV文件(每个字段之间使用逗号隔开)。

====按照自定义分隔符将RDBMS表数据导入hdfs

Output line formatting arguments:指定MapReduce输出格式

Input parsing arguments:指mapreduce读取数据时解析数据

--fields-terminated-by: 指定分隔符

《OD学Hive》第六周20160730的更多相关文章

  1. 《OD学hive》第六周20160731

    一.hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO.磁盘IO 数据量:对于MapReduce的优化,最主要.根本就是要能够减少数据量 Combin ...

  2. 《OD学hive》第五周0723

    https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.创建表 create table student(id int, n ...

  3. 《OD学hive》第四周0717

    一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...

  4. 《OD学hadoop》第二周0702

    大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器 罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...

  5. 《OD学hadoop》第二周0703

    hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...

  6. 《OD学hadoop》第一周0625

    一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...

  7. 从零开始学Python第六周:面向对象基础(需修改)

    标签(空格分隔): 面向对象 一,面向对象基础 (1)面向对象概述 面向过程:根据业务逻辑从上到下写代码 函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可 面向对象:对函数进行分类 ...

  8. 《OD学hadoop》第一周0626 作业二:Linux基础

    一.打包压缩 知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打 ...

  9. 《OD学hadoop》第一周0625 LINUX作业一:Linux系统基本命令(一)

    1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE= ...

随机推荐

  1. asp.net 分布式缓存

    之前Velocity已被 集成到App Fabric(包含有WCF监控==)中.   网络Velocity使用大多是针对老版本:  老版本的下载地址:  http://www.microsoft.co ...

  2. 父页面 调用iframe方法

      父页面调用Iframe的方法 document.getElementById("tabIf0").contentWindow.Search();     Jquery 方式: ...

  3. 在centos 6.5 在virtual box 上 安装增强版工具

    centos 6.5 在virtual box 上 安装增强版工具: 出现:centos unable to find the source of your current linux kernel ...

  4. 怎样把网站js文件合并成一个?几种方法可以实现

    我们在建网站时经常会用js特效代码以使页面更美观,比如js幻灯片代码.js下拉菜单等,但是网页特效一多,如果js文件没有合并的话会降低网站的性能,这时我们就要考虑合并js文件了,ytkah总结了以下几 ...

  5. 山寨小小军团开发笔记 之 GamePool

    很多时候我们对于物体(比如弓箭)大量的生成与销毁,这个时候可以把弓箭放在内存池中进行管理,加快体验.自己Copy了一个简易版的. 一.代码 GameObjectPoolManager.cs using ...

  6. spring事务认识

    Spring配置异常回滚采用的是rollback-for=“BusinessException”.来源于java的检查性异常.非检查性异常的区别.使用spring难免要用到spring的事务管理,要用 ...

  7. PHP-Java-Bridge的使用(平安银行支付功能专版)

    去年做平安银行的时候,用到了PHP-Java-Bridge,后来写了一篇博客记录使用PHP-Java-Bridge的一些心得(连接:http://my.oschina.net/kenblog/blog ...

  8. Linux 双线策略路由的三种实现方式总结+端口映射

    Linux 双线策略路由的三种实现方式总结+端口映射 Linux 双线策略路由的三种实现方式总结+端口映射 网络环境 服务器(网关): eth0 为LAN口,IP为 LAN_IP = 192.168. ...

  9. 图解 javascript 作用域链

    还是之前那一段简单的javascript代码: window.onload=function(){ function sub(a,b){ return a-b; } var result=sub(10 ...

  10. Tomcat6启用Gzip压缩功能

    配置Tomcat根目录下/conf/server.xml文件: <Connector port="8080" protocol="HTTP/1.1" co ...