一、Hive的JDBC连接

日志分析结果数据，存储在hive中

<property>

  <name>hive.server2.thrift.port</name>

  <value>10000</value>

  <description>Port number of HiveServer2 Thrift interface.

  Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</description>

</property>

<property>

  <name>hive.server2.thrift.bind.host</name>

  <value>localhost</value>

  <description>Bind host on which to run the HiveServer2 Thrift interface.

  Can be overridden by setting $HIVE_SERVER2_THRIFT_BIND_HOST</description>

</property>

hive.server2.thrift.bind.host

如果需要远程连接，则改成主机名beifeng-hadoop-02,或者0.0.0.2（表示任何主机都可以连接）

hiveserver2进程的启动:nohup hiveserver2 > /home/beifeng/hiveserver2.start.log 2>&1 &

nohup hive --service hiveserver2 > /home/beifeng/hiveserver2.start.log 2>&1 &
ps -ef | grep HiveServer2
netstat -tlnup | grep 10000

如果需要远程连接，则改成主机名beifeng-hadoop-02,或者0.0.0.2（表示任何主机都可以连接）

JDBC连接
beeline连接客户端beeline

进入beeline交互式窗口以后，

执行：!connect jdbc:hive2://beifeng-hadoop-02:10000

首次用beeline访问Hive，会出现异常

hive.server2.long.polling.timeout

username：用户名一定要用hdfs上的用户，或者对hdfs上与hive相关的目录有写权限的用户名

hive.metastore.warehouse

passwd

二、Sqoop

1. 数据来源：

（1）日志数据：业务系统运行过程中产生的业务日志数据（用户行为数据），上传到hdfs

对于小数据量： shell脚本方式 hdfs dfs -put

对于大数据量：使用专门框架

Flume：使用mapreduce导数据到

LogStah：ELK ---> E elasticsearch | L logstach | K kinbana

（2）RMBMS的记录：需要先导入到HDFS上

金融行业，反欺诈模型--》通过分析历史金融交易记录

金融交易记录：一般是存储在DB2、ORACLE

Sqoop框架：

RMDBS <=======> HDFS

Sqoop框架底层本质：还是mapreduce，只需要map，并发执行

2. Sqoop架构

sqoop

sqoop1：包含了sqoop的核心，使用命令操作

sqoop2：在sqoop1的基础上封装了一些服务，比如添加连接池、客户端

导数据其实一般是通过编写脚本，定时去执行。

3. Sqoop安装部署

统一使用cdh版本：各个框架之间存在版本的兼容性，

Cloudera公司 Doug Cutting

Cloudera Manager：集群监控、管理的工具

cdh版本： hadoop、hive、sqoop、flume、hue、oozie

bin/sqoop help

bin/sqoop export

bin/sqoop import

bin/sqoop list-databases

bin/sqoop list-tables

bin/sqoop --options-file 文件名

4. 项目案例

订单分析：数据来源于RDBMS

统计的需求：

日期维度：年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

日期维度+地域维度：某个国家省份城市+年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

某个客户下：历史、年

订单金额总额、平均订单金额、最大订单金额、最小订单金额

实现实录：

1）将订单记录从RDBMS上导入到HDFS

2）Hive进行统计分析

3）将统计结果数据导出到RDBMS

sqoop export

bin/sqoop --list-databases \

--connection --jdbc:mysql://host:port/database\

--username \

--password

1）用sqoop将数据导入到hdfs

bin/sqoop help import

bin/sqoop import \

--connection --jdbc:mysql://host:port/database\

--username \

--password

--table cust info\

--target-dri hdfs://host/user/beifeng/import/cust_info

--delete-target-dir

增量导入

--check-column 依据字段，类型应该使用数字类型

--incremental 模式 append lastmodified

--last-value 上次导的值

强烈建议使用数字类型的字段进行切分

指定map个数 --num-mappers

默认导入到hdfs上的文件是CSV文件（每个字段之间使用逗号隔开）。

====按照自定义分隔符将RDBMS表数据导入hdfs

Output line formatting arguments：指定MapReduce输出格式

Input parsing arguments：指mapreduce读取数据时解析数据

--fields-terminated-by：指定分隔符

《OD学Hive》第六周20160730的更多相关文章

《OD学hive》第六周20160731
一.hive的压缩 1. hadoop的压缩 1)为什么需要压缩 MapReduce的性能瓶颈:网络IO.磁盘IO 数据量:对于MapReduce的优化,最主要.根本就是要能够减少数据量 Combin ...
《OD学hive》第五周0723
https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.创建表 create table student(id int, n ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
《OD学hadoop》第二周0703
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...
《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
从零开始学Python第六周：面向对象基础（需修改）
标签(空格分隔): 面向对象一,面向对象基础 (1)面向对象概述面向过程:根据业务逻辑从上到下写代码函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可面向对象:对函数进行分类 ...
《OD学hadoop》第一周0626 作业二：Linux基础
一.打包压缩知识点: tar -zxvf -C PATH tar -jxvf tar -zcvf tar -jcvf tar:打包命令 -z 打包同时gzip压缩 -j 打包同时bzip2 -c 打 ...
《OD学hadoop》第一周0625 LINUX作业一：Linux系统基本命令（一）
1. 1) vim /etc/udev/rules.d/-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE= ...

随机推荐

mysql Communications link failure,C3p0的参数详解
MySQL默认一个连接空闲8小时候就会自动断开,而这时程序以为连接还能使用,然后在使用的时候就会出现Communications link failure异常. 这时需要进行两步设置,有时候只设置My ...
Linux查看日志命令
tail -f /var/log/apport.log more /var/log/xorg.0.log cat /var/log/mysql.err less /var/log/messages g ...
CentOS 有gcc没有g++
[root@localhost ~]# which gcc/usr/bin/gcc[root@localhost ~]# which g++/usr/bin/which: no g++ in (/us ...
POJ 3258 River Hopscotch (binarysearch)
River Hopscotch Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 5193 Accepted: 2260 Descr ...
JavaScript语言基础知识点图示（转）
一位牛人归纳的JavaScript 语言基础知识点图示. 1.JavaScript 数据类型 2.JavaScript 变量 3.Javascript 运算符 4.JavaScript 数组 5.Ja ...
IT主要在线学习网站
大的模式来说,目前做编程学习网站的大概有两种.一种是视频模式,如优才,麦可,开课吧等,一种是非视频模式如计蒜客(泡面吧),实验楼和他们汇智网等.其中多数产品的创新也都是在“视频+交互式学习”模式上.要 ...
iOS-CAShapelayer
1.CAShapeLayer继承至CALayer,可以使用CALayer的所有属性值2.CAShapeLayer需要与贝塞尔曲线配合使用才有意义3.使用CAShapeLayer与贝塞尔曲线可以实现不在 ...
Gdata XML解析配置和简单使用
导入libxml2,使用第三方AFNetworking网络请求,第三方XML解析GData GData需要的配置 Build Settings 里搜索,添加如下
怎样在VS2013/MFC中使用TeeChart绘图控件
TeeChart作为一款强大好用的绘图控件,通过它可以绘制出各式各样的图表,包括2D的,还有3D的,绘制的图表美观实用,这里主要讲述如何在VS2013/MFC中使用TeeChart控件,顺便说一下在V ...
ＳＱＬ技术内幕－5 比较特殊 insert into 数据的写法
---比较特殊,第一次看到这种写法,记录下来 create table Student --学生成绩表 ( id int, --主键 Grade int, --班级 Score int --分数 ) ...

《OD学Hive》第六周20160730

一、Hive的JDBC连接

二、Sqoop

《OD学Hive》第六周20160730的更多相关文章

随机推荐

热门专题