一、日志收集项目案例

1.

oozie中依赖jar包

在工作目录下创建lib目录,上传依赖包的lib目录下

2. 作业

将日志收集与处理项目案例使用oozie的workflow执行

3. coordinator

在workflow基础上添加了一个coordinator.xml

coordinator时区

UTC

GMT

CST  ==> GMT+0800  东八区时间

1)将本地服务器的时间设置为GMT+0800

date -R

date

ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2)

vi /opt/modules/cdh/oozie-4.0.0-cdh5.3.6/conf.oozie.default

<name>oozie.processing.timezone</name>
<value>GMT+0800</value>

3)

oozie-server

oozie-console.jps

177行

改为GMT+0800

coordinator基于数据集的调度

4. oozie bundle

将一些corodinator集中起来

bundle

coordinator

workflow

二、Hue

http://archive.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.3.6/manual.html

hdfs 50070

mapreduce job 8088

oozie 11000/oozie

将上面的页面整合到一个web项目中

hive: hql,在页面上编写hql,同时可以通过点击按钮来执行,并且执行完结果直接展示到页面。

1. 下载

hue-3.7.0-cdh5.3.6.tar.gz

2. 解压

3. 安装依赖包

sudo yum -y install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-devel gmp-devel

1)依赖包冲突问题

卸载掉冲突的客户端 rpm -e --nodeps mysql-community-client-5.6.31-2.el6.x86_64

2)

4. 编译安装

在$HUE_HOME下执行

make apps

5. 启动

build/env/bin/supervisor

6. 修改配置文件

1)集成hdfs

webhdfs_url如果是非HA的HDFS:

webhdfs_url=http://beifeng-hadoop-02:50070/webhdfs/v1

webhdfs_url如果是HA的HDFS:

webhdfs_url=http://beifeng-hadoop-02:14000/webhdfs/v1

2)集成yarn

3)集成hive

hue无法连接HiveServer2问题,

4)继承oozie

<property>
<name>oozie.service.WorkflowAppService.system.libpath</name>
<value>/user/oozie/share/lib</value>
<description>
System library path to use for workflow applications.
This path is added to workflow application if their job properties sets
the property 'oozie.use.system.libpath' to true.
</description>
</property>

作业2:

将课上讲过的action

MapReduce aciton: fof

shell action: 日志分割,执行本地shell脚本

hive action: 日志记录数据的清洗和分析

sqooop action:将hive分析结果导出到mysql中

以上所有的workflow通过HUE页面来进行配置,要求有截图。

《OD学oozie》20160813的更多相关文章

  1. 《OD学Oozie》20160807Oozie

    一.引入 MapReduce Job Hive 脚本任务 同一个业务:先后.定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度Map ...

  2. 《OD学Hive》第六周20160730

    一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...

  3. 《OD学hive》第四周0717

    一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...

  4. 《OD学hadoop》第二周0703

    hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...

  5. 《OD学hadoop》20160903某旅游网项目实战

    一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...

  6. 《OD学storm》20160827

    http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...

  7. 《OD学HBase》20160821

    一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...

  8. 《OD学HBase》20160820

    一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数 ...

  9. 《OD学HBase》20160814

    一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...

随机推荐

  1. NYOJ-289 苹果 289 AC(01背包) 分类: NYOJ 2014-01-01 21:30 178人阅读 评论(0) 收藏

    #include<stdio.h> #include<string.h> #define max(x,y) x>y?x:y struct apple { int c; i ...

  2. 一个包的TcpServer流程

    上次说到对于那种有内容的包 bool TCPServer::on_receive_data(int channel_id, void* data, int len) { packet pkt; { p ...

  3. WCF服务端与客户端时间匹配问题

    当服务端部署的WCF服务服务在被客户机调用时,如果显示: 错误,展开后,详细错误为:An error occurred when verifying security for the message ...

  4. POJ 3258 River Hopscotch (binarysearch)

    River Hopscotch Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 5193 Accepted: 2260 Descr ...

  5. jquery easyui tab加载内容的几种方法

    转:http://my.oschina.net/u/2331760/blog/391937?fromerr=saqeoxxB jQuery Easyui 的tabs插件有两种方式加载某个tab(标签页 ...

  6. C#中“貌似”跳出while(true)死循环

    当程序第一次执行到Read()函数时,程序会被阻塞,然后输入字符,Enter之后程序被激活,windows平台会自动在输入字符之后加入回车符和换行符,此时输入流中就有三个字符,然而read每次只读取一 ...

  7. APM 终端用户体验监控分析(上)

    一.前言 理解用户体验是从终端用户角度了解应用交付质量的关键,这是考量业务健康运转的潜在因素.捕获此类数据的方法各种各样,具体的实现途径由应用.基础设施架构以及管理者和管理过程决定. 二.终端用户监控 ...

  8. LA 4287

    Consider the following exercise, found in a generic linear algebra textbook. Let A be an n × n matri ...

  9. typedef (还需经常看看加深理解)

    看了 c++primer 1,typedef名字 typedef定义以关键字typedef开始,后面是 数据类型+标示符. 并未引入新的类型,只是现有数据类型的同义词 例: typedef doubl ...

  10. Yarn上的几个问题整理

    原文链接   http://xiguada.org/yarn_some_question/ ‎   1. NodeManager是如何Kill掉Container的呢? 答,在DefaultConta ...