1.概述

　　在编写 Flink，Spark，Hive 等相关作业时，要是能快速的将我们所编写的作业能可视化在我们面前，是件让人兴奋的时，如果能带上趋势功能就更好了。今天，给大家介绍这么一款工具。它就能满足上述要求，在使用了一段时间之后，这里给大家分享以下使用心得。

2.How to do

　　首先，我们来了解一下这款工具的背景及用途。Zeppelin 目前已托管于 Apache 基金会，但并未列为顶级项目，可以在其公布的官网访问。它提供了一个非常友好的 WebUI 界面，操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink，Spark，Hive 等。支持原生的 Scala，Shell，Markdown 等。

2.1 Install

　　对于 Zeppelin 而言，并不依赖 Hadoop 集群环境，我们可以部署到单独的节点上进行使用。首先我们使用以下地址获取安装包：

http://zeppelin.incubator.apache.org/download.html

　　这里，有2种选择，其一，可以下载原文件，自行编译安装。其二，直接下载二进制文件进行安装。这里，为了方便，笔者直接使用二进制文件进行安装使用。这里有些参数需要进行配置，为了保证系统正常启动，确保的 zeppelin.server.port 属性的端口不被占用，默认是8080，其他属性大家可按需配置即可。［配置链接］

2.2 Start/Stop

　　在完成上述步骤后，启动对应的进程。定位到 Zeppelin 安装目录的bin文件夹下，使用以下命令启动进程：

./zeppelin-daemon.sh start

　　若需要停止，可以使用以下命令停止进程：

./zeppelin-daemon.sh stop

　　另外，通过阅读 zeppelin-daemon.sh 脚本的内容，可以发现，我们还可以使用相关重启，查看状态等命令。内容如下：

case "${1}" in

  start)

    start

    ;;

  stop)

    stop

    ;;

  reload)

    stop

    start

    ;;

  restart)

    stop

    start

    ;;

  status)

    find_zeppelin_process

    ;;

  *)

    echo ${USAGE}

3.How to use

　　在启动相关进程后，可以使用以下地址在浏览器中访问：

http://<Your_<IP/Host>:Port>

　　启动之后的界面如下所示：

　　该界面罗列出插件绑定项。如图中的 spark，md，sh 等。那我如何使用这些来完成一些工作。在使用一些数据引擎时，如 Flink，Spark，Hive 等，是需要配置对应的连接信息的。在 Interpreter 栏处进行配置。这里给大家列举一些配置示例：

3.1 Flink

　　可以找到 Flink 的配置项，如下图所示：

　　然后指定对应的 IP 和地址即可。

3.2 Hive

　　这里 Hive 配置需要指向其 Thrift 服务地址，如下图所示：

　　另外，其他的插件，如 Spark，Kylin，phoenix等配置类似，配置完成后，记得点击 “restart” 按钮。

3.3 Use md and sh

　　下面，我们可以创建一个 Notebook 来使用，我们拿最简单的 Shell 和 Markdown 来演示，如下图所示：

3.4 SQL

　　当然，我们的目的并不是仅仅使用 Shell 和 Markdown，我们需要能够使用 SQL 来获取我们想要的结果。

3.4.1 Spark SQL

　　下面，我们使用 Spark SQL 去获取想要的结果。如下图所示：

　　这里，可以将结果以不同的形式来可视化，量化，趋势，一目了然。

3.4.2 Hive SQL

　　另外，可以使用动态格式来查询分区数据，以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式进行表示。如下图所示：

3.5 Video Guide

　　另外，官方也给出了一个快速指导的入门视频，观看地址：[入口]

4.总结

　　在使用的过程当中，有些地方需要注意，必须在编写 Hive SQL 时，%hql 需要替换为 %hive.sql 的格式；另外，在运行 Scala 代码时，如果出现以下异常，如下图所示：

　　解决方案，在 zeppelin-env.sh 文件中添加以下内容：

export ZEPPELIN_MEM=-Xmx4g

　　该 BUG 在 0.5.6 版本得到修复，参考码：［ZEPPELIN-305］

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Hadoop - Zeppelin 使用心得的更多相关文章

Zeppelin源码
1.概述在大数据应用场景中,处理数据分析方面,由于开发者的水平不一样,使用的编程语言也不尽相同,可能会涉及到R.Python.Java.Scala等,数据计算模型也估计不一样,可能涉及的有Spark ...
centos6.5中部署Zeppelin并配置账号密码验证
centos6.5中部署Zeppelin并配置账号密码验证1.安装JavaZeppelin支持的操作系统如下图所示.在安装Zeppelin之前,你需要在部署的服务器上安装Oracle JDK 1.7或 ...
Hadoop项目开发笔录
1.概要我打算分享一下,我开发Hadoop的一些心得,对于即将步入Hadoop行业的童鞋,希望我整理的这些博文对您有帮助,我打算分为以下几部分来描述. 2.步骤注:点击链接可直接跳到指定位置 Ha ...
Zeppelin0.7.2结合hive解释器进行报表展示
前提:服务器已经安装好了hadoop_client端即hadoop的环境hbase,hive等相关组件 1.环境和变量配置①拷贝hive的配置文件hive-site.xml到zeppelin-0.7. ...
Hadoop2.2.0多节点分布式安装及测试
众所周知,hadoop在10月底release了最新版2.2.很多国内的技术同仁都马上在网络上推出了自己对新版hadoop的配置心得.这其中主要分为两类: 1.单节点配置这个太简单了,简单到只要懂点 ...
【hbase0.96】基于hadoop搭建hbase的心得
hbase是基于hadoop的hdfs框架做的分布式表格存储系统,所谓表格系统就是在k/v系统的基础上,对value部分支持column family和column,并支持多版本读写. hbase的工 ...
Docker一键部署Hadoop心得（二）
今天在运行MapReduce程序时,虽然wordcount实例运行成功了,但后面出现了重新使用历史服务器失败的错误 17/12/22 13:33:19 INFO ipc.Client: Retryin ...
Docker一键部署Hadoop心得（一）
最近一直在折腾使用docker一键部署全分布式hadoop集群,虽然一键部署的脚本写好了并且可以成功运行出各个节点,但在运行一个wordcount实例时出现了错误,错误如下: java.io.IOEx ...
Hadoop可视化与交互式工具：Zeppelin和Hue
https://yq.aliyun.com/articles/42282?spm=5176.team18.teamshow1.19.9TkKmZ#rd

随机推荐

Sql语句，先查询再插入一条语句完成。
if ( (select COUNT(*) from Hr where 考勤号码 = '149' and 日期时间 = '2015/7/3 12:00:26') = 0 )INSERT INTO [ ...
使用jsPlumb制作流程图设计器
jsPlumb是一个比较强大的绘图组件,它提供了一种方法,主要用于连接网页上的元素.在现代浏览器中,它使用SVG或者Canvas技术,而对于IE8以下(含IE8)的古董浏览器,则使用VML技术. 项目 ...
设计模式之美：Builder（生成器）
索引意图结构参与者适用性效果相关模式实现实现方式(一):Builder 为每个构件定义一个操作. 实现方式(二):Builder 将构件返回给 Director,Director 将构 ...
ASP.NET CheckBoxList Operations with jQuery
本文描述了如何通过jQuery来对ASP.NET CheckBoxList控件进行一些基本操作,如通过value/text/index check/uncheck CheckBoxList,最小/最大 ...
C#与数据库访问技术总结（十六）之 DataSet对象
DataSet对象 DataSet对象可以用来存储从数据库查询到的数据结果,由于它在获得数据或更新数据后立即与数据库断开,所以程序员能用此高效地访问和操作数据库. 并且,由于DataSet对象具有离线 ...
swoole
http://www.swoole.com/wiki/index/prid-1-p-project/road_map.html
Atitit.计算机图形图像图片处理原理与概论attilax总结
Atitit.计算机图形图像图片处理原理与概论attilax总结计算机图形1 图像处理.分析与机器视觉(第3版)1 数字图像处理(第六版)2 图像处理基础(第2版)2 发展沿革 1963年,伊凡·苏 ...
浅析JVM中的GC日志
目录一.GC日志的格式分析二.运行时开启GC日志一.GC日志的格式分析在讲述GC日志之前,我们先来运行下面这段代码 package com.example; public class Test ...
IoC实践--用Autofac实现MVC5.0的IoC控制反转方法
Autofac是一个.net平台下发性能还不错的IoC框架,利用它可以实现依赖注入和控制反转,使自己的软件模块之间的耦合性大大降低,让软件扩展.维护更加容易.控制反转(Inversion of Con ...
python两个文件的对比
#encoding=utf-8 class SyncPagemaptoDB(object): def loadOldmap(self,oldpage,newpage,new_version): map ...

Hadoop - Zeppelin 使用心得