前言

　　Apache Zeppelin是一款基于web的notebook(类似于ipython的notebook)，支持交互式地数据分析，即一个Web笔记形式的交互式数据查询分析工具，可以在线用scala和SQL对数据进行查询分析并生成报表。原生就支持Spark、Scala、SQL 、shell 、markdown等。而且它是完全开源的，目前还处于Apache孵化阶段。其已经在各大公司均有采用，比如美团、微软等等。

　　Zeppelin的后台数据引擎可以是Spark，也可以通过实现更多的解释器来为Zeppelin添加数据引擎。在本地搭建一个Zeppelin 使得Spark更易用，同时可以很方便的将自己的工作成功展示给客户。

准备

sudo apt-get update    //更新Apt

安装JDK

sudo apt-get install openjdk-8-jre openjdk-8-jdk

安装Hadoop

安装Spark

安装Git

sudo apt-get install git

安装Maven

sudo apt-get install maven

安装Npm

sudo apt-get install npm　　//Npm home: /usr/share/npm

安装Phantomjs

下载"phantomjs-1.9.8-linux-x86_64.tar.bz2"
解压至:/usr/local/phantomjs

安装Apache Zeppelin

源码下载

https://github.com/apache/incubator-zeppelin

http://zeppelin.apache.org/download.html

解压安装

　　Apache Zeppelin官方提供了Source包和二进制包，我们可以根据需要下载相关的包进行安装。

通过下载zeppelin的binary包：http://ftp.meisei-u.ac.jp/mirror/apache/dist/incubator/zeppelin/0.5.6-incubating/zeppelin-0.5.6-incubating-bin-all.tgz，然后解压缩安装。
```
tar -xzvf zeppelin--incubating-bin-all.tgz
```
通过编译源码的方式来安装Apache Zeppelin，我这里从Zeppelin的git库里面下载最新的源码进行编译。
```
$ git clone https://github.com/apache/incubator-zeppelin.git //下载最新的->解压至：/usr/local/zeppelin
```

编译Apache Zeppelin

本地模式：mvn clean package -DskipTests
集群模式：mvn package -Pspark-2.0 -Dhadoop.version=2.7.1 -Phadoop-2.7 -DskipTests -X

在安装过程中可能会出现各种问题，但是一般都是网络问题导致，重新执行下编译命令即可。但如果编译出现oom，需增加如下命令:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

配置环境变量

ysp@YSP:~$ vim .bashrc

-openjdk-amd64
export SPARK_HOME=/usr/local/spark
export HADOOP_HOME=/usr/local/hadoop
export PHANTOMJS_HOME=/usr/local/phantomjs
export ZEPPELIN_HOME=/usr/local/zeppelin
export PATH=.:$PATH:/usr/local/hadoop/bin:/usr/local/phantomjs/bin:/usr/local/spark/bin:/usr/local/zeppelin/bin:/usr/lib/jvm/java--openjdk-amd64/bin;

ysp@YSP:~$ source .bashrc

集群模式编译

ysp@YSP:~$ cd /usr/local/zeppelin
ysp@YSP:/usr/local/zeppelin$ mvn package -Pspark- -Phadoop-2.7 -DskipTests -X

如果你需要使用到YARN，你必须在编译Zeppelin的时候指定-Pyarn选项。

配置

　　配置文件为环境变量文件(conf/zeppelin-env.sh)和Java属性文件(conf/zeppelin-site.xml)。根据自己的要求进行配置。

拷贝/usr/local/zeppelin/conf/zeppelin-env.sh.template和/usr/local/zeppelin/conf/zeppelin-site.xml.template至/usr/local/zeppelin/conf/zeppelin-env.sh与/usr/local/zeppelin/conf/zeppelin-site.xml。

编辑conf/zeppelin-env.sh

export JAVA_HOME=/usr/lib/jvm/java--openjdk-amd64
export SPARK_HOME=/usr/local/spark
export HADOOP_CONF_DIR=/usr/local/hadoop
export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.2.0"

启动

　　在zeppelin_home目录下执行如下命令：

ysp@YSP:/usr/local/zeppelin$ ./bin/zeppelin-daemon.sh start

　　其启动/停止命令： bin/zeppelin-daemon.sh start/stop。

　　启动之后，打开localhost:8080访问zepplin主页。

测试

配置Spark解释器

创建Note

Zeppelin入门使用

1.text

　　默认使用scala语言输出text内容：

println("Hello Yuan Siping!")

2.html

　　　　shell输出html:

%sh echo "%html <h2>Hello Zeppelin</h2>"

　　3.table

　　　　scala:

print(s"""%table name\tsize\nsun\t100\nmoon\t10""")

　　4.Tutorial with Local File

Data Refine:

下载bank数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank.zip ，将csv格式数据转成Bank对象RDD，并过滤表头列:

val bankText = sc.textFile("/usr/data/bank/bank-full.csv")

case class Bank(age:Integer, job:String, marital : String, education : String, balance : Integer)

val bank = bankText.map(s=>s.split()!="\"age\"").map(
    s=>Bank(s().toInt,
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", "").toInt
        )
)

bank.toDF().registerTempTable("bank")

Data Retrieval:

执行以下语句，可看到年龄的分布：

%sql )  group by age order by age

　　动态输入maxAge参数（默认是30岁），查看小于maxAge岁的年龄分布：

%sql ) } group by age order by age

　　根据婚姻状况选项，查看年龄分布状况：

%sql ) from bank where marital="${marital=single,single|divorced|married}" group by age order by age

Ubuntu下基于Saprk安装Zeppelin的更多相关文章

ubuntu下的openfire安装、配置、运行
openfire服务器 Openfire 采用Java开发,开源的实时协作(RTC)服务器基于XMPP(Jabber)协议.您可以使用它轻易的构建高效率的即时通信服务器.Op ...
2010-01-20 12:09 ubuntu下minicom的安装及使用
转http://hi.baidu.com/npugtawqdnbgqrq/item/106f805409b42813db163527 ubuntu下minicom的安装及使用安装: sudo apt ...
Ubuntu下git的安装与使用
Ubuntu下git的安装与使用 Ubuntu下git的安装与使用与Windows下的大致相同,只不过个人感觉在Ubuntu下使用git更方便. 首先,确认你的系统是否已安装git,可以通过git指令 ...
Ubuntu下Speedtest的安装
要安装Speedtest,需要先安装apache,参见<Ubuntu下Apache的安装>一文:*(再安装LAMP server,参见<Ubuntu下快速安装LAMP server& ...
Ubuntu下Apache的安装
Ubuntu下可快速安装LAMP server(Apache+MySQL+PHP5),参见<Ubuntu下快速安装LAMP server>一文. 也可以手动安装Apache.本文介绍如何手 ...
Linux(Ubuntu)下MySQL的安装与配置
转自:http://www.2cto.com/database/201401/273423.html 在Linux下MySQL的安装,我一直觉得挺麻烦的,因为之前安装时就是由于复杂的配置导致有点晕.今 ...
ubuntu下boost编译安装
ubuntu下boost编译安装 boost 安装 1.依赖安装 apt-get install mpi-default-dev libicu-dev python-dev python3-dev l ...
ubuntu 下redis的安装简介
Linux公社:https://www.linuxidc.com/topicnews.aspx?page=2&tid=2 简单介绍下ubuntu下redis的安装方式: 第一种: 1:进入re ...
ubuntu下tomcat的安装及注册成系统服务
在ubuntu下tomcat的安装有两种方式,第一种是下载二进制文件,解压安装:第二种则是使用apt-get自动下载.这里不推荐第二种方法安装,因为这种方法安装会像天女散花一样把安装的文件散落在系统的 ...

随机推荐

C#开发微信门户及应用(35)--微信支付之企业付款封装操作
在前面几篇随笔,都是介绍微信支付及红包相关的内容,其实支付部分的内容还有很多,例如企业付款.公众号支付或刷卡支付.摇一摇红包.代金券等方面的内容,这些都是微信接口支持的内容,本篇继续微信支付这一主题, ...
PHP中模拟JSONArray
前面整理过一篇文章,描述php中的array与json的array和object的转换关系.http://www.cnblogs.com/x3d/p/php-json-array-object-typ ...
【转】zigbee终端无法重连的问题解决
zigbee终端无法重连的问题解决 1.zigbee重连的原因 (1)zigbee由于各种原因的干扰导致信号太差而掉线. (2)协调器重启. 2.zigbee终端重连的处理 (1)zigbee掉线后会 ...
java Io流向指定文件输入内容
package com.hp.io; import java.io.*; public class BufferedWriterTest{ public static void main(String ...
5分钟让你掌握css3阴影、倒影、渐变小技巧！
一.开始让大家看一张他们组合的图片再一步一步做: 二.先是建立两个文本不做处理运行如图三.给第一个div字体加上阴影 text-shadow: 5px 5px 10px red; text-shad ...
JavaScript 函数表达式
JavaScript中创建函数主要有两种方法:函数声明和函数表达式.这两种方式都有不同的适用场景.这篇笔记主要关注的是函数表达式的几大特点以及它的使用场景,下面一一描述. 主要特点可选的函数名称函 ...
html5 canvas首屏自适应背景动画循环效果代码
模板描述:html5 canvas首屏自适应背景动画循环效果代码由于动态图太大,怕以后服务器受不了,所以现在都改为静态图了,大家点击演示地址一样的,希望大家喜欢,你们的支持就是小海的动力!! 欢迎大 ...
SalesForce 记录级别安全性
对象级安全性简档对象级安全性提供了控制 Salesforce.com 中数据的最简单方式.使用对象级安全性您可以防止用户查看.创建.编辑或删除特殊类型对象的任何实例如潜在客户或业务机会.对象 ...
Android中的 init.rc文件简介
init.rc脚本是由Android中linux的第一个用户级进程init进行解析的. init.rc 文件并不是普通的配置文件,而是由一种被称为"Android初始化语言"(An ...
DLL组件注册器
在实际程序运行中,尤其是绿色软件,都需要对DLL进行注册才能够使用.下面就是笔者开发的一款简单的DLL注册器. http://pan.baidu.com/s/1mhbrN1e

Ubuntu下基于Saprk安装Zeppelin

前言

准备

安装JDK

安装Hadoop

安装Spark

安装Git

安装Maven

安装Npm

安装Phantomjs

安装Apache Zeppelin

源码下载

解压安装

编译Apache Zeppelin

配置

启动

测试

配置Spark解释器

创建Note

Zeppelin入门使用

Ubuntu下基于Saprk安装Zeppelin的更多相关文章

随机推荐

热门专题