前言

  Apache Zeppelin是一款基于web的notebook(类似于ipython的notebook),支持交互式地数据分析,即一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。原生就支持Spark、Scala、SQL 、shell 、markdown等。而且它是完全开源的,目前还处于Apache孵化阶段。其已经在各大公司均有采用,比如美团、微软等等。

  Zeppelin的后台数据引擎可以是Spark,也可以通过实现更多的解释器来为Zeppelin添加数据引擎。在本地搭建一个Zeppelin 使得Spark更易用,同时可以很方便的将自己的工作成功展示给客户。

准备

sudo apt-get update    //更新Apt

安装JDK

sudo apt-get install openjdk-8-jre openjdk-8-jdk

安装Hadoop

安装Spark

安装Git

sudo apt-get install git

安装Maven

sudo apt-get install maven

安装Npm

sudo apt-get install npm  //Npm home: /usr/share/npm

安装Phantomjs

下载"phantomjs-1.9.8-linux-x86_64.tar.bz2"
解压至:/usr/local/phantomjs

安装Apache Zeppelin

  • 源码下载

  • 解压安装

  Apache Zeppelin官方提供了Source包和二进制包,我们可以根据需要下载相关的包进行安装。

  1. 通过下载zeppelin的binary包:http://ftp.meisei-u.ac.jp/mirror/apache/dist/incubator/zeppelin/0.5.6-incubating/zeppelin-0.5.6-incubating-bin-all.tgz,然后解压缩安装。

    tar -xzvf zeppelin--incubating-bin-all.tgz
  2. 通过编译源码的方式来安装Apache Zeppelin,我这里从Zeppelin的git库里面下载最新的源码进行编译。

    $ git clone https://github.com/apache/incubator-zeppelin.git //下载最新的->解压至:/usr/local/zeppelin

编译Apache Zeppelin

  • 本地模式:mvn clean package -DskipTests
  • 集群模式:mvn package -Pspark-2.0 -Dhadoop.version=2.7.1 -Phadoop-2.7 -DskipTests -X
在安装过程中可能会出现各种问题,但是一般都是网络问题导致,重新执行下编译命令即可。但如果编译出现oom,需增加如下命令:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"  
  1. 配置环境变量

    ysp@YSP:~$ vim .bashrc

    -openjdk-amd64 export SPARK_HOME=/usr/local/spark export HADOOP_HOME=/usr/local/hadoop export PHANTOMJS_HOME=/usr/local/phantomjs export ZEPPELIN_HOME=/usr/local/zeppelin export PATH=.:$PATH:/usr/local/hadoop/bin:/usr/local/phantomjs/bin:/usr/local/spark/bin:/usr/local/zeppelin/bin:/usr/lib/jvm/java--openjdk-amd64/bin;

    ysp@YSP:~$ source .bashrc
  2. 集群模式编译
    ysp@YSP:~$ cd /usr/local/zeppelin
    ysp@YSP:/usr/local/zeppelin$ mvn package -Pspark- -Phadoop-2.7 -DskipTests -X

如果你需要使用到YARN,你必须在编译Zeppelin的时候指定-Pyarn选项。

配置

  配置文件为环境变量文件(conf/zeppelin-env.sh)和Java属性文件(conf/zeppelin-site.xml)。根据自己的要求进行配置。

  1. 拷贝/usr/local/zeppelin/conf/zeppelin-env.sh.template和/usr/local/zeppelin/conf/zeppelin-site.xml.template至/usr/local/zeppelin/conf/zeppelin-env.sh与/usr/local/zeppelin/conf/zeppelin-site.xml。
  2. 编辑conf/zeppelin-env.sh
    export JAVA_HOME=/usr/lib/jvm/java--openjdk-amd64
    export SPARK_HOME=/usr/local/spark
    export HADOOP_CONF_DIR=/usr/local/hadoop
    export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.2.0"

启动

  在zeppelin_home目录下执行如下命令:

ysp@YSP:/usr/local/zeppelin$ ./bin/zeppelin-daemon.sh start

  其启动/停止命令: bin/zeppelin-daemon.sh start/stop。

  启动之后,打开localhost:8080访问zepplin主页。

测试

  • 配置Spark解释器

  • 创建Note

1.text

  默认使用scala语言输出text内容:

println("Hello Yuan Siping!")

2.html

    shell输出html:

%sh echo "%html <h2>Hello Zeppelin</h2>"

  3.table

    scala:

print(s"""%table name\tsize\nsun\t100\nmoon\t10""")

  4.Tutorial with Local File

Data Refine:

下载bank数据:http://archive.ics.uci.edu/ml/machine-learning-databases/00222/bank.zip ,将csv格式数据转成Bank对象RDD,并过滤表头列:

val bankText = sc.textFile("/usr/data/bank/bank-full.csv")

case class Bank(age:Integer, job:String, marital : String, education : String, balance : Integer)

val bank = bankText.map(s=>s.split()!="\"age\"").map(
    s=>Bank(s().toInt,
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", ""),
            s().replaceAll("\"", "").toInt
        )
)

bank.toDF().registerTempTable("bank")

Data Retrieval:

执行以下语句,可看到年龄的分布:

%sql )  group by age order by age

  动态输入maxAge参数(默认是30岁),查看小于maxAge岁的年龄分布:

%sql ) } group by age order by age

  根据婚姻状况选项,查看年龄分布状况:

%sql ) from bank where marital="${marital=single,single|divorced|married}" group by age order by age

Ubuntu下基于Saprk安装Zeppelin的更多相关文章

  1. ubuntu下的openfire安装、配置、运行

    openfire服务器              Openfire 采用Java开发,开源的实时协作(RTC)服务器基于XMPP(Jabber)协议.您可以使用它轻易的构建高效率的即时通信服务器.Op ...

  2. 2010-01-20 12:09 ubuntu下minicom的安装及使用

    转http://hi.baidu.com/npugtawqdnbgqrq/item/106f805409b42813db163527 ubuntu下minicom的安装及使用 安装: sudo apt ...

  3. Ubuntu下git的安装与使用

    Ubuntu下git的安装与使用 Ubuntu下git的安装与使用与Windows下的大致相同,只不过个人感觉在Ubuntu下使用git更方便. 首先,确认你的系统是否已安装git,可以通过git指令 ...

  4. Ubuntu下Speedtest的安装

    要安装Speedtest,需要先安装apache,参见<Ubuntu下Apache的安装>一文:*(再安装LAMP server,参见<Ubuntu下快速安装LAMP server& ...

  5. Ubuntu下Apache的安装

    Ubuntu下可快速安装LAMP server(Apache+MySQL+PHP5),参见<Ubuntu下快速安装LAMP server>一文. 也可以手动安装Apache.本文介绍如何手 ...

  6. Linux(Ubuntu)下MySQL的安装与配置

    转自:http://www.2cto.com/database/201401/273423.html 在Linux下MySQL的安装,我一直觉得挺麻烦的,因为之前安装时就是由于复杂的配置导致有点晕.今 ...

  7. ubuntu下boost编译安装

    ubuntu下boost编译安装 boost 安装 1.依赖安装 apt-get install mpi-default-dev libicu-dev python-dev python3-dev l ...

  8. ubuntu 下redis的安装简介

    Linux公社:https://www.linuxidc.com/topicnews.aspx?page=2&tid=2 简单介绍下ubuntu下redis的安装方式: 第一种: 1:进入re ...

  9. ubuntu下tomcat的安装及注册成系统服务

    在ubuntu下tomcat的安装有两种方式,第一种是下载二进制文件,解压安装:第二种则是使用apt-get自动下载.这里不推荐第二种方法安装,因为这种方法安装会像天女散花一样把安装的文件散落在系统的 ...

随机推荐

  1. Performance Monitor3:监控SQL Server的内存压力

    SQL Server 使用的资源受到操作系统的调度,同时,SQL Server在内部实现了一套调度算法,用于管理从操作系统获取的资源,主要是对内存和CPU资源的调度.一个好的数据库系统,必定在内存中缓 ...

  2. Unicode转义(\uXXXX)的编码和解码

    在涉及Web前端开发时, 有时会遇到\uXXXX格式表示的字符, 其中XXXX是16进制数字的字符串表示形式, 在js中这个叫Unicode转义字符, 和\n \r同属于转义字符. 在其他语言中也有类 ...

  3. 『.NET Core CLI工具文档』(八)dotnet-restore

    说明:本文是个人翻译文章,由于个人水平有限,有不对的地方请大家帮忙更正. 原文:dotnet-restore 翻译:dotnet-restore 名称 dotnet-restore - 还原一个项目的 ...

  4. Windows下删除.svn文件夹的最简易方法

    建立一个文本文件,取名为kill-svn-folders.reg(扩展名由txt改为reg),内容如下: Windows Registry Editor Version 5.00 [HKEY_LOCA ...

  5. @Autowired注解的使用

    使用Spring时,通过Spring注入的Bean一般都被定义成private,并且要有getter和setter方法,显得比较繁琐,增加了代码量,而且有时会搞忘造成错误. 可以使用@Autowire ...

  6. python学习笔记(基础一:'hello world'、变量、字符编码)

    第一个python程序: Hello World程序 windows命令行中输入:python,进入python交互器,也可以称为解释器. print("Hello World!" ...

  7. spring aop对service层日志和异常的处理

    1.aop是什么 AOP是Aspect Oriented Programming的缩写,意思是面向切面编程,与OOP(Object Oriented Programming)面向对象编程对等,都是一种 ...

  8. 使用Eclipse创建Maven Web工程

    方法/步骤 1 使用Eclipse创建Maven Web工程 2 找到Maven Project,点击Next 3 勾选上Create a simple project (不使用骨架),Next 4 ...

  9. 记录一次bug解决过程:可维护性和性能优化

    一.总结 使用某些变量的地方在2次以上的,强烈建议使用枚举值来维护变量,日后方便扩展. 查数据库的方法调用,能合并就净量去合并. 二.Bug描述 枚举变量的维护以及方法使用: public class ...

  10. 拖拽手势和清扫手势冲突时(UIPanGestureRecognizer和UISwipeGestureRecognizer冲突时)

    故事发生在这样的情境上:给整个控制器添加了一个拖拽手势,然后又在控制上的每个Cell上加了左滑清扫手势,然后问题来了:只有拖拽手势起作用,而左滑手势没有效果了,然后怎么解决这个问题呢!先上图: 当给整 ...