Ubuntu Spark 环境搭建(转)
在安装Spark之前,我们需要在自己的系统当中先安装上jdk和scala
可以去相应的官网上下载:
JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala:http://www.scala-lang.org/download/
下载完成后可以得到这样两个压缩包
安装JDK
首先我们先来安装jdk,
sudo mkdir /usr/lib/jdk
- 1
用这条语句来创建jdk的安装目录,这里我们计划装到/usr/lib/jdk目录下,
然后切换到jdk压缩包所在的目录,比如这里我们把包放在了~/Desktop目录下
cd ~/Desktop
- 1
执行解压缩命令,把压缩包解压缩到/usr/lib/jdk目录下
sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk
- 1
注意这里需要root权限。不然没有办法往/usr/lib/jdk目录中写数据
然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行
sudo vim /etc/profile
- 1
打开配置文件,有些教程会让你编辑自己目录下的~/.bashrc文件,.bashrc文件的改动只会对当前用户产生作用,而/etc/profile的改动在重启之后会对所有用户都起作用
在配置文件的最后加上
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
- 1
- 2
- 3
- 4
JAVA_HOME的路径根据自己解压缩的目录来配置。
然后推出vim,如果你不会用vim,可以在所有命令中出现vim的地方用gedit来代替,下面也是一样。
source /etc/profile
- 1
当前终端重新载入/etc/profile配置文件,然后执行一下
java
- 1
如果出现一大串东西,那么恭喜你你的jdk安装成功了,否则很有可能你的环境配置出了问题,请仔细检查。
安装scala
接着我们需要安装scala具体的安装过程和jdk很像,
首先也是创建安装目录
sudo mkdir /usr/lib/scala
- 1
然后是将压缩包解压缩
sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala
- 1
最后打开/etc/profile,在最后添加配置
export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH
- 1
- 2
退出后,进行source /etc/profile
然后执行scala,出现如下界面说明安装成功
可以在这里输入 :quit
退出scala
安装spark
安装完了上面这些之后我们需要安装今天的主角Spark了,首先去官网下载我们需要的包
http://spark.apache.org/downloads.html
这个是它的下载地址,需要注意的是,我们在Choose a package type:这里选择的是Pre-Build for Hadoop2.6
然后点击下面的Download Spark链接开始下载。
完成后会出现这个文件
同样我们需要给spark一个安装目录
sudo mkdir /usr/lib/spark
- 1
解压缩文件
sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark
- 1
在/etc/profile中配置
export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
- 1
- 2
source /etc/profile
之后,执行 pyspark
出现这个就说明安装已经完成,你可以在这里输入相应的python代码来执行操作。
python中使用pyspark
当然了,我们在之后的开发过程中,不可能说只在这么一个解释器中开发,所以接下来我们要做的是让python能够加载spark的库。
所以我们需要把pyspark添加到python的寻找目录当中,同样我们需要编辑/etc/profile文件,在最后添上
export PYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python
- 1
这样就把spark目录下的python库添加到了python的找寻目录中
但是由于python需要去调用java的库所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路径下我们需要添加一个py4j的文件夹,这个文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目录下找到,在这个目录下有一个py4j-0.9-src.zip的压缩包,把他解压缩放到
/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目录下就可以了
当然这个操作需要在root权限下进行
这个时候在任意目录下输入python
然后在这里输入
import pyspark
- 1
查看是否可以正确导入pyspark,如果没有出现任何提示,就说明pyspark能够正常导入。
这样就可以在任何地方编写.py文件,需要用到pyspark的地方用import导入即可。
pycharm导入pyspark
当然有些用户喜欢用pycharm来编写python,所以对于pycharm使用pyspark也做一下说明
首先我们需要点击右上角的下拉框,选择 Edit Configurations…
然后在弹出的对话框中,点击Enviroment variables:右侧的编辑按钮
点击加号添加两条新的数据,
PYTHONPATH和
SPARK_HOME
数据内容和/etc/profile中对应的内容相同
然后用下述代码测试
import pyspark
conf = pyspark.SparkConf().setAppName("sparkDemo").setMaster("local")
sc = pyspark.SparkContext(conf=conf)
- 1
- 2
- 3
- 4
出现
说明pycharm也能够正常载入pyspark了。
转自:http://blog.csdn.net/u010171031/article/details/51849562
Ubuntu Spark 环境搭建(转)的更多相关文章
- 分布式计算框架-Spark(spark环境搭建、生态环境、运行架构)
Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集).DAG:Direct Acyclic Graph(有向无环图).SparkContext ...
- Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
- win10子系统linux.ubuntu开发环境搭建
移步新博客... win10子系统linux.ubuntu开发环境搭建
- Ubuntu Touch环境搭建
最近搞了一下Nexus 5的MultiRom Manger,体验了一把Ubuntu Touch和Android L,总体感觉还不错,不过Android L的NFC驱动还有问题,Ubuntu Touch ...
- Ubuntu 开发环境搭建教程
Ubuntu 开发环境搭建教程 本文原始地址:https://sitoi.cn/posts/18425.html 更新 sudo apt upgrade sudo apt update 生成本机密钥 ...
- Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建 下载包 所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
- 学习Spark——环境搭建(Mac版)
大数据情结 还记得上次跳槽期间,与很多猎头都有聊过,其中有一个猎头告诉我,整个IT跳槽都比较频繁,但是相对来说,做大数据的比较"懒"一些,不太愿意动.后来在一篇文中中也证实了这一观 ...
- Spark环境搭建(上)——基础环境搭建
Spark摘说 Spark的环境搭建涉及三个部分,一是linux系统基础环境搭建,二是Hadoop集群安装,三是Spark集群安装.在这里,主要介绍Spark在Centos系统上的准备工作--linu ...
- Ubuntu开发环境搭建
linux开发不得不用虚拟机,为了节省系统资源.决定采用Ubuntu Server逐步搭建出具有图形界面的开发环境. ubuntu server 安装英文版 安装选择选generic,不要LVM选项. ...
随机推荐
- 入坑机器学习?听听MIT在读博士的AI心得
随着人工智能技术的火热,越来越多的年轻学者正准备投身其中,开启自己的研究之路.和所有其他学科一样,人工智能领域的新人总会遇到各种各样的难题,其中不仅有研究上的,也有生活方面的.MIT EECS 在读博 ...
- sersync+rsync实现服务器文件实时同步
sersync+rsync实现服务器文件实时同步 一.为什么要用rsync+sersync架构? 1.sersync是基于inotify开发的,类似于inotify-tools的工具 2.sersyn ...
- 三、html样式、链接、表格
- CSS3帧动画
在前面的文章中也有介绍过css3动画的内容,可见<关于transition和animation>和<webkitAnimationEnd动画事件>,今天又要唠叨一下这个东西了, ...
- (转)日期类型的input元素设置默认值为当天
原文地址 html5的form元素对日期时间有丰富的支持 <input type="date"> <input type="time"> ...
- js --- 关于DOM的事件操作
一.JavaScript的组成 JavaScript基础分为三个部分: ECMAScript:JavaScript的语法标准.包括变量.表达式.运算符.函数.if语句.for语句等. DOM:文档对象 ...
- jquery mobile开发中页面跳转后js不执行的问题
为了实现在移动设备上的无缝客户体验,jQueryMobile默认采用AJAX的方式载入一个目的链接页面.因此,当在浏览器中点击一个链接打一个新的页面时,jQueryMobile接收这个链接,通过AJA ...
- C++ Sleep() sleep()
简介: 函数名: sleep 功 能: 执行挂起一段时间 用 法: unsigned sleep(unsigned seconds); 在VC中使用带上头文件 #include <windows ...
- 关于ioncube扩展的安装和使用
ioncube 是一个专业级的PHP加密解密工具 这里是按照此扩展的教程,安装以后就可以运行用ioncube加密的文件 引导安装说明:一.下载loader-wizard.php ioncube提供了一 ...
- Linux实用命令整理
说明 点击标题可进入详细讲解的章节 0. 基本命令 linux 基本命令整理 1. 压缩 解压 tar -zcvf a.tar.gz a #把a压缩成a.tar.gz tar -zxvf a.tar. ...