Spark安装与介绍
1. Scala的安装
注意点:版本匹配的问题,
Spark 1.6.2 -- Scala2.10
Spark 2.0.0 -- Scala2.11
https://www.scala-lang.org/files/archive $ wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz
$ tar -zxvf ./scala-2.11.6.tgz
$ mv ./scala-2.11.6.tgz /usr/local/scala 增加全局变量
$ vim ./.bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
$ source ~/.bashrc
2. Spark的安装
http://spark.apache.org/downloads.html $ wget https://archive.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.6.tgz
$ tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz
$ mv ./spark-2.0.2-bin-hadoop2.6 /usr/local/spark 增加全局变量
$ vim ./.bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
$ source ~/.bashrc
输入pyspark 显示:

至此安装成功。
3.本地运行pyspark
# 本地运行命令
pyspark --master local[4] # 本地启动,使用4个线程 # 查看当前运行模式
sc.master # 读取本地文件
textFile = sc.textFile("file:/usr/local/spark/README.md")
textFile.count() # 读取HDFS文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()
4.在Hadoop YARN上运行pyspark
$ vim ./.bashrc export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop # 启动
$ pyspark --master yarn --deploy-mode client # 读取hdfs文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()
5.构建Spark Standalone Cluster运行环境
$ cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
$ vim /usr/local/spark/conf/spark-env.sh export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=1 # 每个worker所使用的cpu核心数
export SPARK_WORKER_MEMORY=512m # 每个worker所使用的内存
export SPARK_WORKER_INSTANCES=4 # 实例数 # 将spark复制到data1,data2,data3
$ ssh data1
$ mkdir /usr/local/spark
$ logout $ scp -r /usr/local/spark root@data1:/usr/local
# scp -r [本地文件] [远程用户名称]@[远程主机名]:[远程目录]
# -r 递归复制整个目录 # 编辑slaves文件
$ vim /usr/local/spark/conf/slaves
data1
data2
data3
6.在Spark Standalone 运行pyspark
# 启动
$ /usr/local/spark/sbin/start-all.sh
$ pyspark --master spark://master:7077 # 停止
$ /usr/local/spark/sbin/stop-all.sh
7.Spark Web UI界面
http://master:8080/
http://master:4040/ # 查看Spark Jobs
Spark安装与介绍的更多相关文章
- 1. Spark的安装及介绍
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第一部分是记录如何安装Spark?同时,简单介绍下Spark. 一.Spark安装 二.Spark介绍 一.Spark安装 如 ...
- spark 安装配置
最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhu ...
- Spark安装和简单示例
spark的安装 先到官网下载安装包 注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载.若无图形界面,可用windows系统下载完成后传送到centos中. 本例中安 ...
- [转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
- Cloudera Manager (centos)安装详细介绍
文章全部来自:Cloudera Manager (centos)安装详细介绍http://www.aboutyun.com/thread-9190-1-1.html(出处: about云开发) 这里已 ...
- neo4j 图数据库安装及介绍
neo4j 图数据库安装及介绍 一.neo4j图数据库介绍 图数据库,顾名思义就是利用了"图的数据结构来作为数据存储逻辑体现的一种数据库",所以要想学好图数据库当然需要了解一些关于 ...
- Spark 安装部署与快速上手
Spark 介绍 核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
- Hive on Spark安装配置详解(都是坑啊)
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...
- Sikuli图形脚本测试工具安装及介绍(适合小白的测试神器)
sikuli简单安装以及介绍附图: 一.简单介绍 SikuliX官方网站:https://launchpad.net/sikuli/(官方的最新版本是SikuliX1.1.0更新于2015-10-06 ...
随机推荐
- 运行supervisord -c /etc/supervisor/supervisord.conf 出错,解决办法
坑都让我踩了...... 1 supervisord -c /etc/supervisor/supervisord.conf 什么意思? 答:手动启动:supervisord 具体详见 ...
- C# 全屏坐标及区域坐标获取。自定义光标及系统光标描边捕捉显示。
最近手头工作比较轻松了一点就继续研究和完善之前的录屏软件,使用AForge最大的问题在于:最原始的只能够录全屏,而自定义的录屏需要更改非常多的细节:like follows: 1.需要支持区域化录屏: ...
- VMware workstation运维实践系列博客导航
第一章:VMware workstation虚拟化1.1 VMware workstation计算网络存储介绍1.2 VMware workstation其他功能特性介绍1.3 VMware work ...
- Windows 10 中 VMware 要求禁用 Device Guard 问题
今天在打开虚拟机的时候,突然出现下面这个错误.网上给了很多教程,基本上都是禁用 Device Guard 和关闭 Hyper-v,博主按照其方法操作,依旧出现下面错误.后来经过不懈努力,终于找到解决办 ...
- Bash 笔记
获取当前工作目录 basepath=$(cd `dirname $0`; pwd) 源文 : https://sexywp.com/bash-how-to-get-the-basepath-of-cu ...
- CentOS6.9下升级默认的OpenSSH操作记录(升级到OpenSSH_7.6p1)
近期对IDC机房服务器做了一次安全漏洞扫描,漏扫结果显示服务器的OpenSSH版本太低(CentOS6默认是OpenSSH_5.3p1),存在漏洞隐患,安全部门建议升级到OpenSSH_7.6p1.升 ...
- 查看服务器系统资源(cpu,内容)利用率前几位的进程的方法
在日常运维工作中,我们经常需要了解服务器上的系统资源的使用情况,要清楚知道一些重要进程所占的资源比例.这就需要熟练掌握下面几个命令的使用: 1)查看占用CPU最高的5个进程 # ps aux | so ...
- HTTP协议基础与web服务的重定向,跳转以及请求转发
JavaWeb中,HttpServletRequest与HttpServletResponse几乎是处理各种请求与操作必备的参数,与原始的ServletRequest/ServletResponse相 ...
- Pair Project —— Elevator Scheduler
结对编程人员 12061153 刘丽萍 12061154 冯飘飘 说明结对编程的优点和缺点. 结对编程的优点: 以前都是自己一个人编程,对于相互结对或者团队编程都没有接触过.而自己在写代码时不可避免的 ...
- Individual P1: Summary
经过5个小时成功把simple mode写差不多了..orz 也是蛮拼的. 开始毫无头绪,本能地开始从度娘搜索‘c# 单词统计’= =看了两段代码也算是见过c#的人了.差不多花了我1小时的时间. 然后 ...