Spark安装与介绍

1. Scala的安装

注意点：版本匹配的问题，

Spark 1.6.2 -- Scala2.10

Spark 2.0.0 -- Scala2.11

https://www.scala-lang.org/files/archive

$ wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz

$ tar -zxvf ./scala-2.11.6.tgz

$ mv ./scala-2.11.6.tgz /usr/local/scala

增加全局变量

$ vim ./.bashrc

export SCALA_HOME=/usr/local/scala

export PATH=$PATH:$SCALA_HOME/bin

$ source ~/.bashrc

2. Spark的安装

http://spark.apache.org/downloads.html

$ wget https://archive.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.6.tgz

$ tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz

$ mv ./spark-2.0.2-bin-hadoop2.6 /usr/local/spark

增加全局变量

$ vim ./.bashrc

export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin

$ source ~/.bashrc

输入pyspark 显示：

至此安装成功。

3.本地运行pyspark

# 本地运行命令

pyspark --master local[4] # 本地启动，使用4个线程

# 查看当前运行模式

sc.master

# 读取本地文件

textFile = sc.textFile("file:/usr/local/spark/README.md")

textFile.count()

# 读取HDFS文件

textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")

textFile.count()

4.在Hadoop YARN上运行pyspark

$ vim ./.bashrc

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

# 启动

$ pyspark --master yarn --deploy-mode client

# 读取hdfs文件

textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")

textFile.count()

5.构建Spark Standalone Cluster运行环境

$ cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh

$ vim /usr/local/spark/conf/spark-env.sh

export SPARK_MASTER_IP=master

export SPARK_WORKER_CORES=1  # 每个worker所使用的cpu核心数

export SPARK_WORKER_MEMORY=512m # 每个worker所使用的内存

export SPARK_WORKER_INSTANCES=4 # 实例数

# 将spark复制到data1,data2,data3

$ ssh data1

$ mkdir /usr/local/spark

$ logout

$ scp -r /usr/local/spark root@data1:/usr/local

# scp -r [本地文件] [远程用户名称]@[远程主机名]:[远程目录]

# -r 递归复制整个目录

# 编辑slaves文件

$ vim /usr/local/spark/conf/slaves

data1

data2

data3

6.在Spark Standalone 运行pyspark

# 启动

$ /usr/local/spark/sbin/start-all.sh

$ pyspark --master spark://master:7077

# 停止

$ /usr/local/spark/sbin/stop-all.sh

7.Spark Web UI界面

http://master:8080/

http://master:4040/ # 查看Spark Jobs

Spark安装与介绍的更多相关文章

1. Spark的安装及介绍
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第一部分是记录如何安装Spark?同时,简单介绍下Spark. 一.Spark安装二.Spark介绍一.Spark安装如 ...
spark 安装配置
最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhu ...
Spark安装和简单示例
spark的安装先到官网下载安装包注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载.若无图形界面,可用windows系统下载完成后传送到centos中. 本例中安 ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
Cloudera Manager （centos）安装详细介绍
文章全部来自:Cloudera Manager (centos)安装详细介绍http://www.aboutyun.com/thread-9190-1-1.html(出处: about云开发) 这里已 ...
neo4j 图数据库安装及介绍
neo4j 图数据库安装及介绍一.neo4j图数据库介绍图数据库,顾名思义就是利用了"图的数据结构来作为数据存储逻辑体现的一种数据库",所以要想学好图数据库当然需要了解一些关于 ...
Spark 安装部署与快速上手
Spark 介绍核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Sikuli图形脚本测试工具安装及介绍（适合小白的测试神器）
sikuli简单安装以及介绍附图: 一.简单介绍 SikuliX官方网站:https://launchpad.net/sikuli/(官方的最新版本是SikuliX1.1.0更新于2015-10-06 ...

随机推荐

案例学Python--案例四：Django实现一个网站的雏形（2）
续上篇,用Django创建了一个Web,我们肯定想展示自己的页面,简单点,我们想看到自己的HelloWorld.此处要从项目的配置说起,方法和路径配对了,展现页面分分钟的事情. 先上效果图吧: ...
数组-在Shell脚本中的基本使用介绍
Shell脚本在运维工作中是极其重要的,而数组在shell脚本里的运用无论是在循环或运算方面都是非常实用的一个环节.下面是对shell脚本中数组方面一些操作在此进行记录,希望能帮助到有兴趣的朋友~1. ...
☆C++学习心得
C++是我进大学的学的第一种编程语言,在高中的时候有电脑课,有教过部分的VB语言,所以其实对编程也并不是非常的陌生,刚开是上课也觉得感觉不难,都懂,没多少课后,恍了个神..居然听不懂了!老师经常让我们 ...
Prism6下的MEF：基于微软企业库的Cache
通常,应用程序可以将那些频繁访问的数据,以及那些需要大量处理时间来创建的数据存储在内存中,从而提高性能.基于微软的企业库,我们的快速创建一个缓存的实现. 新建PrismSample.Infrastru ...
HDU 2081 手机短号
Problem Description 大家都知道,手机号是一个11位长的数字串,同时,作为学生,还可以申请加入校园网,如果加入成功,你将另外拥有一个短号.假设所有的短号都是是 6+手机号的后5位,比 ...
BUG管理工具——Mantis安装配置
配置环境: CentOS6.5(所有操作在root用户下面操作) 1. 关闭防火墙, service iptables stop(防止防火墙捣乱,或者还得手动添加端口号的麻烦) 2. Disable ...
js拷贝实例；
,]]; // var arr2 =arr1.slice(0); // arr1[0] ="z"; // arr1[2][0] = "v"; // consol ...
[转帖]ARM 相关内容
ARM内核全解析,从ARM7,ARM9到Cortex-A7,A8,A9,A12,A15到Cortex-A53,A57 http://www.myir-tech.com/resource/448.asp ...
SQLSERVER 2014 内存优化表相关
更新了SP2的补丁能够解决不能收缩日志文件的bug了. 但是因为已经不用内存优化表了, 所以想着能够删除内存优化表的file group 但是发现很难删除先说结论: 以下是针对内存优化文件组的 ...
python下划线
单下划线(_) 通常情况下,会在以下3种场景中使用: 1.在解释器中:在这种情况下,“_”代表交互式解释器会话中上一条执行的语句的结果.这种用法首先被标准CPython解释器采用,然后其他类型的解释器 ...

Spark安装与介绍

1. Scala的安装

2. Spark的安装

3.本地运行pyspark

4.在Hadoop YARN上运行pyspark

5.构建Spark Standalone Cluster运行环境

6.在Spark Standalone 运行pyspark

7.Spark Web UI界面

Spark安装与介绍的更多相关文章

随机推荐

热门专题