1. Scala的安装

注意点:版本匹配的问题,

Spark 1.6.2 -- Scala2.10

Spark 2.0.0 -- Scala2.11

https://www.scala-lang.org/files/archive

$ wget https://www.scala-lang.org/files/archive/scala-2.11.6.tgz
$ tar -zxvf ./scala-2.11.6.tgz
$ mv ./scala-2.11.6.tgz /usr/local/scala 增加全局变量
$ vim ./.bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
$ source ~/.bashrc

  

2. Spark的安装

http://spark.apache.org/downloads.html

$ wget https://archive.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.6.tgz
$ tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz
$ mv ./spark-2.0.2-bin-hadoop2.6 /usr/local/spark 增加全局变量
$ vim ./.bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
$ source ~/.bashrc

  

输入pyspark 显示:

至此安装成功。

3.本地运行pyspark

# 本地运行命令
pyspark --master local[4] # 本地启动,使用4个线程 # 查看当前运行模式
sc.master # 读取本地文件
textFile = sc.textFile("file:/usr/local/spark/README.md")
textFile.count() # 读取HDFS文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()

  

4.在Hadoop YARN上运行pyspark

$ vim ./.bashrc

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop # 启动
$ pyspark --master yarn --deploy-mode client # 读取hdfs文件
textFile = sc.textFile("hdfs://master:9000/user/hadoop/result.csv")
textFile.count()

  

5.构建Spark Standalone Cluster运行环境

$ cp /usr/local/spark/conf/spark-env.sh.template /usr/local/spark/conf/spark-env.sh
$ vim /usr/local/spark/conf/spark-env.sh export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=1 # 每个worker所使用的cpu核心数
export SPARK_WORKER_MEMORY=512m # 每个worker所使用的内存
export SPARK_WORKER_INSTANCES=4 # 实例数 # 将spark复制到data1,data2,data3
$ ssh data1
$ mkdir /usr/local/spark
$ logout $ scp -r /usr/local/spark root@data1:/usr/local
# scp -r [本地文件] [远程用户名称]@[远程主机名]:[远程目录]
# -r 递归复制整个目录 # 编辑slaves文件
$ vim /usr/local/spark/conf/slaves
data1
data2
data3

  

6.在Spark Standalone 运行pyspark

# 启动
$ /usr/local/spark/sbin/start-all.sh
$ pyspark --master spark://master:7077 # 停止
$ /usr/local/spark/sbin/stop-all.sh

  

  

7.Spark Web UI界面

http://master:8080/

http://master:4040/ # 查看Spark Jobs

Spark安装与介绍的更多相关文章

  1. 1. Spark的安装及介绍

    *以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第一部分是记录如何安装Spark?同时,简单介绍下Spark. 一.Spark安装 二.Spark介绍 一.Spark安装 如 ...

  2. spark 安装配置

    最佳参考链接 https://opensourceteam.gitbooks.io/bigdata/content/spark/install/spark-160-bin-hadoop26an_zhu ...

  3. Spark安装和简单示例

    spark的安装 先到官网下载安装包 注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载.若无图形界面,可用windows系统下载完成后传送到centos中. 本例中安 ...

  4. [转] Spark快速入门指南 – Spark安装与基础使用

    [From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...

  5. Cloudera Manager (centos)安装详细介绍

    文章全部来自:Cloudera Manager (centos)安装详细介绍http://www.aboutyun.com/thread-9190-1-1.html(出处: about云开发) 这里已 ...

  6. neo4j 图数据库安装及介绍

    neo4j 图数据库安装及介绍 一.neo4j图数据库介绍 图数据库,顾名思义就是利用了"图的数据结构来作为数据存储逻辑体现的一种数据库",所以要想学好图数据库当然需要了解一些关于 ...

  7. Spark 安装部署与快速上手

    Spark 介绍 核心概念 Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别. 最大的优化是让计算任务的中间结果可以存储在内存中, ...

  8. Hive on Spark安装配置详解(都是坑啊)

    个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Sp ...

  9. Sikuli图形脚本测试工具安装及介绍(适合小白的测试神器)

    sikuli简单安装以及介绍附图: 一.简单介绍 SikuliX官方网站:https://launchpad.net/sikuli/(官方的最新版本是SikuliX1.1.0更新于2015-10-06 ...

随机推荐

  1. bitcoin 源码解析 - 交易 Transaction(三) - Script

    bitcoin 源码解析 - 交易 Transaction(三) - Script 之前的章节已经比较粗略的解释了在Transaction体系当中的整体运作原理.接下来的章节会对这个体系进行分解,比较 ...

  2. 使用TensorFlow的递归神经网络(LSTM)进行序列预测

    本篇文章介绍使用TensorFlow的递归神经网络(LSTM)进行序列预测.作者在网上找到的使用LSTM模型的案例都是解决自然语言处理的问题,而没有一个是来预测连续值的. 所以呢,这里是基于历史观察数 ...

  3. linux awk 内置函数实例

    awk内置函数,主要分4种:算数函数.字符串函数.时间函数.一般函数 一.算术函数 以下算术函数执行与 C 语言中名称相同的子例程相同的操作: 函数名 说明 atan2( y, x ) 返回 y/x ...

  4. nginx域名访问的白名单配置梳理

    在日常运维工作中,会碰到这样的需求:设置网站访问只对某些ip开放,其他ip的客户端都不能访问.可以通过下面四种方法来达到这种效果:1)针对nginx域名配置所启用的端口(比如80端口)在iptable ...

  5. C. Banh-mi

    链接 [http://codeforces.com/contest/1062/problem/C] 题意 给你有n个字符(0 or 1)的串,当去某个位置时所有的剩下的位置都加上这个位置的数字,q次查 ...

  6. 【2016.3.16】作业 VS2015安装&单元测试(1)

    首先说下本机配置. CPU:Intel Atom x5-z8300 @1.44GHz 内存:2GB 操作系统:Windows10 家庭版 32位 硬盘:32GB 然后开始怒装visual studio ...

  7. Bing词典分析

    0x01 Bug测试结果 本次测试的是Bing词典wp版本V4.5.2,经过测试,共发现如下Bug. 1.更新后,旧版本首页的每日单词与文章推荐不能重新获得,部分搜索历史记录丢失. 2.在单词挑战模式 ...

  8. 利用ss-redir加速服务器上国外服务的访问

    https://blog.microdog.me/2016/06/28/Speed-Up-Network-Accessing-To-Overseas-Services-On-Your-Server/

  9. Hacked VisualSVN Server by PHP to allow user change password

    index.php <?php$username = $_SERVER["PHP_AUTH_USER"]; //经过 AuthType Basic 认证的用户名$authed ...

  10. DELPHI XE10,JSON 生成和解析,再利用INDYHTTP控件POST

    Delphi XE10,Json 生成和解析,再利用indyhttp控件Post 年09月20日 :: 阅读数: --不多说,直接上代码 procedure TFrmMain.Brand; var J ...