1. Spark的安装及介绍

*以下内容由《Spark快速大数据分析》整理所得。

读书笔记的第一部分是记录如何安装Spark？同时，简单介绍下Spark。

一、Spark安装

二、Spark介绍

一、Spark安装

如果是在个人电脑上学习Spark，建议先建个虚拟机，教程可参考1. 安装虚拟机，Hadoop和Hive。

在下载Spark之前得确认之前安装的Hadoop版本是什么？

# 查看hadoop版本(这里我是2.7.7)hadoop version

然后，去官网下载兼容现有hadoop版本的spark并解压安装包：

cd~

tar -xf spark-3.0.0-bin-hadoop2.7.tgz

cd spark-3.0.0-bin-hadoop2.7

ls

现在，安装好了就可以试运行下Python或Scala版本的Spark shell了：

# 打开Python版本的Spark shell

cd spark-3.0.0-bin-hadoop2.7

bin/pyspark

# 打开Scala版本的Spark setshell

bin/spark-shell

二、Spark介绍

“Spark是一个用来实现快速而通用的集群计算的平台。”，它一个主要特点是能够在内存中进行计算，因而更快。

1. Spark的核心组件有两个：驱动器程序(driver program)和执行器(executor)。

驱动器程序：shell启动时已自动创建一个SparkContext对象(也称sc变量)去访问Spark。有了SparkContext，就可以用它创建RDD(弹性分布式数据集resilient distributed dataset，不能看作是存放着特定数据的数据集，而是看作如何计算数据的指令列表)。
执行器：驱动器程序一般要管理多个执行器节点，不同节点会执行不同的工作，在集群上实现并行数据分析。

例如Python的行数统计

$bin/pyspark

>>>lines = sc.textFile("README.md") # 使用sc创建一个名为lines的RDD

>>>lines.count() # 执行器统计RDD中元素的个数

108

2. 运行Python脚本：使用Spark自带的bin/spark-submit脚本帮我们引入Python程序的Spark依赖（相当于为Spark的PythonAPI配置好的运行环境）

bin/spark-submit my_python_script.py

3. 在python中初始化Spark:

from pyspark import SparkConf, SparkContext


# 创建一个SparkConf对象来配置你的应用

conf = SparkConf().setMaster("local").setAppName("My App")


# 基于这个SparkConf创建一个SparkContext对象

sc = SparkContext(conf = conf)

1. Spark的安装及介绍的更多相关文章

Spark安装与介绍
1. Scala的安装注意点:版本匹配的问题, Spark 1.6.2 -- Scala2.10 Spark 2.0.0 -- Scala2.11 https://www.scala-lang.or ...
Cloudera Manager （centos）安装详细介绍
文章全部来自:Cloudera Manager (centos)安装详细介绍http://www.aboutyun.com/thread-9190-1-1.html(出处: about云开发) 这里已 ...
mac下Spark的安装与使用
每次接触一个新的知识之前我都抱有恐惧之心,因为总认为自己没有接触到的知识都很高大上,比如上篇介绍到的Hadoop的安装与使用与本篇要介绍的Spark,其实在自己真正琢磨以后才发现本以为高大上的知识其实 ...
neo4j 图数据库安装及介绍
neo4j 图数据库安装及介绍一.neo4j图数据库介绍图数据库,顾名思义就是利用了"图的数据结构来作为数据存储逻辑体现的一种数据库",所以要想学好图数据库当然需要了解一些关于 ...
Sikuli图形脚本测试工具安装及介绍（适合小白的测试神器）
sikuli简单安装以及介绍附图: 一.简单介绍 SikuliX官方网站:https://launchpad.net/sikuli/(官方的最新版本是SikuliX1.1.0更新于2015-10-06 ...
Spark standlone安装与配置
spark的安装简单,去官网下载与集群hadoop版本相一致的文件即可. 解压后,主要需要修改spark-evn.sh文件. 以spark standlone为例,配置dn1,nn2为master,使 ...
python Scrapy安装和介绍
python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel ...
Spark standalone安装（最小化集群部署）
Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式) 集群规划: 主机 IP ...
Visual Studio 2017正式版离线安装及介绍
Visual Studio 2017 RTM正式版离线安装及介绍. 首先至官网下载:https://www.visualstudio.com/zh-hans/downloads/ VS 2017 正式 ...

随机推荐

auto_send_tablespace.sh
简述:周期定时发送表空间到指定邮箱内 1.修改邮箱配置 /etc/mail.rc,具体细节见网上教程 $ vi /etc/mail.rc set from=123456@qq.comset smtp= ...
win7如何安装maven
1.Maven的简介Maven是一个项目管理工具,主要用于Java平台的项目构建.依赖管理和项目生命周期管理. 当然对于我这样的程序猿来说,最大的好处就是对jar包的管理比较方便,只需要告诉Maven ...
linux CentOS7 防火墙操作
1, 查看防火墙状态: firewall-cmd --state systemctl status firewalld.service 2, 开启防火墙: systemctl start firewa ...
Linux Centos7 安装Docker-CE
先确保yum 是最新版本执行: sudo yum update 添加docker源地址 sudo yum-config-manager --add-repo https://download.doc ...
laravel或者lumen门面和服务提供者使用
关于laravel门面和服务提供者使用的一点见解,门面之词,不足之处,还请多多指教. 在laravel中,我们可能需要用到自己添加的类时,可以建立一个文件夹专门存放类文件,也可以使用lara ...
Linux运维学习第二周记
1 梨花淡白柳深青, 2 柳絮飞时花满城. 3 惆怅东栏一株雪, 4 人生看得几清明. 老牛望春满地绿! 第二周直接要起飞了! 仍然是最基础最基础的东西,但也是特别多,的别重要! 第二周学记 1.Li ...
逆向so文件调试工具ida基础知识点
1.界面介绍 https://www.freebuf.com/column/157939.html 2.IDA常用快捷键切换文本视图与图表视图空格键返回上一个操作地址 ESC 搜索地址和符号 G ...
maven 的安装与环境变量配置
在http://maven.apache.org下载maven安装包一.Windows 1.解压压缩包: jar -xvf "D:/apache-maven-3.5.0-bin.zip&q ...
Python ( 学习基础篇第二部 )
目录运算符算数运算符比较运算符赋值运算符位运算符逻辑运算符成员运算符身份运算符 Python 中运算符的优先级运算符总结基础语法判断类型 isinstence 代码块流程控制 w ...
python接口自动化测试--批量读取数据
为了便于维护,python接口自动化测试用例可以利用xlrd模块读取excal表格进行数据分离.我们可以利用xlrd模块的row_values()和cell_value()两种方法读取Excal表格. ...

1. Spark的安装及介绍

1. Spark的安装及介绍的更多相关文章

随机推荐

热门专题