[Spark] Hello Spark

这里只使用Spark的Python操作和接口，其他语言应为不熟悉，所以先不写在这里。

Spark 部署

可以直接从官方网站下载 pre-build 版本，可以直接在电脑上运行，离线安装也是可以的，比如说针对Python 2.7的link。

解压：

tar zxvf spark-2.1.0-bin-hadoop2.7.tgz

解压之后，其目录为如下：

$ ls

LICENSE		README.md	conf		jars		sbin

NOTICE		RELEASE		data		licenses	yarn

R		bin		examples	python

其中的几个目录可以先认识一下：

bin : 这个目录中包含用来和Spark交互的可执行文件。
README.md : 是一个Spark 的说明文件。
examples : 包含一些可以查看和运行的例子程序，对学习Spark的API很有帮助。

Spark 的 Python Shell

在Spark的目录下，执行：

./bin/pyspark

即可载入Python Shell，成功之后的界面如下：

到这就代表Spark完成了部署，可以使用 Control + D 退出 SparkShell。

第一段小程序

在解释器中执行下面的一段程序试试：

>>> lines = sc.textFile("README.md")

>>> pythonLines = lines.filter(lambda line: "Python" in line)

上面两行代码分别为：

通过 SparkContext 对象 sc ，从README.md文件创建一个文本文件类型的 RDD。
从名为 lines 的RDD中 筛选出 包含字符串"Python"的行，组成新的RDD。

下面解释 RDD 和 SparkContext 这两个名词：

SparkContext : 从上层来看，每个Spark应用都有一个驱动程序来发起集群上的各种并行操作。驱动程序包含应用的main函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。在这个例子中，实际的驱动程序就是SparkShell本身，你只需要输入想要运行的操作就可以了。shell启动的时候已经自动创建了一个SparkContext对象，名字为sc。
RDD : 在Spark中，我们通过对分布式数据集的操作来表达我们的计算意图，这样的数据集被称为弹性分布式数据集(Resilient Distributed Dataset)，简称RDD。

然后可以用执行 .first() 和 .count() 两个方法来查看：

[Spark] Hello Spark的更多相关文章

Spark Shell & Spark submit
Spark 的 shell 是一个强大的交互式数据分析工具. 1. 搭建Spark 2. 两个目录下面有可执行文件: bin 包含spark-shell 和 spark-submit sbin 包含 ...
【转】科普Spark，Spark是什么，如何使用Spark
本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyu ...
Spark:使用Spark Shell的两个示例
Spark:使用Spark Shell的两个示例 Python 行数统计 ** 注意: **使用的是Hadoop的HDFS作为持久层,需要先配置Hadoop 命令行代码 # pyspark >& ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子
[Spark][Python]spark 从 avro 文件获取 Dataframe 的例子从如下地址获取文件: https://github.com/databricks/spark-avro/r ...
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子：
[Spark][Python]Spark 访问 mysql , 生成 dataframe 的例子: mydf001=sqlContext.read.format("jdbc").o ...
Spark记录-Spark性能优化解决方案
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,r ...
Spark记录-spark编程介绍
Spark核心编程 Spark 核心是整个项目的基础.它提供了分布式任务调度,调度和基本的 I/O 功能.Spark 使用一种称为RDD(弹性分布式数据集)一个专门的基础数据结构,是整个机器分区数据的 ...
Spark记录-spark介绍
Apache Spark是一个集群计算设计的快速计算.它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理.这是一个 ...
Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权作者 | 蒋专蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...

随机推荐

适应laytpl 渲染模板数据
前言当我们异步读取数据过来的时候,还要通过手动赋值,显示在页面上吗,那样你就太OUT了,哥告诉你个新方式. 那就是 laytpl 插件用法一:渲染单条数据 <table id="B ...
C/C++源代码从写完到运行发生了什么
有时候经常听到一些不明觉厉的词语,什么编译啊链接啊语义分析啊的,就找书来看看,把笔记画成了图: 编译器干了些啥呢,如下图: 参考书:<程序员的自我修养——链接.装载与库>,<深入理解 ...
随手记一次利用webbowser控件打开网页后cookie读取与设置
利用wininet.dll 组件读取cookie : [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError ...
Hyper-V 2012 R2 故障转移群集
和终端用户相比,企业用户对于业务的连续性和可靠性更为在意.相对而言,企业一般不会将追逐单一硬件的性能排在第一位. 如何衡量业务是否持续可用,一般使用"x 个 9"这种方式来定义.如 ...
spring-amqp 动态创建queue、exchange、binding
pom.xml  <dependency> <groupId>com.rabbitmq</groupId> <arti ...
Linux配置notes
终端支持中文输入: locale-gen en_US.UTF-8 export PYTHONIOENCODING=utf-8 export LANG="en_US.UTF-8" e ...
JavaNote01_变量基本数据类型
>主要内容: 变量的初始化.赋值.读写操作 8中基本数据类型(取值范围).整数的直接量(字面量)是哪种类型.浮点数的字面量是哪种类型 >变量 >>声明变量:开启一个存储单元,用 ...
CMD命令大全
有关某个命令的详细信息,请键入 HELP 命令名 ASSOC 显示或修改文件扩展名关联. AT 计划在计算机上运行的命令和程序. ATTRIB 显示或更改文件属性. BREAK 设置或清除扩展式 CT ...
linux通过ntp设置系统时间
1.查看本机时间 date 2.安装ntp并且设置开机启动 sudo yum -y install ntp chkconfig ntp on 3.立即更新系统时间 sudo ntpdate time. ...
真~让IE8支持background: rbga; ，IE8下兼容rgba颜色的半透明背景
IE8下兼容rgba颜色的半透明背景这样的标题在百度和google搜索下很多篇文章,讲解IE8下兼容rgba的. 这些文章全部都是使用IE下的filter来使元素透明,但是这个里面会有bug. 它们 ...