Apache Spark简单介绍、安装及使用

Apache Spark简介

Apache Spark是一个高速的通用型计算引擎，用来实现分布式的大规模数据的处理任务。

分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能。

Apache Spark安装及配置（OS X下的Ubuntu虚拟机）

学习新东西最好是在虚拟机下操作，以免对现在的开发环境造成影响，我的系统是OS X，安装的是VirtualBox虚拟机，然后在虚拟机里安装的Ubuntu系统。

VirtualBox安装方法请查看教程：

YouTube: Install Ubuntu in Mac with Virtual Box

注意在安装过程中设置4GB的RAM和20GB的空间，否则会出现不够用的情况。

安装 Anaconda

Anaconda 是Python科学计算包的合集，在接下来的例子中，会用到其中的matplotlib用来生成一张柱状图。

下载地址：https://www.continuum.io/downloads

然后在Terminal中输入命令：

bash Anaconda2-4.1.1-Linux-x86_64.sh

安装 Java SDK

Spark运行在JVM上，所以还需要安装Java SDK：

$ sudo apt-get install software-properties-common

$ sudo add-apt-repository ppa:webupd8team/java

$ sudo apt-get update

$ sudo apt-get install oracle-java8-installer

设置JAVA_HOME

打开.bashrc文件

gedit .bashrc

在.bashrc中添加如下设置：

JAVA_HOME=/usr/lib/jvm/java-8-oracle

export JAVA_HOME

PATH=$PATH:$JAVA_HOME

export PATH

安装Spark

去官网下载压缩包，下载地址 http://spark.apache.org/downloads.html

将安装包解压，命令如下：

$ tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz

$ rm spark-2.0.0-bin-hadoop2.7.tgz

启用IPython Notebook

打开.bashrc文件

gedit .bashrc

在.bashrc中添加如下设置：

export PYSPARK_DRIVER_PYTHON=ipython

export PYSPARK_DRIVER_PYTHON_OPTS=notebook

检查是否安装成功 （需重启Terminal）

cd ~/spark-2.0.0-bin-hadoop2.7

./bin/pyspark

Apache Spark简单使用

打开Spark服务后，点击new - Notebooks - Python新建一个Notebook文件。

在这个小例子中，我们读取Spark文件夹下的NOTICE文件里的内容，然后统计词频，最后生成一张图表。示例很简单，直接贴出代码截图和最后的结果：

源代码：

# coding: utf-8

# In[1]:

import re

from operator import add

# In[13]:

file_in = sc.textFile("/home/carl/spark/NOTICE")

# In[3]:

words = file_in.flatMap(lambda line: re.split(' ', line.lower().strip()))

# In[4]:

words = words.filter(lambda w: len(w) > 3)

# In[5]:

words = words.map(lambda w:(w,1))

# In[6]:

words = words.reduceByKey(add)

# In[7]:

words = words.map(lambda x: (x[1], x[0])).sortByKey(False)

# In[8]:

words.take(15)

# In[9]:

get_ipython().magic(u'matplotlib inline')

import matplotlib.pyplot as plt

def histogram(words):

    count = map(lambda x: x[1], words)

    word = map(lambda x:x[0], words)

    plt.barh(range(len(count)), count, color="green")

    plt.yticks(range(len(count)), word)

# In[10]:

words = words.map(lambda x:(x[1], x[0]))

# In[11]:

words.take(15)

# In[12]:

histogram(words.take(15))

这些内容是在学习 Spark for Python Developers 这本书过程中的随笔，接下来还会继续分享和Spark相关的知识，有兴趣的朋友欢迎关注本博客，也欢迎大家留言进行讨论。

福利：Spark for Python Developers电子版下载链接：Spark for Python Developers.pdf

我们处于大数据时代，对数据处理感兴趣的朋友欢迎查看另一个系列随笔：利用Python进行数据分析基础系列随笔汇总
如果你对网络爬虫感兴趣，请查看另一篇随笔：网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务

Apache Spark简单介绍、安装及使用的更多相关文章

Spark简单介绍，Windows下安装Scala+Hadoop+Spark运行环境，集成到IDEA中
一.前言近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop, ...
Mongodb简单介绍安装
具体详细内容,请查阅 Mongodb官方文档一.简单介绍 MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统. 在高负载的情况下,添加更多的节点,可以保证服务器性能. M ...
Apache Flume的介绍安装及简单案例
概述 Flume 是一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的软件.Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink).为了保证 ...
在linux上安装elasticsearch简称ES 简单介绍安装步骤
1.简介 Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elasticsearch 并不仅仅是 ...
Spark（二） -- Spark简单介绍
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算拥有Hadoop MapReduce所具有的优点但 ...
Apache Shiro简单介绍
1. 概念 Apache Shiro 是一个开源安全框架,提供身份验证.授权.密码学和会话管理.Shiro 框架具有直观.易用等特性,同时也能提供健壮的安全性,虽然它的功能不如 SpringSecur ...
web服务的简单介绍及apache服务的安装
一,web服务的作用: 是指驻留于因特网上某种类型计算机的程序,可以向浏览器等Web客户端提供文档.可以放置网站文件,让全世界浏览: 可以放置数据让全世界下载.目前最主流的三个Web服务器是Ap ...
3.如何安装Apache Spark
如何安装Apache Spark 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹 ...
分享一个.NET平台开源免费跨平台的大数据分析框架.NET for Apache Spark
今天早上六点半左右微信群里就看到张队发的关于.NET Spark大数据的链接https://devblogs.microsoft.com/dotnet/introducing-net-for-apac ...

随机推荐

让 windows 下的命令行程序 cmd.exe 用起来更顺手
在 Windows 下使用 Larave 框架做开发,从 Composer 到 artisan 总是避免不了和 cmd.exe 打交道,系统默认的命令行界面却是不怎么好看,且每行显示的字符数是做了限制 ...
.Net Core MVC 网站开发（Ninesky） 2.3、项目架构调整-控制反转和依赖注入的使用
再次调整项目架构是因为和群友dezhou的一次聊天,我原来的想法是项目尽量做简单点别搞太复杂了,仅使用了DbContext的注入,其他的也没有写接口耦合度很高.和dezhou聊过之后我仔细考虑了一下, ...
11、Struts2 的文件上传和下载
文件上传表单准备要想使用 HTML 表单上传一个或多个文件须把 HTML 表单的 enctype 属性设置为 multipart/form-data 须把 HTML 表单的method 属性设置 ...
年度巨献-WPF项目开发过程中WPF小知识点汇总（原创+摘抄）
WPF中Style的使用 Styel在英文中解释为”样式“,在Web开发中,css为层叠样式表,自从.net3.0推出WPF以来,WPF也有样式一说,通过设置样式,使其WPF控件外观更加美化同时减少了 ...
【走过巨坑】android studio对于jni调用及运行闪退无法加载库的问题解决方案
相信很多小伙伴都在android开发中遇到调用jni的各种巨坑,因为我们不得不在很多地方用到第三方库so文件,然而第三方官方通常都只会给出ADT环境下的集成方式,而谷歌亲儿子android studi ...
Unity3D 5.3 新版AssetBundle使用方案及策略
1.概览 Unity3D 5.0版本之后的AssetBundle机制和之前的4.x版本已经发生了很大的变化,一些曾经常用的流程已经不再使用,甚至一些老的API已经被新的API所取代. 因此,本文的主要 ...
bash字符串操作
参考 http://www.cnblogs.com/chengmo/archive/2010/10/02/1841355.html 问题:bash怎么提取字符串的最后一位?例如python中strin ...
【Java学习系列】第3课--Java 高级教程
本文地址可以拜读: 从零开始学 Java 分享提纲: 1. Java数据结构 2. Java 集合框架 3. Java泛型 4. Java序列化 5. Java网络编程 6. Java发送Email ...
三星Note 7停产，原来是吃了流程的亏
三星Note 7发售两个月即成为全球噩梦,从首炸到传言停产仅仅47天.所谓"屋漏偏逢连天雨",相比华为.小米等品牌对其全球市场的挤压.侵蚀,Galaxy Note 7爆炸事件这场连 ...
[DS] 标记字段
标记字段代码中有时候有这种需求:需要一个公共访问的标记字段,以下称为标记字段. 下面是案例: 一个订单详情页面,如果页面在显示中,程序中其它地方需要访问这个"正在查看中"的订单信 ...

Apache Spark简单介绍、安装及使用

Apache Spark简单介绍、安装及使用的更多相关文章

随机推荐

热门专题