Spark学习（一） -- Spark安装及简介

标签（空格分隔）： Spark

学习中的知识点：函数式编程、泛型编程、面向对象、并行编程。

任何工具的产生都会涉及这几个问题：

现实问题是什么？
理论模型的提出。
工程实现。

思考：数据规模达到一台机器无法处理的时候，如何在有限的时间内对整个数据集进行遍历及分析？

Google针对大数据问题提出的一些解决方案：

MapReduce：计算框架；
GFS：数据存储
BigTable：NoSQL始祖。

Hadoop是根据MapReduce和GFS两大论文所做的开源实现，因此，它主要解决2大问题：数据存储，分布式计算框架。

YARN是Hadoop2和Hadoop1的最大区别，将集群管理本身独立出来。而计算模型则更加专注于问题本身。

Spark简介

Spark是由UC Berkeley的AMPLab出品的，主要创作者是Matei Zaharia. Spark与MapReduce位于Hadoop生态圈的同一层，主要解决分布式计算框架的问题。

Spark与Hadoop有以下关系：

Spark和Hadoop中的MapReduce位于同一层次；
Spark可以部署在YARN（专门管理集群工作的）上；
Spark支持HDFS文件系统的访问。

Mac Scala安装

使用brew安装：

brew install scala
下载包安装

tar zxvf ~/Download/scala-2.12.1.tgz #解压

mv ~/Download/scala-2.12.1 ~/Download/scala #重命名

mv ~/Download/scala /usr/local/share/ #将文件夹放到合适的位置

修改环境变量，如果不是管理员可使用 sudo 进入管理员权限，修改配置文件profile，在文件的末尾加入：

export PATH="$PATH:/usr/local/share/scala/bin"
验证

$ scala

显示：Welcome to Scala version 2.11.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_40).

Type in expressions to have them evaluated.

Type :help for more information.

Mac Spark安装

使用brew安装

$ brew install apache-spark
检测是否安装成功

cd /usr/local/Cellar/apache-spark/1.3.0/bin/
输入：./spark-shell 启动spark

WordCount in spark-shell

在spark-shell中完成单词统计：

val file = sc.textFile("/usr/local/Cellar/apache-spark/1.3.0/README.md")

// 以空格为拆分标志，将文件中的每一行分割为多个单词

val words = file.flatMap(line => line.split(" "))

// 对每一个单词进行计数

val wordNumber = words.map(w => (w, 1))

// 将单词进行分类合并，计算每个单词总的出现次数

val wordCounts = wordNumber.reduceByKey(_+_)

//将所有单词及其出现次数打印出来

wordsCounts.foreach(println)

上述工作的简单表述形式：

sc.textFile("/usr/local/Cellar/apache-spark/1.3.0/README.md")

.flatMap(line => line.split(" "))

.map(w => (w, 1))

.reduceByKey(_+_)

.foreach(println)

Spark学习（一） -- Spark安装及简介的更多相关文章

Spark学习之Spark Streaming（9）
Spark学习之Spark Streaming(9) 1. Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码. 2. ...
Spark学习之Spark SQL（8）
Spark学习之Spark SQL(8) 1. Spark用来操作结构化和半结构化数据的接口--Spark SQL. 2. Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据 ...
Spark学习之Spark调优与调试（7）
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
Spark学习之Spark安装
Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark ...
Spark学习笔记--Linux安装Spark集群详解
本文主要讲解如何在Linux环境下安装Spark集群,安装之前我们需要Linux已经安装了JDK和Scala,因为Spark集群依赖这些.下面就如何安装Spark进行讲解说明. 一.安装环境操作系统 ...
Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
Spark学习之Spark Streaming
一.简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用.训练机器学习模型的应用,还有自动检测异常的应用.Spark Streaming 是 Spark 为这些应用而设计的模型.它 ...
Spark学习之Spark调优与调试(一)
一.使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项.Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行 ...
Spark学习笔记--Spark在Windows下的环境搭建
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...
Spark学习笔记--Spark在Windows下的环境搭建（转）
本文主要是讲解Spark在Windows环境是如何搭建的一.JDK的安装 1.1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略.JDK(全称是JavaTM P ...

随机推荐

android:descendantFocusability用法简析
开发中很常见的一个问题,项目中的listview不仅仅是简单的文字,常常需要自己定义listview,自己的Adapter去继承BaseAdapter,在adapter中按照需求进行编写,问题就出现了 ...
Let’s Encrypt 配置
刚配置了下Let's Encrypt,chrome浏览器里有绿条出来,看官网其它平台问题应该也不大.我还没有研究这个工作原理,关键是刚花了几千块给公司买了个收费的证书认证.这里写下配置过程(https ...
CSS补充之--页面布局、js补充，dom补充
CSS补充之--页面布局主站一:(下面是一个大致的模板) <div class="pg-header"> <div style="width: 120 ...
ios - 谓词的使用
谓词在搜索的时候非常管用.简单示例代码如下: 分类Person.h文件 #import <Foundation/Foundation.h> @interface Person : NSOb ...
一个关于Random算法的问题
指定范围数字,生成随机序列,数字不连续:例如:范围[1-5] 输入 1 3 5 2 4 下面分享两种算法: 算法1:RmNum<RmNext 下面这种算法计算是无压力的 /// <sum ...
使用Struts 2防止表单重复提交
用户重复提交表单在某些场合将会造成非常严重的后果.例如,在使用信用卡进行在线支付的时候,如果服务器的响应速度太慢,用户有可能会多次点击提交按钮,而这可能导致那张信用卡上的金额被消费了多次.因此,重复提 ...
使用git 更新线上代码
先本地代码合并://1合并分支git branch//2查看taggit tag //3添加tagcloud_crm]$ git tag -a v1.0.2 -m "0902"// ...
TextField文本框
1)失去第一响应者状态方法(即关闭键盘) 要先将视图view的底层类设置为UIControl类再设置view的touch down事件,在事件中写入以下方法 [self.textField resi ...
夺命雷公狗-----React_native---3---react-native-cli的安装
我们用npm安装下react-native-cli,并用-g来全局安装,我们用命令 npm install -g react-native-cli 如果和下图一样即表示已安装成功:
10分钟学习pandas
10 Minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can se ...