1. SparkR的安装配置

1.1. R与Rstudio的安装

1.1.1. R的安装

我们的工作环境都是在Ubuntu下操作的，所以只介绍Ubuntu下安装R的方法：

1）在/etc/apt/sources.list添加源

deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu precise/，

然后更新源apt-get update；

2）通过apt-get安装：

sudo apt-get install r-base

1.1.2. Rstudio的安装

官网有详细介绍：

http://www.rstudio.com/products/rstudio/download-server/

sudo apt-get install gdebi-core

sudo apt-get install libapparmor1 # Required only for Ubuntu, not Debian

wget http://download2.rstudio.org/rstudio-server-0.97.551-amd64.deb

sudo gdebi rstudio-server-0.97.551-amd64.deb

1.2. rJava安装

1.2.1. rJava介绍

rJava是一个R语言和Java语言的通信接口，通过底层JNI实现调用，允许在R中直接调用Java的对象和方法。

rJava还提供了Java调用R的功能，是通过JRI(Java/R Interface)实现的。JRI现在已经被嵌入到rJava的包中，我们也可以单独试用这个功能。现在rJava包，已经成为很多基于Java开发R包的基础功能组件。

正是由于rJava是底层接口，并使用JNI作为接口调用，所以效率非常高。在JRI的方案中，JVM通过内存直接加载RVM，调用过程性能几乎无损耗，因此是非常高效连接通道，是R和Java通信的首选开发包。

1.2.2. rJava安装

1）配置rJava环境

执行R CMD javareconf

root@testnode4:/home/payton# R CMD javareconf

2）启动R并安装rJava

root@testnode4:/home/payton# R

> install.packages("rJava")

1.3. SparkR的安装

1.3.1. SparkR的代码下载

从网页下载代码SparkR-pkg-master.zip https://github.com/amplab-extras/SparkR-pkg

1.3.2. SparkR的代码编译

1）解压SparkR-pkg-master.zip，然后cd SparkR-pkg-master/

2）编译的时候需要指明Hadoop版本和Spark版本

SPARK_HADOOP_VERSION=2.4.1 SPARK_VERSION=1.2.0 ./install-dev.sh

至此，单机版的SparkR已经安装完成。

1.3.3. 分布式SparkR的部署配置

1）编译成功后，会生成一个lib文件夹，进入lib文件夹，打包SparkR为SparkR.tar.gz，这个是分布式SparkR部署的关键。

2）由打包好的SparkR.tar.gz在各集群节点上安装SparkR

R CMD INSTALL SparkR.tar.gz

至此分布式SparkR搭建完成。

2. SparkR的运行

2.1. SparkR的运行机制

SparkR是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。SparkR集合了Spark 和R的优势，下面的这3幅图很好的阐释了SparkR的运行机制。

2.2. 用SparkR 进行数据分析

2.2.1. SparkR基本操作

首先介绍下SparkR的基本操作：

第一步，加载SparkR包

library(SparkR)

第二步，初始化Spark context

sc <- sparkR.init(master=" spark://localhost:7077"

,sparkEnvir=list(spark.executor.memory="1g",spark.cores.max="10"))

第三步，读入数据，spark的核心是Resilient Distributed Dataset (RDD)，RDDS可以从Hadoop的InputFormats来创建（例如，HDFS文件）或通过转化其它RDDS。例如直接从HDFS读取数据为RDD的示例如下：

lines <- textFile(sc, "hdfs://sparkR_test.txt")

另外，也可以通过parallelize函数从向量或列表创建RDD，如：

rdd <- parallelize(sc, 1:10, 2)

到了这里，那么我们就可以运用RDD的动作（actions）和转换（transformations）来对RDD进行操作并产生新的RDD；也可以很容易地调用R开发包，只需要在集群上执行操作前用includePackage读取R开发包就可以了（例：includePackage(sc, Matrix)）；当然还可以把RDD转换为R语言格式的数据形式来对它进行操作。

具体可参见如下两个链接：

http://amplab-extras.github.io/SparkR-pkg/

https://github.com/amplab-extras/SparkR-pkg/wiki/SparkR-Quick-Start

那么下面我们就通过两个示例来看下 SparkR是如何运行的吧。

2.2.2. SparkR使用举例

1） Example1：word count

# 加载SparkR包

library(SparkR)

# 初始化 Spark context

sc <- sparkR.init(master="spark://集群ip:7077"

                  ,sparkEnvir=list(spark.executor.memory="1g",spark.cores.max=""))

# 从HDFS上读取文件

lines <- textFile(sc, "hdfs://集群ip:8020/tmp/sparkR_test.txt")

# 按分隔符拆分每一行为多个元素，这里返回一个序列

words<-flatMap(lines,function(line) {strsplit(line,"\\|")[[1]]})

# 使用 lapply 来定义对应每一个RDD元素的运算，这里返回一个（K，V)对

wordCount <-lapply(words, function(word) { list(word, 1L) })

# 对（K，V）对进行聚合计算

counts<-reduceByKey(wordCount,"+",2L)

# 以数组的形式，返回数据集的所有元素

output <- collect(counts)

# 按格式输出结果

for (wordcount in output) {

  cat(wordcount[[1]], ": ", wordcount[[2]], "\n")

}

2） Example2：logistic regression

# 加载SparkR包

library(SparkR)

# 初始化 Spark context

sc <- sparkR.init(master="集群ip:7077",

                  appName='sparkr_logistic_regression',

                  sparkEnvir=list(spark.executor.memory='1g',

                                  spark.cores.max=""))

# 从hdfs上读取txt文件，    该RDD由spark集群的4个分区构成

input_rdd <- textFile(sc,

 "hdfs://集群ip:8020/user/payton/german.data-numeric.txt",

minSplits=4)

# 解析每个RDD元素的文本（在每个分区上并行）

dataset_rdd <- lapplyPartition(input_rdd, function(part) {

  part <- lapply(part, function(x) unlist(strsplit(x, '\\s')))

  part <- lapply(part, function(x) as.numeric(x[x != '']))

  part

})

# 我们需要把数据集dataset_rdd分割为训练集（train）和测试集（test）两部分，这里

# ptest为测试集的样本比例，如取ptest=0.2，即取dataset_rdd的20%样本数作为测试

# 集，80%的样本数作为训练集

split_dataset <- function(rdd, ptest) {

  #以输入样本数ptest比例创建测试集RDD

  data_test_rdd <- lapplyPartition(rdd, function(part) {

    part_test <- part[1:(length(part)*ptest)]

    part_test

  })

  # 用剩下的样本数创建训练集RDD

  data_train_rdd <- lapplyPartition(rdd, function(part) {

    part_train <- part[((length(part)*ptest)+1):length(part)]

    part_train

  })

  # 返回测试集RDD和训练集RDD的列表

  list(data_test_rdd, data_train_rdd)

}

# 接下来我们需要转化数据集为R语言的矩阵形式，并增加一列数字为1的截距项，

# 将输出项y标准化为0/1的形式

get_matrix_rdd <- function(rdd) {

  matrix_rdd <- lapplyPartition(rdd, function(part) {

    m <- matrix(data=unlist(part, F, F), ncol=25, byrow=T)

    m <- cbind(1, m)

    m[,ncol(m)] <- m[,ncol(m)]-1

    m

  })

  matrix_rdd

}

# 由于该训练集中y的值为1与0的样本数比值为7:3，所以我们需要平衡1和0的样本

# 数，使它们的样本数一致

balance_matrix_rdd <- function(matrix_rdd) {

  balanced_matrix_rdd <- lapplyPartition(matrix_rdd, function(part) {

    y <- part[,26]

    index <- sample(which(y==0),length(which(y==1)))

    index <- c(index, which(y==1))

    part <- part[index,]

    part

  })

  balanced_matrix_rdd

}

# 分割数据集为训练集和测试集

dataset <- split_dataset(dataset_rdd, 0.2)

# 创建测试集RDD

matrix_test_rdd <- get_matrix_rdd(dataset[[1]])

# 创建训练集RDD

matrix_train_rdd <- balance_matrix_rdd(get_matrix_rdd(dataset[[2]]))

# 将训练集RDD和测试集RDD放入spark分布式集群内存中

cache(matrix_test_rdd)

cache(matrix_train_rdd)

# 初始化向量theta

theta<- runif(n=25, min = -1, max = 1)

# logistic函数

hypot <- function(z) {

  1/(1+exp(-z))

}

# 损失函数的梯度计算

gCost <- function(t,X,y) {

  1/nrow(X)*(t(X)%*%(hypot(X%*%t)-y))

# 定义训练函数

train <- function(theta, rdd) {

  # 计算梯度

  gradient_rdd <- lapplyPartition(rdd, function(part) {

    X <- part[,1:25]

    y <- part[,26]

    p_gradient <- gCost(theta,X,y)

    list(list(1, p_gradient))

  })

  agg_gradient_rdd <- reduceByKey(gradient_rdd, '+', 1L)

  # 一次迭代聚合输出

  collect(agg_gradient_rdd)[[1]][[2]]

}

# 由梯度下降算法优化损失函数

# alpha ：学习速率

# steps ：迭代次数

# tol ：收敛精度

alpha <- 0.1

tol <- 1e-4

step <- 1

while(T) {

  cat("step: ",step,"\n")

  p_gradient <- train(theta, matrix_train_rdd)

  theta <- theta-alpha*p_gradient

  gradient <- train(theta, matrix_train_rdd)

  if(abs(norm(gradient,type="F")-norm(p_gradient,type="F"))<=tol) break

  step <- step+1

}

# 用训练好的模型预测测试集信贷评测结果（“good”或“bad”），并计算预测正确率

test <- lapplyPartition(matrix_test_rdd, function(part) {

    X <- part[,1:25]

    y <- part[,26]

    y_pred <- hypot(X%*%theta)

    result <- xor(as.vector(round(y_pred)),as.vector(y))

})

result<-unlist(collect(test))

corrects = length(result[result==F])

wrongs = length(result[result==T])

cat("\ncorrects: ",corrects,"\n")

cat("wrongs: ",wrongs,"\n")

cat("accuracy: ",corrects/length(y_pred),"\n")

SparkR安装部署及数据分析实例的更多相关文章

CentOS下SparkR安装部署：hadoop2.7.3+spark2.0.0+scale2.11.8+hive2.1.0
注:之前本人写了一篇SparkR的安装部署文章:SparkR安装部署及数据分析实例,当时SparkR项目还没正式入主Spark,需要自己下载SparkR安装包,但现在spark已经支持R接口,so更新 ...
supervisor安装部署和使用实例
Supervisord是用Python实现的一款非常实用的进程管理工具,类似于monit,monit和supervisord的一个比较大的差异是supervisord管理的进程必须由superviso ...
.NetCore 分布式日志收集Exceptionless 在Windows下本地安装部署及应用实例
自己安装时候遇到很多问题,接下来把这些问题写出来希望对大家有所帮助搭建环境: 1.下载安装 java 8 SDK (不要安装最新的10.0) 并配置好环境变量(环境变量的配置就不做介绍了) 2.下载 ...
Linux平台oracle 11g单实例 + ASM存储安装部署快速参考
操作环境:Citrix虚拟化环境中申请一个Linux6.4主机(模板)目标:创建单机11g + ASM存储数据库 1. 主机准备 2. 创建ORACLE 用户和组成员 3. 创建以下目录并赋予对应权 ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
Linux平台Oracle 12.1.0.2 单实例安装部署
主题:Linux平台Oracle 12.1.0.2 单实例安装部署环境:RHEL 6.5 + Oracle 12.1.0.2 需求:安装部署OEM 13.2需要Oracle 12.1.0.2版本作为 ...
MySQL 5.7 多实例安装部署实例
1. 背景 MySQL数据库的集中化运维,可以通过在一台服务器上,部署运行多个MySQL服务进程,通过不同的socket监听不同的服务端口来提供各自的服务.各个实例之间是相互独立的,每个实例的dat ...
大数据技术之_13_Azkaban学习_Azkaban(阿兹卡班)介绍 + Azkaban 安装部署 + Azkaban 实战
一概述1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 各种调度工具特性对比1.4 Azkaban 与 Oozie 对比二 Azkaban(阿兹卡班) 介绍三 Azkaban 安装部 ...
【Hadoop离线基础总结】impala简单介绍及安装部署
目录 impala的简单介绍概述优点缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安 ...

随机推荐

RabbitMQ-从基础到实战（6）— 与Spring集成
0.目录 RabbitMQ-从基础到实战(1)- Hello RabbitMQ RabbitMQ-从基础到实战(2)- 防止消息丢失 RabbitMQ-从基础到实战(3)- 消息的交换(上) Rabb ...
关于 this对象指向问题
this 定义:this是包含它的函数作为方法被调用时所属的对象.(1,this所在的函数.2,此函数作为方法被调用.3,this等于调用此函数的对象) this 对象在运行时基于函数的执行环境绑定的 ...
3 安装Zookeeper
cnblogs-DOC 1.服务器环境 2.安装Redis3.安装Zookeeper4.安装MPush5.安装Alloc服务6.完整测试7.常见问题从官网直接下载Zookeeper最新版本(Zook ...
Elasticsearch实现类似 like '?%' 搜索
在做搜索的时候,下拉联想词的搜索肯定是最常见的一个场景,用户在输入的时候,要自动补全词干,说得简单点,就是以...开头搜索,如果是数据库,一句SQL就很容易实现,但在elasticsearch如何实现 ...
Java设计模式：代理模式（一）
问题的提出现在生活中,常常在微信朋友圈里面看到代购的信息,你想在国外买什么,香港买什么,但是又懒得自己过去,于是常常委托别人帮忙买奶粉买那啥的.这类问题的缘由是因为客户和原产地没有直接的接触,所以需 ...
keil5之32环境配置
终于配置好了!!又是经过一下午加晚上的奋战,终于把环境配置好了,多亏了我强大的资料整理能力(哈哈). 真是不容易啊,本来打算放弃的,去问问别人吧.但是想想,还是靠自己吧,靠谁都不如靠自己,真是的,慢慢 ...
java进制转换（无视正负数的差别）
最近看了一下学习资料,感觉进制转换其实还是挺有意思的,尤其是对于负数这一方面. 下面和大家分享一下,这里只写了十进制到二进制的转换,其实都是同样的道理 public class Test1 { pub ...
随机抽样一致算法（Random sample consensus，RANSAC）
作者:桂. 时间:2017-04-25 21:05:07 链接:http://www.cnblogs.com/xingshansi/p/6763668.html 前言仍然是昨天的问题,别人问到最小 ...
python自动化测试应用-第7篇（WEB测试）--Selenium进阶篇
篇7 python自动化测试应用-Selenium进阶篇 --lamecho 1.1概要大家好!我是lamecho(辣么丑),本篇文章将是我们介 ...
Java多线程中线程间的通信
一.使用while方式来实现线程之间的通信 package com.ietree.multithread.sync; import java.util.ArrayList; import java.u ...

SparkR安装部署及数据分析实例