SparkR 读取数据& Spark运行的配置

1.本地LOCAL环境安装Spark并试运行配置(在Ubuntu系统下例子)

# 打开文件配置环境变量: JAVA,SCALA,SPARK,HADOOP,SBT

gedit /etc/profile

# 在文件中加入以下行

export JAVA_HOME=/usr/java/jdk1.8.0_51

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export SCALA_HOME=/usr/scala/scala-2.11.7

export PATH=$SCALA_HOME/bin:$PATH

export SPARK_HOME=/usr/spark/spark-1.4.1-bin-without-hadoop

export PATH=$SPARK_HOME/bin:$PATH

export SBT_HOME=/usr/scala/sbt

export PATH=$SBT_HOME/bin:$PATH

export HADOOP_HOME=/usr/hadoop/hadoop-2.7.0

export PATH=$HADOOP_HOME/bin:$PATH

export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

# 更新系统文件

source /etc/profile

修改 Spark的配置文件 Spark-env.sh，将Spark-env.sh.template 文件修改名称并添加以下环境变量和类变量

export SCALA_HOME=/usr/scala/scala-2.11.7

export JAVA_HOME=/usr/java/jdk1.8.0_51

export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.0/etc/hadoop

export SPARK_LOCAL_IP=localhost

export SPARK_PUBLIC_DNS=localhost

export SPARK_CLASSPATH=${HADOOP_HOME}/share/hadoop/common/hadoop-common-2.7.0.jar:${HADOOP_HOME}/share/hadoop/common/hadoop-nfs-2.7.0.jar

export SPARK_CLASSPATH=${SPARK_CLASSPATH}:${HADOOP_HOME}/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar:${HADOOP_HOME}/share/hadoop/common/lib/slf4j

-api-1.7.10.jar:${HADOOP_HOME}/share/hadoop/common/lib/log4j-1.2.17.jar:${HADOOP_HOME}/share/hadoop/common/lib/commons-configuration-1.6.jar:${HADOOP_HOME}/share/hadoop/common/lib/commons-collections-3.2.1.jar:${HADOOP_HOME}/share/hadoop/common/lib/guava-11.0.2.jar:${HADOOP_HOME}/share/hadoop/common/lib/commons-lang-2.6.jar:${HADOOP_HOME}/share/hadoop/common/lib/hadoop-auth-2.7.0.jar:${HADOOP_HOME}/share/hadoop/common/lib/jetty-6.1.26.jar

export SPARK_CLASSPATH=${SPARK_CLASSPATH}:${HADOOP_HOME}/share/hadoop/common/lib/jersey-server-1.9.jar:${HADOOP_HOME}/share/hadoop/common/lib/jersey-core-1.9.jar:${HADOOP_HOME}/share/hadoop/common/lib/jersey-json-1.9.jar:${HADOOP_HOME}/share/hadoop/common/lib/snappy-java-1.0.4.1.jar

export SPARK_CLASSPATH=${SPARK_CLASSPATH}:${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.7.0.jar

export SPARK_CLASSPATH=${SPARK_CLASSPATH}:${SPARK_HOME}/lib/spark-assembly-1.4.1-hadoop2.2.0.jar:${SPARK_HOME}/lib/spark-1.4.1-yarn-shuffle.jar:${SPARK_HOME}/lib/spark-examples-1.4.1-hadoop2.2.0.jar

当执行./bin/spark-shell 命令行后，出现以下界面代表本地模式成功启动了Spark

2.R执行Spark命令处理文件

library(SparkR)

# 新建一个SparkContent

sc <- sparkR.init(master="local")

SparkR 读取数据& Spark运行的配置的更多相关文章

Logstash : 从 SQL Server 读取数据
有些既存的项目把一部分日志信息写入到数据库中了,或者是由于其它的原因我们希望把关系型数据库中的信息读取到 elasticsearch 中.这种情况可以使用 logstash 的 jdbc input ...
jmeter参数化读取数据进行多次运行
jmeter参数化数据,可以使用csv,还可以使用数据库的方式 1.使用csv读取数据在线程组中,配置原件中,选择csv data set config 1.本地创建了16个数据,存为test.tx ...
Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN
SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data fr ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
《大数据Spark企业级实战》
基本信息作者: Spark亚太研究院王家林丛书名:决胜大数据时代Spark全系列书籍出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:20 ...
【转载】Spark运行架构
1. Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个 ...
大数据 --> Spark与Hadoop对比
Spark与Hadoop对比什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法 ...
Spark运行架构
http://blog.csdn.net/pipisorry/article/details/52366288 1. Spark运行架构 1.1 术语定义 lApplication:Spark App ...
大数据Spark+Kafka实时数据分析案例
本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现, ...

随机推荐

51nod 1012 最小公倍数LCM
输入2个正整数A,B,求A与B的最小公倍数. 收起输入 2个数A,B,中间用空格隔开.(1<= A,B <= 10^9) 输出输出A与B的最小公倍数. 输入样例 30 105 输出 ...
CH1801 括号画家（栈模拟）
描述 Candela是一名漫画家,她有一个奇特的爱好,就是在纸上画括号.这一天,刚刚起床的Candela画了一排括号序列,其中包含小括号( ).中括号[ ]和大括号{ },总长度为N.这排随意绘制的括 ...
FastAdmin 2018-05-26 更新时更新了 SQL 文件关于 ROW_FORMAT=DYNAMIC 改为 ROW_FORMAT=COMPACT 问题
FastAdmin 2018-05-26 更新时更新了 SQL 文件关于 ROW_FORMAT=DYNAMIC 改为 ROW_FORMAT=COMPACT 问题观查到 FastAdmin 在 20 ...
异常：org.springframework.http.converter.HttpMessageNotReadableException
spring(springboot.springmvc)出现标题的异常一般是由于controller的入参失败引起的. 介绍下常规入参的两种格式: ,这种方式的入参主要是接受key-value的参数, ...
iPhone之IOS5内存管理(ARC技术概述)
ARC(Automatic Reference Counting )技术概述此文章由Tom翻译,首发于csdn的blog,任何人都可以转发,但是请保留原始链接和翻译者得名字.多谢! Automati ...
Java-Maven-Runoob：Maven环境配置
ylbtech-Java-Maven-Runoob:Maven环境配置 1.返回顶部 1. Maven 环境配置 Maven 是一个基于 Java 的工具,所以要做的第一件事情就是安装 JDK. 如果 ...
angular 三大核心函数
1.$watch angular监听由于angular一直在实时监听,所以比react和vue效率要低 $scope.$watch('aModel', function(newValue, o ...
转：oracle常见重要视图-v$sql，v$sql_plan，v$sqltext，v$sqlarea，v$sql_plan_statistcs
v$sql V$SQL中存储具体的SQL语句. 一条语句可以映射多个cursor,因为对象所指的cursor可以有不同用户(如例1).如果有多个cursor(子游标)存在,在V$SQLAREA为所有c ...
node.js中的buffer.fill
buffer.fill(value, [offset], [end]) 接收参数: value 将要填充的数据 offet 填充数据的开始位置,不指定默认为 0 ...
springboot成神之——swagger文档自动生成工具
本文讲解如何在spring-boot中使用swagger文档自动生成工具目录结构说明依赖 SwaggerConfig 开启api界面 JSR 303注释信息 Swagger核心注释 User T ...

SparkR 读取数据& Spark运行的配置

SparkR 读取数据& Spark运行的配置的更多相关文章

随机推荐

热门专题