在sparkR在配置完成的基础上,本例采用Spark on yarn模式,介绍sparkR运行的一个例子。

在spark的安装目录下,/examples/src/main/r,有一个dataframe.R文件。该文件默认是在本地的模式下运行的,不与hdfs交互。可以将脚本进行相应修改,提交到yarn模式下。

在提交之前,要先将${SPARK_HOME}/examples/src/main/resources/people.json 文件上传到hdfs上,我上传到了hdfs://data-mining-cluster/data/bigdata_mining/sparkr/people.json 目录下。

  1. dataframe.R文件内容:
  1. # Convert local data frame to a SparkR DataFrame
  2. df <- createDataFrame(sqlContext, localDF)
  3. # Print its schema
  4. printSchema(df)
  5. # root
  6. #  |-- name: string (nullable = true)
  7. #  |-- age: double (nullable = true)
  8. # Create a DataFrame from a JSON file
  9. #path <- file.path("hdfs://data-mining-cluster/data/bigdata_mining/sparkr/people.json")
  10. path <- file.path("hdfs://data-mining-cluster/data/bigdata_mining/sparkr/people.json")
  11. peopleDF <- read.json(sqlContext, path)
  12. printSchema(peopleDF)
  13. # Register this DataFrame as a table.
  14. registerTempTable(peopleDF, "people")
  15. # SQL statements can be run by using the sql methods provided by sqlContext
  16. teenagers <- sql(sqlContext, "SELECT name FROM people WHERE age >= 13 AND age <= 19")
  17. # Call collect to get a local data.frame
  18. teenagersLocalDF <- collect(teenagers)
  19. # Print the teenagers in our dataset
  20. print(teenagersLocalDF)
  21. # Stop the SparkContext now
  22. sparkR.stop()

sparkR  --master yarn-client dataframe.R  这样就可以将任务提交到yarn上了。

另外,有些集群会报如下错误:

  1. 16/06/16 11:40:35 ERROR RBackendHandler: json on 15 failed
  2. Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) :
  3. java.lang.RuntimeException: Error in configuring object
  4. at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:109)
  5. at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:75)
  6. at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:133)
  7. at org.apache.spark.rdd.HadoopRDD.getInputFormat(HadoopRDD.scala:185)
  8. at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:198)
  9. at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
  10. at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
  11. at scala.Option.getOrElse(Option.scala:120)
  12. at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
  13. at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
  14. at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
  15. at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
  16. at scala.Option.getOrElse(Option.scala:120)
  17. at org.apache.spark.rdd.RDD.partitions(
  18. Calls: read.json -> callJMethod -> invokeJava

这种情况一般是由于启用了lzo压缩导致的。可以通过--jars  添加lzo的jar包,就可以了。例如:sparkR  --master yarn-client dataframe.R --jars /usr/local/Hadoop/share/hadoop/common/hadoop-lzo-0.4.20-SNAPSHOT.jar

sparkR的一个运行的例子的更多相关文章

  1. [Linux][Hadoop] 运行WordCount例子

    紧接上篇,完成Hadoop的安装并跑起来之后,是该运行相关例子的时候了,而最简单最直接的例子就是HelloWorld式的WordCount例子.   参照博客进行运行:http://xiejiangl ...

  2. Spring-Context之一:一个简单的例子

    很久之前就想系统的学习和掌握Spring框架,但是拖了很久都没有行动.现在趁着在外出差杂事不多,就花时间来由浅入深的研究下Spring框架.Spring框架这几年来已经发展成为一个巨无霸产品.从最初的 ...

  3. 一个UWSGI的例子

    摘要:uwsgi执行顺序:启动master进程,执行python脚本的公共代码(import同一层).然后生成worker进程,uwsgi.post_fork_hook=init_functions, ...

  4. 扩展Python模块系列(二)----一个简单的例子

    本节使用一个简单的例子引出Python C/C++ API的详细使用方法.针对的是CPython的解释器. 目标:创建一个Python内建模块test,提供一个功能函数distance, 计算空间中两 ...

  5. fitnesse - 一个简单的例子(slim)

    fitnesse - 一个简单的例子(slim) 2017-09-30 目录1 编写测试代码(Fixture code)2 编写wiki page并运行  2.1 新建wikiPage  2.2 运行 ...

  6. Struts2的配置和一个简单的例子

    Struts2的配置和一个简单的例子 笔记仓库:https://github.com/nnngu/LearningNotes 简介 这篇文章主要讲如何在 IntelliJ IDEA 中使用 Strut ...

  7. 跨站脚本功攻击,xss,一个简单的例子让你知道什么是xss攻击

    跨站脚本功攻击,xss,一个简单的例子让你知道什么是xss攻击 一.总结 一句话总结:比如用户留言功能,用户留言中写的是网页可执行代码,例如js代码,然后这段代码在可看到这段留言的不同一户的显示上就会 ...

  8. 从一个简单的例子谈谈package与import机制

    转,原文:http://annie09.iteye.com/blog/469997 http://blog.csdn.net/gdsy/article/details/398072 这两篇我也不知道到 ...

  9. OpenCV学习(2)——一个简单的例子

    光说不练假把式,来看一个简单的例子,了解了解OpenCV.这个小demo没有几行代码,作用是显示项目目录下面的一张图片. #include <opencv2\opencv.hpp> #in ...

随机推荐

  1. MySQL与Oracle的区别之我见

    1. 大的方面(宏观) Oracle为商用数据库,行业中占据相当的地位:市场占比2012年为40%.开发.管理资源相当丰富,有自己的metalink,我也曾用过,有什么问题,都能在那里得到较快速度的解 ...

  2. Git--团队开发必备神器

    花了两天时间专门搞了一下git.整理一下分享给大家.以下我们開始.. . 转载请注明出处: http://blog.csdn.net/Hello_Chillax/article/details/474 ...

  3. Linux重启命令与如何重启网络?

    分享下Linux重启命令的用法,linux如何重启网络的方法? 第一部分,有关Linux重启命令的用法 1.shutdown2.poweroff3.init4.reboot5.halt *---具体说 ...

  4. Java 技术新手入门

    对于想学习Java的朋友 请参考IBM旗下站点:http://www.ibm.com/developerworks/cn/java/newto/index.html 我看了下对于新手有很好的指导,并且 ...

  5. 【Unity】11.7 布料

    分类:Unity.C#.VS2015 创建日期:2016-05-02 一.简介 Unity提供了两种布料组件:交互布料(Interactive Cloth).蒙皮布料(Skinned Cloth).为 ...

  6. yum rpm 命令一运行就卡住 只有kill 掉

    由于rpm的数据库出现异常导至直接卡死,造成这种异常是因为之前不正常的安装或查询. 解决方法: # rm -f /var/lib/rpm/__db.00* #删除rpm数据文件 # rpm --reb ...

  7. 2-7-集合运算(A-B)∪(B-A)-线性表-第2章-《数据结构》课本源码-严蔚敏吴伟民版

    课本源码部分 第2章  线性表 - 集合运算(A-B)∪(B-A) ——<数据结构>-严蔚敏.吴伟民版        ★有疑问先阅读★ 源码使用说明  链接☛☛☛ <数据结构-C语言 ...

  8. 新书《深入应用C++11:代码优化与工程级应用》出版,感谢支持

    经过一年的编写,这本书终于和大家见面了, 已经由机械工业出版社出版,希望本书能给学习C++尤其是C++11的朋友们更多的帮助. 关于C++11 在StackOverflow的最近一次世界性调查中,C+ ...

  9. C++11 类型推导auto

    在C++11之前,auto关键字用来指定存储期.在新标准中,它的功能变为类型推断.auto现在成了一个类型的占位符,通知编译器去根据初始化代码推断所声明变量的真实类型.使用auto会拖慢c++效率吗? ...

  10. ubuntu 查看软件安装目录以及安装版本

    1.aptitude show 软件名 例如:aptitude show kde-runtime ****@ubuntu:~$ aptitude show kde-runtime 软件包: kde-r ...