一、描述

在书中第二章，有一个例子，构建完之后，运行：

${SPARK_HOME}/bin/spark-submit --class com.oreilly.learningsparkexamples.mini.java.WordCount ./target/learning-spark-mini-example-0.0.1.jar ./README.md ./wordcouts

如果用的spark版本与书中用到的不一样的话，就会出现各种问题，譬如书中用的是1.2.0而我用的是最新的2.3.0。

二、问题及解决

1. 第一次编译的时候，出现类似下面的报错：

ERROR Executor: Exception in task 0.0 in stage 0.0 (TID 0)

java.lang.AbstractMethodError: com.oreilly.learningsparkexamples.mini.java.WordCount$1.call(Ljava/lang/Object;)Ljava/util/Iterator;

....

首先是解决版本依赖的问题：

（1）获得spark-core的版本和spark的版本，通过查看以下路径获得：

${SPARK_HOME}/jars/spark-core_x.xx-y.y.y.jar

（2）修改mini-complete-example目录下的pom.xml，把刚才查看到的版本号替换原来的：

<dependency> <!-- Spark dependency -->

    <groupId>org.apache.spark</groupId>

    <artifactId>spark-core_x.xx</artifactId>

    <version>y.y.y</version>

    <scope>provided</scope>

</dependency>

重新编译。

2. 第二次编译估计会遇到下面的报错：

Java FlatMapFunction in Spark: error: is not abstract and does not override abstract method call(String) in FlatMapFunction

......

定位到出错的句子：

JavaRDD<String> words = input.flatMap(

      new FlatMapFunction<String, String>() {

        public Iterable<String> call(String x) {

          return Arrays.asList(x.split(" "));

        }});

又查了一下书里关于FlatMapFunction<T, R>()接口的继承规则，没发现错误，转念一下，可能又是版本不一样造成的。查了一下最新版本的api，发现需要实现的方法的返回类型变了：

java.util.Iterator<R>    call(T t)

是一个Iterator<R>而不是Iterable<R>，对症下药：

（1）导入Iterator包：

import java.util.Iterator;

（2）把出错的句子修改成：

JavaRDD<String> words = input.flatMap(

      new FlatMapFunction<String, String>() {

        @Override public Iterator<String> call(String x) {

          return Arrays.asList(x.split(" ")).iterator();

        }});

重新编译，打包：

mvn compile && mvn package

然后再运行，问题解决

三、参考

1. Apache Spark: ERROR Executor –> Iterator

2. Java FlatMapFunction in Spark: error: is not abstract and does not override abstract method call(String) in FlatMapFunction

3. Spark Api

（完）

关于《Spark快速大数据分析》运行例子遇到的报错及解决的更多相关文章

[Java]Java 9运行Spring Boot项目报错的解决办法
简介为了学习和尽快掌握 Java 9 的模块化(Module System)新特性,最近安装了 JDK 9,新建了一个 Spring Boot 进行尝试, 过程中遇到了一下报错问题,写下此文谨作为个 ...
《Spark快速大数据分析》—— 第七章在集群上运行Spark
[spark 快速大数据分析读书笔记] 第一章导论
[序言] Spark 基于内存的基本类型 (primitive)为一些应用程序带来了 100 倍的性能提升.Spark 允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习. ...
Spark快速大数据分析之RDD基础
Spark 中的RDD 就是一个不可变的分布式对象集合.每个RDD 都被分为多个分区,这些分区运行在集群中的不同节点上.RDD 可以包含Python.Java.Scala中任意类型的对象,甚至可以包含 ...
[Spark快速大数据分析]阅读笔记
第2章 Spark分布式执行涉及的组件每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用Sp ...
《spark快速大数据分析》
第一概论 1.spark的特点适用多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理: spark提供了python,scale,java等接口 2.spark的组件 spark的 ...
《Spark快速大数据分析》—— 第五章数据读取和保存
由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式.如S3.HDFS.Cassandra.HBase,有了这些数据的组织形式,数据的来源和存储都可以多 ...
《Spark快速大数据分析》—— 第六章 Spark编程进阶
这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道...
spark快速大数据分析
从上层来看,每个Spark 应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作.驱动器程序包含应用的main 函数,并且定义了集群上的分布式数据集,还对这些分布式数据集应 ...

随机推荐

Java 实现 RSA 非对称加密
非对称加密算法:用两个密钥(公钥/私钥)对数据进行加密和解密. 一.原理非对称加密算法实现机密信息交换的基本过程是: 1)甲方生成一对密钥并将其中的一把作为公用密钥向其它方公开; 2)得到该公用密钥 ...
MesureDeviceWebServiceDAS
package com.accu.business.pms.webservice; import java.net.URL; import javax.xml.namespace.QName;impo ...
常见企业IT支撑【4、gitlab代码管理工具】
安装方式可借鉴http://www.cnblogs.com/juandx/p/5339254.html 安装方式
socket执行accept函数时没有进入阻塞状态，而是陷入了无限循环
接着前两天继续看<VC深入详解>的网络编程部分,这次我快速看了遍书上的函数以及套接字C-S模型,然后自己从0开始写了个简单的服务端,结果发现一直在输出而明明我还没有写客户端程序,由于打印 ...
SQL语句合并列值将一列的多个值合并成一行
效果: oralce写法: select WM_CONCAT(A.title) as citys from tmpcity A sql server写法: select stuff((select ' ...
java web 程序---刷新页面次数进一步
<%@ page language="java" import="java.util.*" pageEncoding="gb2312" ...
二、Spark在Windows下的环境搭建
由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spar ...
[Java][Web]Request 获取请求头和数据
获取方式一 InputStream in = request.getInputStream(); int len = 0; byte buffer[] = new byte[1024]; while( ...
阿里云经典网络下一键安装RouterOS-ROS系统
1.阿里云环境centos6.9 x64: 内网网卡为eth0 外网网卡为eth1 阿里云的linux下硬盘名称为/dev/vda 注意阿里云的安全组建议开放任意协议和端口,任意IP允许访问今天测试 ...
Hessian简要入门
原本系统之间通信采用Restful Web Service,但其中没有考虑安全性问题,因此决定使用稍微复杂点的二进制协议,Hessian服务. Hessian是一个轻量级的Remoting O ...

关于《Spark快速大数据分析》运行例子遇到的报错及解决

一、描述

二、问题及解决

三、参考

关于《Spark快速大数据分析》运行例子遇到的报错及解决的更多相关文章

随机推荐

热门专题