Spark第一个应用程序

首先要对源码进行编译，生成对应hadoop版本的spark开发程序jar包，上篇已经写了具体的过程，这里不再赘述。

在安装spark的机器上，下载eclipse-java-x86_64版本，将spark-assembly.jar和spark/lib下全部加进路径，建立普通java project

WordCount代码

package sparktest.util.test;

import java.util.Arrays;

import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

public final class JavaWordCount {

  private static final Pattern SPACE = Pattern.compile(" ");

  public static void main(String[] args) throws Exception {

    if (args.length < 2) {

      System.err.println("Usage: JavaWordCount <master> <file>");

      System.exit(1);

    }

    JavaSparkContext ctx = new JavaSparkContext(args[0], "JavaWordCount",

        System.getenv("SPARK_HOME"), JavaSparkContext.jarOfClass(JavaWordCount.class));

    ctx.addJar("/opt/eclipse/JavaSparkT.jar");

    JavaRDD<String> lines = ctx.textFile(args[1], 1);

    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

      @Override

      public Iterable<String> call(String s) {

        return Arrays.asList(SPACE.split(s));

      }

    });

    JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

      @Override

      public Tuple2<String, Integer> call(String s) {

        return new Tuple2<String, Integer>(s, 1);

      }

    });

    JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

      @Override

      public Integer call(Integer i1, Integer i2) {

        return i1 + i2;

      }

    });

    counts.saveAsTextFile(args[2]);

//    counts.s

    /*List<Tuple2<String, Integer>> output = counts.collect();

    for (Tuple2<?,?> tuple : output) {

      System.out.println(tuple._1() + ": " + tuple._2());

    }*/

    System.exit(0);

  }

}

输入的三个参数：

spark://master:7077 /usr/local/hadoop/hadoop-2.4.0/test.txt /usr/local/hadoop/hadoop-2.4.0/result.txt

分别spark入口本地输入文件本地输出文件

输出：

[root@localhost result.txt]# cat part-00000

(xing,2)

(xiao,1)

(ya,2)

(shi,1)

(,2)

(wo,1)

(yi,4)

(zhi,1)

注意： ctx.addJar("/opt/eclipse/JavaSparkT.jar"); 这一句很关键，要不然会报错

问题：

14/07/07 10:26:11 WARN TaskSetManager: Lost TID 0 (task 1.0:0)
14/07/07 10:26:11 WARN TaskSetManager: Loss was due to java.lang.ClassNotFoundException
java.lang.ClassNotFoundException: JavaWordCount$1
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)

解决办法：

spark在运行的时候需要将类分发到各个节点上去，然后在各个节点调用这个类去完成任务，在java程序里边需要将这个类本身提交到各个节点上去

可以通过java普通的方法调用的方式实现或者在eclipse里边通过右键run as java application的方式运行。不过需要在程序中用addJar（）方法或者在初始化SparkContext的时候将本身的WordCount 的Jar包增加进去。

Spark类型：

Supported types for Avro -> SparkSQL conversion

avro types to SparkSQL types:

boolean -> BooleanType

int -> IntegerType

long -> LongType

float -> FloatType

double -> DoubleType

bytes -> BinaryType

string -> StringType

record -> StructType

enum -> StringType

array -> ArrayType

map -> MapType

fixed -> BinaryType

Spark Load/Save 方式

　1.3.0统一了load/save API，让用户按需自由选择外部数据源。这套API包括：

　　1.SQLContext.table

　　从SQL表中加载DataFrame。

　　2.SQLContext.load

　　从指定的外部数据源加载DataFrame。

　　3.SQLContext.createExternalTable

　　将指定位置的数据保存为外部SQL表，元信息存入Hive metastore，并返回包含相应数据的DataFrame。

　　4.DataFrame.save

　　将DataFrame写入指定的外部数据源。

　　5.DataFrame.saveAsTable

　　将DataFrame保存为SQL表，元信息存入Hive metastore，同时将数据写入指定位置。

Spark与Hive的兼容特性

与hive兼容

sparkSQL可以与hive metastore，serdes和UDF兼容。sparkSQL thrift jdbc服务能够与当前已经安装的hive进行兼容，不需要修改已存在的hive metastore或者改变数据存放目录。

支持的hive特性

sparkSQL支持很多hive特性，如：
hive 查询语句：select，group by，order by，cluster by，sort by
所有hive操作：关系型操作（=, ⇔, ==, <>, <, >, >=, <=等），算术操作（+, -, *, /, %等），裸机操作（AND, &&, OR, ||等），复杂类型构造，数学函数（sign, ln, cos等），字符串函数（instr, length, printf等）
用户定义函数（UDF）
用户定义聚合函数（UDAF）
用户定义序列化格式（serdes）
join：join，{left|right|full} outer join，left semi join，cross join
联合查询
子查询：select col from(select a+b as col from t1)t2
取样操作
解释操作
表分割
所有的hive DDL函数：create table，create table as select，alter table
大部分的hive数据类型：TINYINT，SMALLINT，INT，BIGINT，BOOLEAN，FLOAT，DOUBLE，STRING，BINARY，TIMESTAMP，ARRAY<>，MAP<>，STRUCT<>

不支持的hive功能

主要的hive特性
sparkSQL目前不支持使用动态分片向表插入数据
sparkSQL不支持带有桶的表，桶是hive表分片的hash分片方式

深奥的hive特性
hive中带有分片的表使用不同的输入格式，在sparkSQL中，所有的表分片使用相同的输入格式
hive支持在join操作使用non-equi的条件（如key<10），在sparkSQL中如果使用这种方式会输出错误的结果
UNION和DATE类型
唯一join
单查询多插入
sparkSQL不支持piggyback浏览来收集列统计，只支持操作hive metastore中的sizeInBytes字段

hive输入输出格式
sparkSQL只支持TextOutputFormat
hadoop归档文件

hive优化

很多的hive优化目前都不能用户sparkSQL，其中一些（如索引）对于sparkSQL不是很重要的，因为sparkSQL是内存计算模型，其他的一些会在未来的sparkSQL版本中得到支持：
块级别的bitmap索引和虚拟字段（用来建立索引）
自动将join转换为map join：在大表与很多小表进行join时，hive会自动将join转换为map join，下个版本的sparkSQL会得到支持
自动决定join和groupby时reducer的数量，目前，sparkSQL需要使用SET spark.sql.shuffle.partitions=[num_tasks];来控制并行度
只查询元数据：hive在查询时可以只查询元数据，sparkSQL需要部署任务来计算结果
sparkSQL不支持hive中的skew data flag
sparkSQL不支持hive的STREAMTABLE
合并多个小文件作为查询结果：如果查询结果包括很多的小文件，hive可以合并这些小文件为大文件避免HDFS元数据容量溢出。sparkSQL暂时不支持该特性

Spark第一个应用程序的更多相关文章

TODO：即将开发的第一个小程序
TODO:即将开发的第一个小程序微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验.个人理解小程序是寄宿在微信平台上的一个前端框架,具有跨平台功能, ...
ASP.NET MVC 5 03 - 安装MVC5并创建第一个应用程序
不知不觉又逢年底, 穷的钞票所剩无几. 朋友圈里各种装逼, 抹抹眼泪 MVC 继续走起.. 本系列纯属学习笔记,如果哪里有错误或遗漏的地方,希望大家高调指出,当然,我肯定不会低调改正的.(开个小 ...
Unity Shaders 第一个默认程序分析
Unity Shaders 第一个默认程序 Shader "Custom/Shader" { Properties { _MainTex ("Base (RGB)&quo ...
Maven的第一个小程序
这里是介绍关于maven的第一个小程序关于maven的安装 : Install Maven in your computer 先看看目录结构: 这是本来的项目目录结构,由于maven有自己的目录结构 ...
Xamarin iOS编写第一个应用程序创建工程
Xamarin iOS编写第一个应用程序创建工程在Xcode以及Xamarin安装好后,就可以在Xamarin Studio中编写程序了.本节将主要讲解在Xamarin Studio中如何进行工程的 ...
创建ArcGIS API for JavaScript的第一个示例程序
原文:创建ArcGIS API for JavaScript的第一个示例程序在上一篇博客中已经介绍了如何搭建ArcGIS API for JavaScript开发环境,如果您还没有搭建好开发环境的话 ...
Linux学习笔记20——第一个多线程程序
一什么是线程线程:是一个进程内部的一个控制序列. 二使用POSIX的注意点 1 为了使用线程函数库,必须定义宏_REENTRANT,通过定义_REENTRANT来告诉编译器我们需要可重入功能,可 ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
跟Google学习Android开发-起始篇-构建你的第一个应用程序（4）
说明:此系列教程翻译自Google Android开发者官网的Training教程,利用Chome浏览器的自动翻译功能作初译,然后在一些语句不顺或容易造成误解的地方作局部修正.方便英文不好的开发者查看 ...

随机推荐

hibernate 常用主键生成策略与配置
<id name="id" column="id"> <generator class="assigned" /> ...
android adapter 中添加OnClickListener事件
public class SearchAutoAdapter extends BaseAdapter { private OnClickListener mOnClickListener; publi ...
CSS——元素分类
1.标签元素被分为三大类:块状元素.内联元素和内联块元素. (1)常见块状元素有:<div>.<p>.<h1>...<h6>.<ol>.&l ...
Effective Java 之-----返回零长度的数组或集合而不是null
如下代码,通常用户列表为空时,会习惯性返回null,因为这时会认为:null返回值比零长度数组更好,因为它避免了分配数组所需要的开销. private final List<UserBean&g ...
sap中Excel的模版上传和下载
一:事物码smw0 二:上传步骤注:"包"为项目的包的名称. 三:下载代码 l_filename = 'XX.xls'. l_muban = 'z123'. *&---下 ...
修改Java程序的进程名
1.修改tomcat进程名字: 当同一个服务器上启动多个tomcat后,我们会在任务管理器中看见多个java.exe,当我们需要对某个tomcat进行监控时,却无法区分出该tomcat的进程,那么如何 ...
POJ Building roads [二分答案 2SAT]
睡觉啦 #include <iostream> #include <cstdio> #include <cstring> #include <algorith ...
BZOJ 1176: [Balkan2007]Mokia [CDQ分治]
题意: 有一个n * n的棋盘,每个格子内有一个数,初始的时候全部为0．现在要求维护两种操作: 1)Add:将格子(x, y)内的数加上A． 2)Query:询问矩阵(x0, y0, x1, y1)内 ...
flex 布局 input 宽度不自适应
flex 布局 input 宽度不自适应解决方法: 给 input 加上min-height 解决!
从Vue.js源码角度再看数据绑定
写在前面因为对Vue.js很感兴趣,而且平时工作的技术栈也是Vue.js,这几个月花了些时间研究学习了一下Vue.js源码,并做了总结与输出.文章的原地址:https://github.com/an ...

Spark第一个应用程序

与hive兼容

支持的hive特性

不支持的hive功能

主要的hive特性

深奥的hive特性

hive输入输出格式

hive优化

Spark第一个应用程序的更多相关文章

随机推荐

热门专题