spark program guide

概述

Spark 应用由driver program 组成，driver program运行用户的主函数，在集群内并行执行各种操作

主要抽象RDD：　

　　spark提供RDD，是贯穿整个集群中所有节点的分区元素的集合，能够被并行操作。

RDDS来源：

　　１．Hadoop文件系统或支持Hadoop的文件系统中操作一个文件

　　２．driver program中已存在的scala集合

３．从另一个RDD转换得到

主要抽象shared variables共享变量：

　　共享变量也可以被并行操作

　　默认的，当spark将一个运行的函数作为在不同的节点上的一系列的tasks集合时，共享变量传输函数用到的所有变量。

　　变量分享的范围：tasks内／tasks之间和整个driver program

　　spark支持两种类型的共享变量：

　　　　　broadcast变量：被用来在所有节点的内存缓存值

　　　　　accumulators(蓄能器)：which are variables that are only “added” to, such as 　　　　

　　　　　　　　　　　　　　　　counters and sums.

初始化spark

spark程序做的第一件事情就是：创建一个SparkContext对象（告诉spark怎么连接到集群）

为了创建SparkContext，需要先build一个SparkConf对象（包含应用相关的信息）

注意：一个ＪＶＭ中只能有一个SparkContext处于aitve，想创建新的必须先停止旧的

　　　　　　　val conf =newSparkConf().setAppName(appName).setMaster(master)

　　　　　　　newSparkContext(conf)

appName用来指定你的应用的名字，展示在集群UI中

master是Spark，Mesos，YARN cluster URL　或　一个指定的”local”字符串以本地模式运行

实际在集群中运行时，不需要在程序中指定这些，而是用spark-submit。

当然，对于本地测试和单元测试，能在spark运行中通过程序设置”local”

并行化集合

在driver program中，存在sc后，可利用SparkContext的paralleliz方法创建Parallelized集合，集合内的元素被复制去形成一个分布式的数据集（能被并行操作的）。如下创建并行化的集合(包括１-５)

　　　　　　　　　　　　　val

data =Array(1,2,3,4,5)

　　　　　　　　　　　　　val

distData =

sc.parallelize(data)

并行化集合的一个重要的参数是：将数据集切分成分区的个数。spark将为集群中每一个分区运行一个task。通常，集群中每一个CPU会有２-４个分区。正常情况下，分区数是由spark根据集群情况自动设置的。当然也可以重载parallelize()手动设置。如：sc.parallelize(data, 10)

外部数据集

Text fileRDDS能通过SparkContext的textFile方法创建。

该方法通过URL得到file (本地path 或hdfs://或s3n://等等 )，最终得到行的集合

例如：

scala>val

distFile =

sc.textFile("data.txt")

distFile:RDD[String]=MappedRDD@1d4cee08

一旦创建，distFile文件集能像数据集操作一样来操作

For
example, we can add up the sizes of all the lines using
the map and reduceoperations
as follows: distFile.map(s => s.length).reduce((a, b) => a + b).

spark读文件注意事项：

　　　１．如果用本地系统path，那么在worker节点的相同path下file也能被读取

　　　　　实现方法：拷贝file到worker或用网络挂载的方式共享文件系统

　　　２．spark基于文件的输入方法，包括：

textFile,
support running on directories, compressed files, and wildcards as
well

　３．textFile方法可以设置分区的个数。

　　　　　默认的，spark为每一个文件分块(HDFS默认有64M和128M)创建一个分区

　　　　　可以手动设置分区数，但是分区数不能少于文件分块数

apart from text files, Spark’s Scala API also supports several other data formats:

SparkContext.wholeTextFiles lets you read a directory containing multiple small text files, and returns each of them as (filename, content) pairs. This is in contrast with textFile, which would return one record per line in each file.
For SequenceFiles, use SparkContext’s sequenceFile[K, V] method where K and V are the types of key and values in the file. These should be subclasses of Hadoop’s Writable interface, like IntWritable and Text. In addition, Spark allows you to specify native types for a few common Writables; for example, sequenceFile[Int, String] will automatically read IntWritables and Texts.
For other Hadoop InputFormats, you can use the SparkContext.hadoopRDD method, which takes an arbitrary JobConf and input format class, key class and value class. Set these the same way you would for a Hadoop job with your input source. You can also useSparkContext.newAPIHadoopRDD for InputFormats based on the “new” MapReduce API (org.apache.hadoop.mapreduce).
RDD.saveAsObjectFile and SparkContext.objectFile support saving an RDD in a simple format consisting of serialized Java objects. While this is not as efficient as specialized formats like Avro, it offers an easy way to save any RDD.

spark program guide的更多相关文章

Flink Program Guide （10） -- Savepoints （DataStream API编程指导 -- For Java）
Savepoint 本文翻译自文档Streaming Guide / Savepoints ------------------------------------------------------ ...
Flink Program Guide （8） -- Working with State :Fault Tolerance（DataStream API编程指导 -- For Java）
Working with State 本文翻译自Streaming Guide/ Fault Tolerance / Working with State ---------------------- ...
Flink Program Guide （2） -- 综述（DataStream API编程指导 -- For Java）
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
Flink Program Guide （1） -- 基本API概念（Basic API Concepts -- For Java）
false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-n ...
Flink Program Guide （9） -- StateBackend : Fault Tolerance（Basic API Concepts -- For Java）
State Backends 本文翻译自文档Streaming Guide / Fault Tolerance / StateBackend ----------------------------- ...
Flink Program Guide （6） -- 窗口（DataStream API编程指导 -- For Java）
窗口(Window) 本文翻译自文档Windows ----------------------------------- Flink使用窗口的概念,根据element的时间戳或者其他指标,将可能无限 ...
Spark Programming Guide《翻译》
转载必须注明出处:梁杰帆在这里要先感谢原作者们!如果各位在这里发现了错误之处,请大家提出 1.Initializing Spark Spark程序必须做的第一件事就是创建一个SparkCon ...
Flink Program Guide （7） -- 容错 Fault Tolerance（DataStream API编程指导 -- For Java）
false false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-n ...
Flink Program Guide （5） -- 预定义的Timestamp Extractor / Watermark Emitter （DataStream API编程指导 -- For Java）
本文翻译自Pre-defined Timestamp Extractors / Watermark Emitter ------------------------------------------ ...

随机推荐

[转]Angular引入第三方库
本文转自: https://blog.csdn.net/yuzhiqiang_1993/article/details/71215232 版权声明:本文为博主原创文章,转载请注明地址.如果文中有什么纰 ...
petapoco 实体中字段去掉关联（类似于EF中的NotMap）
怎么才能让不是数据库表中的字段放在实体中而不影响正常的插入和更新呢? 找到 PetaPoco.cs 文件,打开之后,搜索插入方法(Insert),然后继续找到下一层方法就能看到如下代码: 看到这个注 ...
【Java每日一题】20170327
20170324问题解析请点击今日问题下方的“[Java每日一题]20170327”查看(问题解析在公众号首发,公众号ID:weknow619) package Mar2017; public cla ...
MyBatis：Pagehelper分页
对于分页插件这里选择查询所有用户的信息,以列表返回前端只需输入分页数的数据既可 service实现类也很方便,甚至我都开始有点喜欢上这种Example的SQL形式了. 最后页面调用url的json信 ...
微信wx.request
官方 wx.request 代码,Post 没成功过,使用Get 方式成功了. wx.request({ url: 'test.php', //仅为示例,并非真实的接口地址 data: { x: '' ...
es6 语法（iterator和for...of循环）
Iterator遍历器遍历器(Iterator)就是这样一种机制.它是一种接口,为各种不同的数据结构提供统一的访问机制.任何数据结构只要部署Iterator接口,就可以完成遍历操作(即依次处理该数据 ...
MySql: Year, Quarter, Month, Day, Hour statistics
-- 统计 select count(*) as '当天记录数' from web_product where date(p_createtime) = curdate(); select count ...
win7下利用ftp实现华为路由器的配置文件上传和下载
win7下利用ftp实现华为路由器的配置文件上传和下载 1. Win7下ftp的安装和配置 (1)开始—>控制面板—>程序—>程序和功能—>打开或关闭Windows功能 (2 ...
Linux 新磁盘分区与挂载
1.查看未分区的盘 2.新建分区 3.格式化分区(/dev/sdb1) 4.查看磁盘uuid [root@web-node1 ~]# blkid /dev/vdb1 /dev/vdb1 ...
JVM调优（二）经验参数设置
调优设置具体解析堆大小设置 JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制:系统的可用虚拟内存限制:系统的可用物理内存限制.32位系统下,一般限制在1.5 ...

spark program guide

spark program guide的更多相关文章

随机推荐

热门专题