使用scala开发spark入门总结
使用scala开发spark入门总结
一、spark简单介绍
关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍。推荐简单介绍连接:http://blog.jobbole.com/89446/
1、 spark是什么?
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。一般配合hadoop使用,可以增强hadoop的计算性能。
2、 Spark的优点有哪些?
Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
值得注意的是:spark是通过scala这一编程语言开发的。虽然spark的开发语言支持java和python,但是编写spark程序最好还是使用scala编写,一是代码简洁,二是函数式的易读性比较好,最重要的是scala能够帮助我们更好的理解spark的工作过程。
二、Scala和sbt简单介绍
Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。
Scala推荐学习网站:http://www.runoob.com/scala/scala-tutorial.html 如果喜欢看视频教程的话推荐慕课网的scala教程:http://www.imooc.com/learn/613
类似于开发Java程序使用maven管理项目,scala项目的管理工具是sbt。Sbt是Simple Build Tool的缩写,它是对scala或Java语言进行编译的一个工具,它需要JDK1.6或更高的版本支持。
三、安装scala和sbt
具体的安装网上有很多教程,都介绍的很清楚。下面是一些推荐的连接。
Scala官网链接:http://www.scala-lang.org/
Scala安装链接:http://www.runoob.com/scala/scala-install.html (与jdk的安装大同小异)
Sbt安装链接:http://www.importnew.com/4311.html 详细介绍了sbt的优点,项目目录结构,如何常见一个sbt工程等。
值得注意的是:
l sbt安装并不困难,但是安装完成之后再命令窗口第一次运行sbt命令的时候,sbt会默认下载需要用到的包,这个过程非常消耗时间,需要耐心等待,如果遇到一些包很大,很长时间都没有下载完成的话,可以手动下载这个包,并把包放到命令行显示的路径下面。
l sbt的本地仓库尽量修改,默认目录在C盘。
四、使用开发工具
Scala的IDE一般有两个:Scala IDE for Eclipse 和 IntelliJ Idea,对于习惯使用eclipse的用户可以使用scala ide for eclipse,下载链接:http://scala-ide.org/。两个IDE都比较好用。个人感觉,idea对于插件的安装以及win环境下命令窗口的支持要比eclipse好用一点,更推荐使用idea开发。
使用sbt:
真正写起程序和项目来,肯定要使用项目管理工具的。Sbt是编写scala项目的常用管理工具。
- Sbt项目构建
Sbt目前使用的人还不是很多,不能要求像maven那样方便。Sbt项目的结构目录为:
src目录详解
Maven用户对src目录的结构应该不会感到陌生,下面简单介绍各个子目录的作用。
- · src/main/java目录存放Java源代码文件
- · src/main/resources目录存放相应的资源文件
- · src/main/scala目录存放Scala源代码文件
- · src/test/java目录存放Java语言书写的测试代码文件
- · src/test/resources目录存放测试起见使用到的资源文件
- · src/test/scala目录存放scala语言书写的测试代码文件
build.sbt详解
读者可以简单的将build.sbt文件理解为Maven项目的pom.xml文件,它是build定义文件。 SBT运行使用两种形式的build定义文件,一种就是放在项目的根目录下,即build.sbt, 是一种简化形式的build定义; 另一种放在project目录下,采用纯Scala语言编写,形式更加复杂,当然,也更完备,更有表现力。
具体的使用可以参照网上的介绍
推荐链接:http://www.th7.cn/Program/java/201309/149445.shtml
- sbt项目生成
上面介绍的这些目录可以自己创建,然后导入到IDE中。生产相应IDE的工具有:
Sbt Eclipse 插件:
推荐链接:http://www.cnblogs.com/rxingyue/p/4398591.html
有2种配置方式:一种是在 ~/.sbt/0.13/plugins//build.sbt 里配置addPlugin,这种做法是全局的插件,即对本机所有sbt项目均使用。另一种是每个项目不一样的plugins,则是在每个项目跟目录下project/plugins.sbt里进行插件配置。 plugins.sbt里面内容配置,添加插件:addSbtPlugin("com.typesafe.sbteclipse" % "sbteclipse-plugin" % "2.4.0")
在根目录的build.sbt里添加EclipseKeys.createSrc := EclipseCreateSrc.Default + EclipseCreateSrc.Resource,再执行sbt eclipse。
这样就可以生成eclipse项目了,直接导入项目就可以使用了。
Sbt Idea 插件:
在项目目录下的project/plugins.sbt中添加插件
addSbtPlugin("com.github.mpeltonen" % "sbt-idea" % "1.6.0")
在命令行输入sbt ,会自动安装插件。
安装完插件之后,在命令行(项目根目录)输入sbt gen-idea可以帮我们生成IntelliJ Idea的相关文件。
以上两个插件还有一个重要作用就是可以帮我们导入build.sbt中用到的依赖,这样我们就可以在开发环境进行一些测试。
- sbt项目打包
使用assembly插件。参照博客:http://www.cnblogs.com/rxingyue/p/4398591.html
Assembly是作为一种插件的,所以要在project下面的plugins.sbt里面配置。
addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.11.2")
除了插件的配置之外,还需要配置跟目录下build.sbt,支持assembly,在文件头部加入:
import AssemblyKeys._
assemblySettings
五、一些坑及解决办法
1、 Sbt下载依赖慢
这是很正常的问题,毕竟默认的远程仓库都在国外。可以选择更改库,可以全局更改,也可以针对项目进行更改,在build.sbt里面配置内容:
resolvers ++= Seq(
// HTTPS is unavailable for Maven Central
"Maven Repository" at "http://repo2.maven.apache.org/maven2",
"Apache Repository" at "https://repository.apache.org/content/repositories/releases",
"MQTT Repository" at "https://repo.eclipse.org/content/repositories/paho-releases/",
"Cloudera Repository" at "http://repository.cloudera.com/artifactory/cloudera-repos/",
Resolver.mavenLocal
)
另外的办法:对于一些比较大的包,可以手动下载然后放到相应的目录。(一般把下载的地址给迅雷,下载会快很多,这种办法只针对个别情况)
2、 依赖的版本问题
互相依赖的包之间,可能出现版本的冲突,最好保持版本一致。
形如
libraryDependencies ++= Seq(
"org.json4s" %% "json4s-native" % "3.2.10",
"org.json4s" %% "json4s-jackson" % "3.2.10"
)
中间两个百分号的依赖是不指定版本的,版本有scala的版本确定。
形如
libraryDependencies += "org.apache.kafka" % "kafka_2.10" % "0.10.0.0"
中间有一个百分号的依赖是指定版本的。
3、 Sbt找不到依赖
找不到依赖,可以在引用的依赖后面写一下依赖的地址。例如:
libraryDependencies += "net.sf.json-lib" % "json-lib" % "2.4" from "http://repo1.maven.org/maven2/net/sf/json-lib/json-lib/2.4/json-lib-2.4-jdk15.jar"
六、Spark经典入门示例
1、 WordCount
2、 SparkStreaming读取kafka数据
这些程序都可以在官方网站查看得到。
使用scala开发spark入门总结的更多相关文章
- Spark&Hive:如何使用scala开发spark访问hive作业,如何使用yarn resourcemanager。
背景: 接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度: 解析规则譬如: 需要解析host: api.m ...
- Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用
前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
- Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境. 本文的目标是写一个Spark应用,并可以在集群中测试. ...
- Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
目标 配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运 ...
- 利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可 以阅读网络教程A Scala Tutorial for Ja ...
- Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用
前言 在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
- 机器学习的Spark与Scala开发简介
一.机器学习常用开发软件:Spark.Scala 1. Spark简介: MLlib包含的库文件有: 分类 降维 回归 聚类 推荐系统 自然语言处理 在线学习 统计学习方法:偏向理论性,数理统计的方 ...
- 通过IDEA搭建scala开发环境开发spark应用程序
一.idea社区版安装scala插件 因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安装scala插件,具体安装办法如下. 1.打开idea,点击c ...
- IDEA搭建scala开发环境开发spark应用程序
通过IDEA搭建scala开发环境开发spark应用程序 一.idea社区版安装scala插件 因为idea默认不支持scala开发环境,所以当需要使用idea搭建scala开发环境时,首先需要安 ...
随机推荐
- 右键添加 CMD 命令提示符
# 右键添加 CMD 命令提示符 当然是修改注册表 - 打开注册表编辑器(按下Win+R打开运行对话框,输入regedit),找到[HKEY_CLASSES_ROOT/Folder/shell] ...
- sqlite里执行查询提示未启用约束、主键冲突之——数据竟能超字段长度存储
数据表设计如图:szflbm为主键 数据表主键数据: 以上数据在查询时,执行到该语句adapter.Fill(table); 提示主键冲突. 解决: 1.尝试修改数据,把ZC1改成ZZ,正常.说明原因 ...
- 数据库整合数据报表SQL实战
协助同事整理sql统计报表. ---建立由avalue的视图,要过滤重复数据 CREATE VIEW vLectAnswerRecord as SELECT t2.OpenID,t2.Qguid,t1 ...
- hdu 5382 GCD?LCM!
先考虑化简f函数 发现,f函数可以写成一个递归式,化简后可以先递推求出所有f函数的值, 所以可以先求出所有S函数的值,对于询问,O(1)回答 代码: //File Name: hdu5382.cpp ...
- Ubuntu下,python输出中文
python教程里说,如果要输出非英语文本就加前缀u或U, 例如: print u"你好啊,祖国" print u"こんにちは.私はとてもいいです" 结果会报错 ...
- Bugtags奉命解救宝贵的双手,务必将此文章转给你身边的程序猿
移动应用 Bug 快速反馈神器 前段时间,有很多 APP 突然走红,最终却都是樱花一现.作为一个创业团队,突然爆红是非常难得的机会.但是很可惜,由于没有经过充分的测试,再加上用户的激增,APP 闪退. ...
- Java 技术文章摘录
sokcet 编程实例 android bundle类 Android -- Looper.prepare()和Looper.loop() —深入版 Java NIO系列教程 XML操作 Androi ...
- 个人JS零碎知识整理
1."DOM2级事件"规范要求的事件流包括三个阶段:事件捕获阶段.处于目标阶段.事件冒泡阶段 2.isNaN() 数字.空串.空格 返回false 变量是数字时返回fa ...
- XMPP 和 OpenFire
XMPP XMPP(可扩展消息处理现场协议)是基于可扩展标记语言(XML)的协议,它用于即时消息(IM)以及在线现场探测.是一种数据传输协议. XMPP的前身是Jabber,一个开源形式组织产生的网络 ...
- SQLSERVER分页查询
转:http://blog.csdn.net/qiaqia609/article/details/41445233 Sqlserver数据库分页查询一直是Sqlserver的短板, 第一种方案 ...