1、 环境配置

a)  java环境配置:

JDK版本为1.7,64位;

环境变量配置如下:

JAVA_HOME为JDK安装路径,例如D:\software\workSoftware\JAVA

在path中添加“%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;”

在CLASSPATH中添加“.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;”

b)  scala环境配置

scala版本为2.10,因为Spark 1.6.0用的是这个版本;

SCALA_HOME为scala安装路径,例如D:\software\workSoftware\Scala

在path中添加“%scala_Home%\bin;%scala_Home%\jre\bin;”

在CLASSPATH中添加“.;%scala_Home%\bin;%scala_Home%\lib\dt.jar;%scala_Home%\lib\tools.jar.;”

c)   Hadoop下载和配置

Hadoop版本为2.6.0 or upper,我的是2.6.3

下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz

下载后解压

另下载一个:winutils.exe,这个百度既有;

下载后,把winutils.exe放在bin目录下;

配置 HADOOP_HOME,为解压地址,例如:“D:\software\workSoftware\hadoop-2.6.3”

在path中添加““%HADOOP_HOME\bin%;”

d)  Spark下载和配置

下载页面:http://spark.apache.org/downloads.html

Spark release选择1.6.0

package type是:Pre-built for Hadoop 2.6 and later

我选择的mirror地址:http://apache.fayea.com/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz

下载后解压

e)  Scala IDE

然后,如果你有Scala编辑器的话,就可以愉快的去玩耍;我使用的是IntelliJ IDEA 15.0,自行安装一个scala的插件。

2、 第一个Spark程序

a)  新建一个scala的项目,添加Spark目录下\lib\ spark-assembly-1.6.0-hadoop2.6.0.jar到项目依赖的jar包;

b)  在src文件夹下新建一个scala script文件,测试你的第一个Spark程序吧

 package com.iclick
/**
* Created by Shawn_Liu on 2016/3/4.
*/ import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.SQLContext
object WordCount {
def main(args: Array[String]) {
// 屏蔽不必要的日志显示终端上
Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
val conf = new SparkConf().setAppName("wordcount").setMaster("local[4]")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val data=sc.textFile("D:\\Download\\wordcount.txt")
data.map(word=>(word,1)).reduceByKey(_+_).foreach(println)
println("-----------------分割线--------")
data.map(_.toUpperCase()).map(word=>(word,1)).reduceByKey(_+_).foreach(println)
}
}

为了运行以上代码,我在D:\Download\下新建了一个文本文件wordcount.txt,输入了以下内容:

java

c++

c

SAS

sas

scala

python

PYHTHON

JAVA

java

Java

最终运行结果如下:

(c++,1)

(scala,1)

(sas,1)

(python,1)

(SAS,1)

(JAVA,1)

(c,1)

(JAva,1)

(java,2)

(PYHTHON,1)

-----------------分割线--------

(C++,1)

(C,1)

(SAS,2)

(SCALA,1)

(JAVA,4)

(PYTHON,1)

(PYHTHON,1)

Windows下Spark单机环境配置的更多相关文章

  1. windows下spark开发环境配置

    http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark ...

  2. mac下spark单机环境配置笔记

    1.安装scala 从http://www.scala-lang.org下载scala-2.11.7.tgz并解压缩 将解压缩的文件夹用mv指令移动到/usr/local/share mv [scal ...

  3. Spark 单机环境配置

    概要 Spark 单机环境配置 JDK 环境配置 Spark 环境配置 python 环境配置 Spark 使用示例 示例代码 (order_stat.py) 测试用的 csv 文件内容 (order ...

  4. 【Objective-C】Windows下Objective-C开发环境配置

    [Objective-C]Windows下Objective-C开发环境配置 ftp://ftpmain.gnustep.org/pub/gnustep/binaries/windows/   最近打 ...

  5. windows下apache+https环境配置

    windows下apache+https环境配置 转 https://www.cnblogs.com/sandaizi/p/7519370.html 1.修改配置文件conf/httpd.conf,去 ...

  6. Metabase在Windows下的开发环境配置

    Metabase在Windows下的开发环境配置 */--> pre.src {background-color: #292b2e; color: #b2b2b2;} Metabase在Wind ...

  7. IntelliJ IDEA Windows下Spark开发环境部署

    0x01 环境说明 本地 OS: windows 10 jdk: jdk1.8.0_121 scala: scala-2.11.11 IDE: IntelliJ IDEA ULTIMATE 2017. ...

  8. windows下python+flask环境配置详细图文教程

    本帖是本人在安装配置python和flask环境时所用到的资源下载及相关的教程进行了整理罗列,来方便后面的人员,省去搜索的时间.如果你在安装配置是存在问题可留言给我. 首先罗列一下python+fla ...

  9. Windows下Hadoop编程环境配置指南

    刘勇    Email: lyssym@sina.com 本博客记录作者在工作与研究中所经历的点滴,一方面给自己的工作与生活留下印记,另一方面若是能对大家有所帮助,则幸甚至哉矣! 简介 鉴于最近在研究 ...

随机推荐

  1. 修改maven默认的JDK编译版本

    1.全局模式(settings.xml) <profiles> <profile> <id>jdk-1.8</id> <activation> ...

  2. OpenLDAP与Apache

    1:安装部署Apache 2:在/var/www/html下,添加一个测试文件       echo test > index.html          3:在这之前,需了解Apache的账号 ...

  3. 通过XmlHttpRequest实现带进度条异步下载文件

    本博文源自技术群的讨论,因为网上找不到实现这样效果的的代码,而我说没问题,可以实现,因此有人质疑我是否能做到,呵呵,现将我实现代码贴出如下,希望有兴趣的同学可以继续完善: 本代码仅做技术展现,请勿探讨 ...

  4. 模仿win10样式,基于jquery的时间控件

    工作需要,写了一个基于jquery的时间控件,仿win10系统时间控件格式. 目前基本功能都有了,但时间格式只实现少数,但由于结构设计已经充分优化,填充起来非常容易. 这个控件相对网上其他的时间控件, ...

  5. Android之数据库的创建

    一.SQLite介绍 SQLite 一个非常流行的嵌入式数据库,它支持 SQL 语言,并且只利用很少的内存就有很好的性能.此外它还是开源的,任何人都可以使用它.许多开源项目((Mozilla, PHP ...

  6. wini -- FileSubmitByFTP

    // winFtpPutFiles.cpp : Defines the entry point for the console application.// #include "stdafx ...

  7. ギリギリ eye (优先队列)

    1.题目: [题目描述] A.D.1999,由坠落地球的"谜之战舰"带来的 Over Technology,揭示了人类历史和远 古文明之间的丝丝联系,促使人类终止彼此间的战争,一方 ...

  8. Java 项目优化实战

    https://blog.coding.net/blog/java-coding-performance 1 Visual VM 2 优化一 2.1 背景 2.2 原实现 2.3 剖析 2.4 方案 ...

  9. java问卷

    1.你对自己的未来有什么规划?做了那些准备? 对于每个人来讲只有一次,七八十年的时间是一个即漫长然而又很短暂的过程,对于漫长与短暂的看法,由于每个人所处的环境的不同以及对人生看法的不同而有所差异.痛苦 ...

  10. Android 测试Handler的基本使用

    package com.sherlock.app_handler; import java.io.ByteArrayOutputStream; import java.io.InputStream; ...