本地 maven + scala 跑spark wordcount

pom.xml

点击查看代码

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

  <modelVersion>4.0.0</modelVersion>

  <groupId>org.example</groupId>

  <artifactId>sparkwordcount2</artifactId>

  <version>1.0-SNAPSHOT</version>

  <inceptionYear>2008</inceptionYear>

  <properties>

    <scala.version>2.11.12</scala.version>

  </properties>

  <repositories>

    <repository>

      <id>scala-tools.org</id>

      <name>Scala-Tools Maven2 Repository</name>

      <url>http://scala-tools.org/repo-releases</url>

    </repository>

  </repositories>

  <pluginRepositories>

    <pluginRepository>

      <id>scala-tools.org</id>

      <name>Scala-Tools Maven2 Repository</name>

      <url>http://scala-tools.org/repo-releases</url>

    </pluginRepository>

  </pluginRepositories>

  <dependencies>

    <dependency>

      <groupId>org.scala-lang</groupId>

      <artifactId>scala-library</artifactId>

      <version>${scala.version}</version>

    </dependency>

    <dependency>

      <groupId>junit</groupId>

      <artifactId>junit</artifactId>

      <version>4.4</version>

      <scope>test</scope>

    </dependency>

    <dependency>

      <groupId>org.specs</groupId>

      <artifactId>specs</artifactId>

      <version>1.2.5</version>

      <scope>test</scope>

    </dependency>

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-core_2.11</artifactId>

      <version>2.4.7</version>

    </dependency>

  </dependencies>

  <build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

    <plugins>

      <plugin>

        <groupId>org.scala-tools</groupId>

        <artifactId>maven-scala-plugin</artifactId>

        <executions>

          <execution>

            <goals>

              <goal>compile</goal>

              <goal>testCompile</goal>

            </goals>

          </execution>

        </executions>

        <configuration>

          <scalaVersion>${scala.version}</scalaVersion>

          <args>

            <arg>-target:jvm-1.8</arg>

          </args>

        </configuration>

      </plugin>

      <plugin>

        <groupId>org.apache.maven.plugins</groupId>

        <artifactId>maven-eclipse-plugin</artifactId>

        <configuration>

          <downloadSources>true</downloadSources>

          <buildcommands>

            <buildcommand>ch.epfl.lamp.sdt.core.scalabuilder</buildcommand>

          </buildcommands>

          <additionalProjectnatures>

            <projectnature>ch.epfl.lamp.sdt.core.scalanature</projectnature>

          </additionalProjectnatures>

          <classpathContainers>

            <classpathContainer>org.eclipse.jdt.launching.JRE_CONTAINER</classpathContainer>

            <classpathContainer>ch.epfl.lamp.sdt.launching.SCALA_CONTAINER</classpathContainer>

          </classpathContainers>

        </configuration>

      </plugin>

    </plugins>

  </build>

  <reporting>

    <plugins>

      <plugin>

        <groupId>org.scala-tools</groupId>

        <artifactId>maven-scala-plugin</artifactId>

        <configuration>

          <scalaVersion>${scala.version}</scalaVersion>

        </configuration>

      </plugin>

    </plugins>

  </reporting>

</project>

SparkWordCountLocal.scala

点击查看代码

package org.example

import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCountLocal {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

      .setAppName("WordCount")

      .setMaster("local")

    val sc = new SparkContext(conf)

    val data = sc.textFile("./hello.txt")

    data.flatMap(_.split(" "))

      .map((_, 1))

      .reduceByKey(_+_)

      .collect()

      .foreach(println)

  }

}

执行打印的日志：

(jiu,1)

(scala,2)

(this,1)

(spark,1)

(is,1)

(wan,1)

(am,1)

(i,1)

(le,1)

(demo,1)

(hello,3)

(gan,1)

(nihao,1)

(world,1)

本地 maven + scala 跑spark wordcount的更多相关文章

Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序
学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程. 本项目源码已托管于Github –>[Spark-wordcount] 第一步在EclipseIDE中安装Scala插件 ...
idea配置scala编写spark wordcount程序
1.创建scala maven项目选择骨架的时候为org.scala-tools.archetypes:scala-aechetype-simple 1.2 2.导入包,进入spark官网Docum ...
在Yarn集群上跑spark wordcount任务
准备的测试数据文件hello.txt hello scala hello world nihao hello i am scala this is spark demo gan jiu wan le ...
MacOS使用IDEA+Maven+Scala+Spark进行本地调试
参考:spark开发环境搭建(基于idea 和maven) 安装JDK 从这里下载Java 8的JDK 设置JAVA_HOME环境变量,在Mac上它大概会是/Library/Java/JavaVirt ...
Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)
福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
eclipse构建maven+scala+spark工程转载
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现sp ...
如何在本地使用scala或python运行Spark程序
如何在本地使用scala或python运行Spark程序包含两个部分: 本地scala语言编写程序,并编译打包成jar,在本地运行. 本地使用python语言编写程序,直接调用spark的接口, ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
Scala Spark WordCount
Scala所需依赖 <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-l ...

随机推荐

Leetcode----<Re-Space LCCI>
题解如下: /** * 动态规划解法: * dp[i] 表示 0-i的最小不能被识别的字母个数 * 求 dp[k] 如果第K个字母不能和前面的字母[0-{k-1}]合在一起被识别那么dp[k] = ...
this关键字、static关键字、方法的调用
1.带有static关键字的方法,不可使用this关键字.因为其调用方法为类名.方法名(建议这种方式,调用不需要对象的参与),不存在对象. 2.实例方法调用必须有对象的存在,先创建对象,通过引用.的方 ...
NC17857 起床困难综合症
NC17857 起床困难综合症题目题目描述 21 世纪,许多人得了一种奇怪的病:起床困难综合症,其临床表现为:起床难,起床后精神不佳.作为一名青春阳光好少年,atm 一直坚持与起床困难综合症作斗争 ...
Java中修饰符的分类及用法
访问权限修饰符: public 修饰class,方法,变量: 所修饰类的名字必须与文件名相同,文件中最多能有一个pulic修饰的类. private class不可用,方法,变量可以用: 只限于本类成 ...
水电表/压力表/传感器/流量计/行车记录仪/分贝仪等超低功耗LCD段码液晶驱动IC-VKL076（VKL系列）SSOP28 19*4COM，工作电流约7.5微安
产品品牌:永嘉微电/VINKA 产品型号:VKL076 封装形式:SSOP28 产品年份:新年份概述: VKL076 SSOP28是一个点阵式存储映射的LCD驱动器,可支持最大76点(19SEGx4 ...
基于ABP实现DDD--领域逻辑和应用逻辑
本文主要介绍了多应用层的问题,包括原因和实现.通过理解介绍了如何区分领域逻辑和应用逻辑,哪些是正确的实践,哪些是不推荐的或者错误的实践. 一.多应用层的问题 1.多应用层介绍不知道你们是否会 ...
排查jar包使用的第三方包并导出清单
找到jar包 cd /data/xx/lib/xxx/ 解压缩 unzip xxx.jar -d tempjarfile 进入lib目录 cd tempjarfile/BOOT-INF/lib 生产j ...
使用.NET简单实现一个Redis的高性能克隆版（四、五）
译者注该原文是Ayende Rahien大佬业余自己在使用C# 和 .NET构建一个简单.高性能兼容Redis协议的数据库的经历. 首先这个"Redis"是非常简单的实现,但是他 ...
开源图编辑库 NebulaGraph VEditor 的设计思路分享
本文首发于 NebulaGraph 公众号 NebulaGraph VEditor 是一个拥有高性能.高可定制的所见即所得图可视化编辑器前端库. NebulaGraph VEditor 底层基于 SV ...
openstack 安装neutron网络服务安装报错：Unknown operation 'enabled'
注:这个脚本文件有一个地方是错误的,最后一行需要修改一下 # vim /usr/local/bin/iass-install-neutron-controller-gre.sh # 改systemc ...

本地 maven + scala 跑spark wordcount

本地 maven + scala 跑spark wordcount的更多相关文章

随机推荐

热门专题