在Spark上运行WordCount程序

1.编写程序代码如下：

Wordcount.scala

package Wordcount

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

/**

 * @author hadoop

 * 统计字符出现个数

 *

 */

object Wordcount {

  def main(args: Array[String]) {

    if(args.length < 1) {

      System.err.println("Usage: <file>")

      System.exit(1)

    }

    val conf = new SparkConf()

    val sc = new SparkContext(conf)

    //SparkContext 是把代码提交到集群或者本地的通道，我们编写Spark代码，无论是要本地运行还是集群运行都必须有SparkContext的实例

    val line = sc.textFile(args(0))

    //把读取的内容保存给line变量，其实line是一个MappedRDD，Spark的所有操作都是基于RDD的

    line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)

    sc.stop

  }

}

2.将程序打包成wordcount.jar

3.编写wordcount.sh脚本

#!/bin/bash

cd $SPARK_HOME/bin

spark-submit \

--master spark://192.168.1.154:7077 \

--class Wordcount.Wordcount \

--name wordcount \

--executor-memory 400M \

--driver-memory 512M \

/usr/local/myjar/wordcount.jar \

hdfs://192.168.1.154:9000/user/hadoop/wordcount.txt

其中的wordcount.txt是要统计的文本。

4.将wordcount.txt文件上传到hdfs中对应的目录，并启动Spark集群

5.执行脚本

在Spark上运行WordCount程序的更多相关文章

Spark在Yarn上运行Wordcount程序
前提条件 1.CDH安装spark服务 2.下载IntelliJ IDEA编写WorkCount程序 3.上传到spark集群执行一.下载IntellJ IDEA编写Java程序 1.下载IDEA ...
在Spark上运行TopK程序
1. scala程序如下 package com.cn.gao import org.apache.spark.SparkConf import org.apache.spark.SparkConte ...
Spark源码编译并在YARN上运行WordCount实例
在学习一门新语言时,想必我们都是"Hello World"程序开始,类似地,分布式计算框架的一个典型实例就是WordCount程序,接触过Hadoop的人肯定都知道用MapRedu ...
在Pycharm上编写WordCount程序
本篇博客将给大家介绍怎么在PyCharm上编写运行WordCount程序. 第一步下载安装PyCharm 下载Pycharm PyCharm的下载地址(Linux版本).下载完成后你将得到一个名叫: ...
（三）配置Hadoop1.2.1+eclipse(Juno版)开发环境，并运行WordCount程序
配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一. 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclip ...
如何在Ubuntu的idea上运行Hadoop程序
如何在Ubuntu的idea上运行Hadoop程序一.前言在idea上运行Hadoop程序,需要使用Hadoop的相关库,Ubuntu为Hadoop的运行提供了良好的支持. 二.操作方法首先我们 ...
在OSX和Windows版本Docker上运行GUI程序
看到很多人在Docker问题区讨论:如何在OS X和Windows的Docker上运行GUI程序, 随手记录几个参考资料: https://github.com/docker/docker/issue ...
在集群上运行caffe程序时如何避免Out of Memory
不少同学抱怨,在集群的GPU节点上运行caffe程序时,经常出现"Out of Memory"的情况.实际上,如果我们在提交caffe程序到某个GPU节点的同时,指定该节点某个比较 ...
安卓手机上运行 PC-E500 程序
目录第1章安卓手机上运行 PC-E500 程序 1 1 PockEmul 1 2 下载 1 3 打包BASIC程序 2 4 配置PC-E500模拟器 5 5 载入e50 ...

随机推荐

Netty 实现SSL安全连接(wss://)
原文:Netty5使用自签证书实现SSL安全连接在客户端是https:// 协议下,使用ws:// 协议连接会报错的,得需要使用wss:// 连接.(ip连接失败时使用域名连接) netty创建服务 ...
bzoj [SDOI2009]学校食堂Dining
感觉这个状压dp比较难想.. dp[ i ][ s ][ k ] 表示前i - 1个都排好了, 从i开始的7个的取没取的状态为s, 且最后一个相对i的位置为k的最少花费. 状态转移方程 if(s &a ...
elastucasearch基础理论以及安装
一.elasticasearch核心概念 Near Realtime(NRT 近实时) Elasticsearch 是一个近实时的搜索平台.您索引一个文档开始直到它被查询时会有轻微的延迟时间(通常为1 ...
java的组合和继承
其实我第一次学习java 的时候根本没有听说过组合这个名词,老师也更没有讲解过,我一直以为是我自己落掉了什么知识点,其实不是的,组合这个名词暂且把它定义为一个思维性的东西吧,相信读者都接触过了,但是并 ...
R语言编程艺术（1）快速入门
这本书与手上其他的R语言参考书不同,主要从编程角度阐释R语言,而不是从统计角度.因为之前并没有深刻考虑这些,因此写出的代码往往是一条条命令的集合,并不像是“程序”,因此,希望通过学习这本书,能提高编程 ...
移动端meta标签
现在的手机或平板电脑等移动设备上的浏览器默认都有双击放大的设置,如何阻止双击放大?user-scalable=no  <meta name=”viewpor ...
模拟Djangoweb框架
一.需求 1.访问127.0.0.1/login,访问到login页面 2.登陆成功,跳转到登陆后的页面 3.登陆失败,跳转到登陆失败的页面 4.用户账号密码验证二.目录结构三.代码 day01. ...
JS AngualrJs 指令
本文基于 AngularJs 1.x 版本内置指令布尔属性根据HTML标准的定义,布尔属性代表一个 true 或 false 值. 当这个属性出现时,这个属性的值就是 true (无论实际定义的 ...
luogu P2439 [SDOI2005]阶梯教室设备利用
题目链接 luogu P2439 [SDOI2005]阶梯教室设备利用题解 dp 代码 #include<vector> #include<cstdio> #include& ...
SPOJ8791 DYNALCA LCT
考虑\(LCT\) 不难发现,我们不需要换根... 对于操作\(1\),\(splay(u)\)然后连虚边即可对于操作\(3\),我们可以先\(access(u)\),然后再\(access(v)\ ...

在Spark上运行WordCount程序

在Spark上运行WordCount程序的更多相关文章

随机推荐

热门专题