Spark on YARN--WordCount、TopK

原文地址：http://blog.csdn.net/cklsoft/article/details/25568621

1、首先利用http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/搭建好的Eclipse(Scala)开发平台编写scala文件。内容例如以下：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object HdfsWordCount {

  def main(args: Array[String]) {

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"myWordCount",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val logFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

  //  val file = sc.textFile("D:\\test.txt")

    val counts = logFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

 //   println(counts)

    counts.saveAsTextFile(args(2)/*"hdfs://master:9101/user/root/out"*/)

  }

}

2、利用Eclipse的Export Jar File功能将Scala源文件编译成class文件并打包成sc.jar

3、运行run_wc.sh脚本：

#! /bin/bash

SPARK_JAR=assembly/target/scala-2.10/spark-assembly_2.10-1.0.0-SNAPSHOT-hadoop2.2.0.jar

./bin/spark-class org.apache.spark.deploy.yarn.Client \

 --jar /root/spark/sh.jar \

 --class sh.HdfsWordCount \

 --args  yarn-standalone \

 --args hdfs://master:9101/user/root/hsd.txt \

 --args hdfs://master:9101/user/root/outs \

 --num-executors 1 \

 --driver-memory 512m \

 --executor-memory 512m \

 --executor-cores 1

附：

TopK（选出出现频率最高的前k个）代码：

package sc

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object TopK {

  def main(args: Array[String]) {

    //yarn-standalone hdfs://master:9101/user/root/spam.data 5

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"myWordCount",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val logFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

    val counts = logFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

    val sorted=counts.map{

      case(key,val0) => (val0,key)

    }.sortByKey(true,1)

    val topK=sorted.top(args(2).toInt)

    topK.foreach(println)

  }

}

附录2 join操作（题意详见：http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/）:

package sc

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object SparkJoinTest {

  def main(args: Array[String]) {

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"SparkJoinTest",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val txtFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

    val rating=txtFile.map(line =>{

    	val fileds=line.split("::")

    	(fileds(1).toInt,fileds(2).toDouble)

    	}

    )//大括号内以最后一个表达式为值

    val movieScores=rating.groupByKey().map(

        data=>{

          val avg=data._2.sum/data._2.size

       //   if (avg>4.0)

            (data._1,avg)

        }

    )

    val moviesFile=sc.textFile(args(2))

    val moviesKey=moviesFile.map(line =>{

      val fileds=line.split("::")

      (fileds(0).toInt,fileds(1))

      }

    ).keyBy(tuple=>tuple._1)//设置健

    val res=movieScores.keyBy(tuple=>tuple._1).join(moviesKey)// (<k,v>,<k,w>=><k,<v,w>>)

    .filter(f=>f._2._1._2>4.0)

    .map(f=>(f._1,f._2._1._2,f._2._2._2))

    res.saveAsTextFile(args(3))

  }

}

Spark on YARN--WordCount、TopK的更多相关文章

006 Spark中的wordcount以及TopK的程序编写
1.启动启动HDFS 启动spark的local模式./spark-shell 2.知识点 textFile: def textFile( path: String, minPartitions: ...
Spark On Yarn搭建及各运行模式说明
之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On Yarn 一.各运行模式 1.单机模式该模式被称为Local[N]模式,是用单机的多个线程来模拟Spa ...
Spark on YARN简介与运行wordcount（master、slave1和slave2）（博主推荐）
前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz +hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主 ...
Spark on YARN模式的安装（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推荐）
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可. Spark on YARN简介与运行wor ...
Spark部署三种方式介绍：YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
Spark On Yarn：提交Spark应用程序到Yarn
转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn.Spark Yarn Cluster.Spark Yarn Clie ...
spark on yarn详解
1.参考文档: spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.html spark-1.6.0:http://spark ...
Spark（十二） -- Spark On Yarn & Spark as a Service & Spark On Tachyon
Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度进而可以实现不止Spark,多种处理框架并存工作的场景部署Spark On ...
spark on yarn模式下内存资源管理（笔记1）
问题:1. spark中yarn集群资源管理器,container资源容器与集群各节点node,spark应用(application),spark作业(job),阶段(stage),任务(task) ...

随机推荐

undefined,null,var 0 = {},var s = '',的区别
undefined:不清楚变量的类型:var m; null:知道该变量是对象的引用,但是地址为空 var o = {};这是一个对象,有指向地址,但是值为空 var 0 = '';这是一个空的字符串
49.求1+2+3+.......+n
题目描述: 求1+2+3+...+n的值,要求不能使用乘除法,还有,if,while,for等关键字. 思路分析: 使用递归的解法,但是递归的终止条件需要使用if关键字不符合要求,所以我们利用 ...
5分钟搞定android混淆（转）
转自:https://www.jianshu.com/p/f3455ecaa56e 前言混淆是上线前挺重要的一个环节.android使用的ProGuard,可以起到压缩,混淆,预检,优化的作用.但是 ...
【串线篇】SpringMVC运行流程
1.所有请求,前端控制器(DispatcherServlet)收到请求,调用doDispatch进行处理 2.根据HandlerMapping中保存的请求映射信息找到,处理当前请求的,处理器执行链(包 ...
浅谈maven自动化构建工具
转载https://blog.csdn.net/zxm1306192988/article/details/76209062 Maven是什么[what] 1.Maven 是 Apache 软件基金会 ...
MySQL数据库基本操作以及SQL语句
连接mysql的语法 mysql -u用户名 -p密码 [-h主机名] [-P端口号] 在一个mysql服务器中, 可以有多个mysql数据库(本质是一个文件夹) 在一个mysql数据库中, 可以有多 ...
springcloud中provider-product依赖
<dependencies> <dependency> <groupId>cn.lijun.springcloud</groupId> <arti ...
Tomcat负载均衡图片显示不正常解决方法
在部署一个Tomcat玩玩的时候,发现在做nginx负载均衡时,网站显示不正常,图片会变得很大.测试了半天都没成功,最后查找资料,才发现Tomcat负载均衡时Session处理有问题,Session是 ...
H5页面前后端通信（3种方式简单介绍）
1.ajax:短连接 2.websocket :长连接,双向的. node搭建的websocket服务器,推送信息给客户端浏览器 :https://www.cnblogs.com/fps2tao/ ...
[Repost] 探寻C++最快的读取文件的方案
作者:BYVoid(https://www.byvoid.com/zhs/blog/fast-readfile) 版权协议:CC BY-NC-SA 3.0 Unported 在竞赛中,遇到大数据时,往 ...

Spark on YARN--WordCount、TopK

Spark on YARN--WordCount、TopK的更多相关文章

随机推荐

热门专题