Spark on YARN--WordCount、TopK

原文地址：http://blog.csdn.net/cklsoft/article/details/25568621

1、首先利用http://dongxicheng.org/framework-on-yarn/spark-eclipse-ide/搭建好的Eclipse(Scala)开发平台编写scala文件。内容例如以下：

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object HdfsWordCount {

  def main(args: Array[String]) {

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"myWordCount",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val logFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

  //  val file = sc.textFile("D:\\test.txt")

    val counts = logFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

 //   println(counts)

    counts.saveAsTextFile(args(2)/*"hdfs://master:9101/user/root/out"*/)

  }

}

2、利用Eclipse的Export Jar File功能将Scala源文件编译成class文件并打包成sc.jar

3、运行run_wc.sh脚本：

#! /bin/bash

SPARK_JAR=assembly/target/scala-2.10/spark-assembly_2.10-1.0.0-SNAPSHOT-hadoop2.2.0.jar

./bin/spark-class org.apache.spark.deploy.yarn.Client \

 --jar /root/spark/sh.jar \

 --class sh.HdfsWordCount \

 --args  yarn-standalone \

 --args hdfs://master:9101/user/root/hsd.txt \

 --args hdfs://master:9101/user/root/outs \

 --num-executors 1 \

 --driver-memory 512m \

 --executor-memory 512m \

 --executor-cores 1

附：

TopK（选出出现频率最高的前k个）代码：

package sc

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object TopK {

  def main(args: Array[String]) {

    //yarn-standalone hdfs://master:9101/user/root/spam.data 5

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"myWordCount",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val logFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

    val counts = logFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

    val sorted=counts.map{

      case(key,val0) => (val0,key)

    }.sortByKey(true,1)

    val topK=sorted.top(args(2).toInt)

    topK.foreach(println)

  }

}

附录2 join操作（题意详见：http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/）:

package sc

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

object SparkJoinTest {

  def main(args: Array[String]) {

    val sc = new SparkContext(args(0)/*"yarn-standalone"*/,"SparkJoinTest",System.getenv("SPARK_HOME"),SparkContext.jarOfClass(this.getClass))

                                                        //List("lib/spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar")

    val txtFile = sc.textFile(args(1))//"hdfs://master:9101/user/root/spam.data") // Should be some file on your system

    val rating=txtFile.map(line =>{

    	val fileds=line.split("::")

    	(fileds(1).toInt,fileds(2).toDouble)

    	}

    )//大括号内以最后一个表达式为值

    val movieScores=rating.groupByKey().map(

        data=>{

          val avg=data._2.sum/data._2.size

       //   if (avg>4.0)

            (data._1,avg)

        }

    )

    val moviesFile=sc.textFile(args(2))

    val moviesKey=moviesFile.map(line =>{

      val fileds=line.split("::")

      (fileds(0).toInt,fileds(1))

      }

    ).keyBy(tuple=>tuple._1)//设置健

    val res=movieScores.keyBy(tuple=>tuple._1).join(moviesKey)// (<k,v>,<k,w>=><k,<v,w>>)

    .filter(f=>f._2._1._2>4.0)

    .map(f=>(f._1,f._2._1._2,f._2._2._2))

    res.saveAsTextFile(args(3))

  }

}

Spark on YARN--WordCount、TopK的更多相关文章

006 Spark中的wordcount以及TopK的程序编写
1.启动启动HDFS 启动spark的local模式./spark-shell 2.知识点 textFile: def textFile( path: String, minPartitions: ...
Spark On Yarn搭建及各运行模式说明
之前记录Yarn:Hadoop2.0之YARN组件,这次使用Docker搭建Spark On Yarn 一.各运行模式 1.单机模式该模式被称为Local[N]模式,是用单机的多个线程来模拟Spa ...
Spark on YARN简介与运行wordcount（master、slave1和slave2）（博主推荐）
前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz +hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主 ...
Spark on YARN模式的安装（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推荐）
说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可. Spark on YARN简介与运行wor ...
Spark部署三种方式介绍：YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
Spark On Yarn：提交Spark应用程序到Yarn
转载自:http://lxw1234.com/archives/2015/07/416.htm 关键字:Spark On Yarn.Spark Yarn Cluster.Spark Yarn Clie ...
spark on yarn详解
1.参考文档: spark-1.3.0:http://spark.apache.org/docs/1.3.0/running-on-yarn.html spark-1.6.0:http://spark ...
Spark（十二） -- Spark On Yarn & Spark as a Service & Spark On Tachyon
Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度进而可以实现不止Spark,多种处理框架并存工作的场景部署Spark On ...
spark on yarn模式下内存资源管理（笔记1）
问题:1. spark中yarn集群资源管理器,container资源容器与集群各节点node,spark应用(application),spark作业(job),阶段(stage),任务(task) ...

随机推荐

JavaScript的日期对象
1.Date对象用来处理日期和时间. 2.创建Date对象的语法: var myDate = new Date(); 3.Date对象的常用方法: 格式:Date.XX(); getDate() 从 ...
[fw]PAGE_SIZE & PAGE_SHIFT & _AC()
PAGE_SIZE & PAGE_SHIFT & _AC() 在大多系统下,PAGE_SIZE被定义为 4k 大小,即 4096 字节. 在 x86 系统里,PAGE_SIZE 和 P ...
35.Unique Paths（不同的路径）
Level: Medium 题目描述: A robot is located at the top-left corner of a m x n grid (marked 'Start' in ...
LLppdd likes strings
LLppdd's likes strings! Time Limit: 1 s Memory Limit: 256 MB 题目背景 LLppdd 由于实在是太弱了,在 \(ION 2018\) 模拟十 ...
java 调用DB2 SYSPROC.ADMIN_CMD存储过程导出数据
import java.sql.CallableStatement; import java.sql.Connection; import java.sql.DriverManager; import ...
Pycharm 激活码2017最新
BIG3CLIK6F-eyJsaWNlbnNlSWQiOiJCSUczQ0xJSzZGIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiI ...
Python 读书
第一章 %d %s %f 数字和表达式加减乘取模都可以直接输入除需注意: 1/2=0.5 1/2.0=0.5 --有浮点按浮点计算 1//2=0 --整除 1.0/2.0=0.5 1.0//2.0 ...
Sass-属性嵌套
Sass 中还提供属性嵌套,CSS 有一些属性前缀相同,只是后缀不一样,比如:border-top/border-right,与这个类似的还有 margin.padding.font 等属性.假设你的 ...
手写Spring事务框架
Spring事务基于AOP环绕通知和异常通知编程事务声明事务 Spring事务底层使用编程事务+AOP进行包装的 = 声明事务 AOP应用场景: 事务权限参数验证什么是AOP技术 AO ...
Maven介绍及安装
1.maven是一个管理第三方库的jar package 2.从该页面下载相应的Maven jar包(http://maven.apache.org/download.cgi),linux OS下 ...

Spark on YARN--WordCount、TopK

Spark on YARN--WordCount、TopK的更多相关文章

随机推荐

热门专题