大数据学习——spark学习

计算圆周率

[root@mini1 bin]# ./run-example SparkPi

[root@mini1 bin]# ./run-example SparkPi

[root@mini1 bin]# ./run-example SparkPi

运行spark-shell的两种方式：

1直接运行spark-shell

　　单机通过多线程跑任务，只运行一个进程叫submit

2运行spark-shell --master spark://mini1:7077

　　将任务运行在集群中，运行submit在master上，运行executor在worker上

启动

[root@mini1 bin]# ./spark-shell

hdfs

hadoop/sbin/start-dfs.sh

计算wordcount

 sc.textFile("/root/words.txt").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).collect

升序，降序排列

mapReduce执行流程

从hdfs采集数据

上传文件 hdfs dfs -put words.txt /

sc.textFile("hdfs://mini1:9000/words.txt").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).sortBy(_._2,false).collect

通过spark的api写wordcount

本地运行

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2019/6/11.

  */

object WordCount extends App {

  //创建conf，设置应用的名字和运行的方式，local[2]运行2线程，产生两个文件结果

  val conf = new SparkConf().setAppName("wordcount").setMaster("local[2]")

  //创建sparkcontext

  val sc = new SparkContext(conf)

  val file: RDD[String] = sc.textFile("hdfs://mini1:9000/words.txt")

  val words: RDD[String] = file.flatMap(_.split(" "))

  //压平，分割每一行数据为每个单词

  val tuple: RDD[(String, Int)] = words.map((_, 1))

  //将单词转换为（单词，1）

  val result: RDD[(String, Int)] = tuple.reduceByKey(_ + _)

  //将相同的key进行汇总聚合

  val resultSort: RDD[(String, Int)] = result.sortBy(_._2, false) //排序

  //  result.collect() //在命令行打印

  resultSort.foreach(println)

}

集群运行

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2019/6/11.

  */

object WordCount {

  def main(args: Array[String]) {

    //创建conf，设置应用的名字和运行的方式，local[2]运行2线程，产生两个文件结果

    //.setMaster("local[1]")采用1个线程，在本地模拟spark运行模式

    val conf = new SparkConf().setAppName("wordcount")

    //创建sparkcontext

    val sc = new SparkContext(conf)

    val file: RDD[String] = sc.textFile("hdfs://mini1:9000/words.txt")

    val words: RDD[String] = file.flatMap(_.split(" "))

    //压平，分割每一行数据为每个单词

    val tuple: RDD[(String, Int)] = words.map((_, 1))

    //将单词转换为（单词，1）

    val result: RDD[(String, Int)] = tuple.reduceByKey(_ + _)

    //将相同的key进行汇总聚合

    val resultSort: RDD[(String, Int)] = result.sortBy(_._2, false) //排序

    resultSort.saveAsTextFile(args(1))

  }

}

打包

把该代码包传到任意一台装有spark的机器上

我上传到了bin下

提交

[root@mini1 bin]# ./spark-submit --help

#开始加了这两个参数 导致一直运行失败，链接超时，还去问了初夏老师
[root@mini1 bin]# ./spark-submit --master spark://mini1:7077--class com.cyf.WordCount --executor-memory 200M --total-executor-cores 1 original-spark_6_01-1.0-SNAPSHOT.jar hdfs://mini1:9000/words.txt hdfs://mini1:9000/ceshi/wordcountcluster

[root@mini1 bin]#./spark-submit --master spark://mini1:7077 --class com.cyf.WordCount  original-spark_6_01-1.0-SNAPSHOT.jar hdfs://mini1:9000/words.txt hdfs://mini1:9000/ceshi/wordcountcluster

开始加上边两个参数运行，一直报连接超时的错误

后来把参数去掉，运行成功了

python

wo.py

#!/usr/bin/python

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("aaa").setMaster("spark://mini1:7077")

sc = SparkContext(conf=conf)

data = ["tom", "lilei", "tom", "lilei", "wangsf"]

rdd = sc.parallelize(data).map(lambda x: (x,  )).reduceByKey(lambda a, b: a + b).saveAsTextFile("hdfs://mini1:9000/ceshi/python2")

上传，运行

[root@mini1 bin]# ./spark-submit wo.py

大数据学习——spark学习的更多相关文章

【福利】送Spark大数据平台视频学习资料
没有套路真的是送!! 大家都知道,大数据行业spark很重要,那话我就不多说了,贴心的大叔给你找了份spark的资料. 多啰嗦两句,一个好的程序猿的基本素养是学习能力和自驱力.视频给了你们,能不能 ...
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂
"决胜云计算大数据时代" Spark亚太研究院100期公益大讲堂 [第15期互动问答分享] Q1:AppClient和worker.master之间的关系是什么? AppClien ...
【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
大数据-spark-hbase-hive等学习视频资料
不错的大数据spark学习资料,连接过期在评论区评论,再给你分享 https://pan.baidu.com/s/1ts6RNuFpsnc39tL3jetTkg
想转行大数据，开始学习 Hadoop？
学习大数据首先要了解大数据的学习路线,首先搞清楚先学什么,再学什么,大的学习框架知道了,剩下的就是一步一个脚印踏踏实实从最基础的开始学起. 这里给大家普及一下学习路线:hadoop生态圈——Strom ...

随机推荐

Android 虚拟导航挡住应用底部解决方案（屏幕底部的三个按键）
我在华为P6测试机上测试,发现底部的三个虚拟按钮遮挡了我的应用.类似效果如:https://www.zhihu.com/question/35292413#answer-28473700 解决方案在 ...
（六）我的JavaScript系列：更好的JavaScript之CoffeeScript
世界上的很多天才都在为构建更好的JavaScript而努力.已经有了很多尝试,其中最有前途的,无非就是CoffeeScript和TypeScript了.面对CoffeeScript,我有一见如故的感觉 ...
TCP连接建立与关闭
http://hi.baidu.com/psorqkxcsfbbghd/item/70f3bd91943b9248f14215cd TCP连接建立与关闭 TCP 是一个面向连接的协议,无论哪一方向另一 ...
【UWP】【新坑】Excel批量翻译工具（1）
嗯……具体思路是这样的.使用的时候,你导入一个excel,直观地选择某些区域,选择语言点击翻译,就可以对多个单元格进行批量翻译,并且支持多种不同的导出格式(excel副本.txt文件……) 1,多种翻 ...
如何从桌面程序向浏览器传递cookie或自定义header
类似问题从c#程序启动ie并传递cookie 打开默认浏览器并传递cookie 打开一个web浏览器使用c#应用程序并添加请求头猜想从wpf程序打开默认浏览器并定位到一个url ,并且向这个ur ...
Spark Job具体的物理执行
即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式: 1.f(record),f作用于集合的每一条记录,每次只作用于一条记录 2.f(records),f一次性作用于 ...
2018.4.18 Ubuntu 的telnet命令详解
Ubuntu 的telnet命令详解 1.作用用途 Telnet 命令通常用来远程登录,Telnet 程序是基于 Telnet 协议的远程登录客户端程序.Telnet 协议是TCP/IP协议族中的一员 ...
Launch Instance---source for openstack
If you want to create an instance that uses ephemeral storage, meaning the instance data is lost whe ...
JavaScript -- 条件语句和循环语句
if语句在我们开发程序的时候,经常会遇到选择题,例如,年龄大于18,你就可以抽烟喝酒烫头,年龄小于18,你就只能吃饭喝水.在我们的代码中,我们可以用if语句来实现这种判断语法一: if( cond ...
【转】 VC中TCP实现异步套接字编程的原理+代码
所谓的异步套接字编程就是调用了如下函数 WSAAsyncSelect 设置了套接字的状态为异步,有关函数我会在下面详细介绍... 异步套接字解决了套接字编程过程中的堵塞问题 .... ...

大数据学习——spark学习

大数据学习——spark学习的更多相关文章

随机推荐

热门专题