1、Spark中的Python和Scala的Shell

(1)： Python的Spark Shell

也就是我们常说的PySpark Shell进入我们的Spark目录中然后输入

bin/pyspark

(2): Scala中的Shell

bin/spark-shell

利用spark进行行数的统计

例如：Scala版本的

   val lines=sc.textFile("/home/txp/test.txt")   #创建一个名为lines 的RDD

   lines.count()   #统计RDD中的元素个数

   lines.first()   #RDD中的第一个元素 也就是test.txt中的第一行

如图

2、Spark的核心概念简介

从上层来看每一个Spark应用都有一个驱动器程序（driver）来发起集群上的各种并行的操作。驱动器程序通过一个SparkContext对象来访问Spark，shell 启动的时候已经自动创建了一个SparkContext对象，是一个叫sc的变量。一旦有了SparkContext对象，就可以用它来创建RDD（分布式弹性数据集）。驱动器程序一般要管理多个执行器节点

3、独立应用

一旦完成应用与Spark的连接，接下来就要在你的程序中导入Spark包并且创建SparkContext

例如：在scala语言中初始化Spark 进行单词计数

val conf=new SparkConf().setMaster("local").setAppName("My App")

val sc=new SparkContext(conf)

//读取我们的输入数据

val input=sc.text(inputfile)

//切分成一个个单词  俗称压扁

val words=input.flatMap(line=>line.split(" "))

//转换为键值对  并进行计数

val counts=words.map(word=>(word,1)).reduceByKey(_+_))

//将统计出来的单词总数存入到一个文本文件  引发求值

counts.saveAsTextFile(outputfile)

Spark基础：(一)初识Spark的更多相关文章

大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
最全的spark基础知识解答
原文:http://www.36dsj.com/archives/61155 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduc ...
【一】Spark基础
Spark基础什么是spark 也是一个分布式的并行计算框架 spark是下一代的map-reduce,扩展了mr的数据处理流程. Spark架构原理图解 RDD[Resilient Distrib ...
Spark 基础操作
1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1. ...
spark基础知识一
1. spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规 ...
Spark基础排序+二次排序（java+scala）
1.基础排序算法 sc.textFile()).reduceByKey(_+_,).map(pair=>(pair._2,pair._1)).sortByKey(false).map(pair= ...
spark基础知识（1）
一.大数据架构并发计算: 并行计算: 很少会说并发计算,一般都是说并行计算,但是并行计算用的是并发技术.并发更偏向于底层.并发通常指的是单机上的并发运行,通过多线程来实现.而并行计算的范围更广,他是 ...
初识spark的MLP模型
初识Spark的MLP模型 1. MLP介绍 Multi-layer Perceptron(MLP),即多层感知器,是一个前馈式的.具有监督的人工神经网络结构.通过多层感知器可包含多个隐藏层,实现对非 ...
spark基础知识
1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopM ...
【原创 Hadoop&Spark 动手实践 5】Spark 基础入门，集群搭建以及Spark Shell
Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署理论已经了解的差不多了,接下来是实际动手实 ...

随机推荐

flyway的使用
1.使用它之前先要了解一些概念: 版本:对数据库的每一次变更可称为一个版本. 迁移:Flyway把数据库结构从一个版本更新到另一个版本叫做迁移. 可用的迁移:Flyway的文件系统识别出来的迁移版本. ...
spring mvc 原理（快速理解篇）
这两张图大家应该都不陌生. 从图上来看就是:一个请求过来,front controller根据具体的请求路径分派到具体的controller,具体的controller处理请求并把处理结果返回给fro ...
【数据结构&算法】08-栈概念&源码
目录前言栈的定义定义常见应用栈的常见应用进栈出栈变化形式栈的抽象数据类型栈的顺序存储结构及实现栈的顺序存储结构顺序栈顺序栈的结构定义两栈共享空间栈的链式存储结构及实现栈的链 ...
Node.js躬行记（14）——压力测试
公司有个匿名聊天的常规H5界面,运营向做一次 50W 的推送,为了能配合她的计划,需要对该界面做一次压力测试. 一.JMeter 压测工具选择了JMeter,这是Apache的一个项目,它是用Java ...
攻防世界 Misc 新手练习区 gif Writeup
攻防世界 Misc 新手练习区 gif Writeup 题目介绍题目考点仔细联想字符转换 Writeup 下载附件并打开 104张黑白图发现是一堆黑色和白色的图片,按某种规律排列,猜想flag ...
怎么将本地已有的一个项目上传到新建的git仓库的方法
将本地已有的一个非git项目上传到新建的git仓库的方法一共有两种. 一. 克隆+拷贝第一种方法比较简单,直接用把远程仓库拉到本地,然后再把自己本地的项目拷贝到仓库中去.然后push到远程仓库上去即 ...
asp.net中挺高性能的24种方法
那性能问题到底该如何解决?以下是应用系统发布前,作为 .NET 开发人员需要检查的点. 1.debug=「false」当创建 ASP.NET Web应用程序,默认设置为「true」.开发过程中,设置 ...
Django笔记&教程 7-3 拓展CBVs（Class-based views）
Django 自学笔记兼学习教程第7章第3节--拓展CBVs(Class-based views) 点击查看教程总目录一般而言,直接使用原生的Class-based views,能展现的样式和内容是 ...
[atARC115D]Odd Degree
考虑对于一棵树$G$,这个问题的答案-- 当$k$为奇数时答案显然为0,否则从$V$中任选$k$个点,以任意一点为根,从底往上不难发现子图数量唯一换言之,当$k$为偶数时,每一个合法(恰有$k$个奇 ...
[luogu7340]Balance
构造一个坐标系,共有$n$个黑点和百点,第$i$个黑点为$(p_{i},a_{i})$,第$i$个白点为$(-q_{i},-b_{i})$ 考虑第$i$个黑点和第$j$个白点连线的斜率,恰好就是$f( ...

Spark基础：(一)初识Spark

1、Spark中的Python和Scala的Shell

2、Spark的核心概念简介

3、独立应用

Spark基础：(一)初识Spark的更多相关文章

随机推荐

热门专题