Spark下载与入门（Spark自学二）

2.1 下载Spark

　　略

2.2 Spark中Python和Scala的shell

　　Spark shell可用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互，并且处理过程的分发由Spark自动控制完成。

　　降低shell日志级别：conf目录下创建名为log4j.properties文件，将log4j.properties.template文件中内容复制到log4j.properties文件，找到log4j.rootCategory=INFO, console，将其改为log4j.rootCategory=WARN, console

　　例2.1： Python行数统计

>>> lines = sc.textFile("README.md")

>>> lines.count()

103

>>> lines.first()

u'# Apache Spark'

　　例2-2： Scala行数统计

scala> val lines = sc.textFile("README.md")

lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()

res0: Long = 103                                                                

scala> lines.first()

res1: String = # Apache Spark

2.3 Spark核心概念简介

　　从上层来看，每个Spark应用都由一个驱动器程序来发起集群上的各种并行操作。驱动器程序包含应用的main函数，并且定义了集群上的分布式数据集，还对这些分布式数据集应用了相关操作。

　　驱动器程序通过一个SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。

　　一旦有了SparkContext，你就可以用它来创建RDD。

　　要执行这些操作，驱动器程序一般要管理多个执行器节点。比如，如果我们在集群上运行count（）操作，那么不同的节点会统计文件的不同部分的行数。

　　例2-4：Python版本筛选的例子

>>> lines = sc.textFile("README.md")

>>> pythonLines = lines.filter(lambda line:"Python" in line)

>>> pythonLines.first()

u'high-level APIs in Scala, Java, Python, and R, and an optimized engine that'

　　例2-5：Scala版本筛选的例子

scala> val lines = sc.textFile("README.md")

lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> val pythonLines = lines.filter(line => line.contains("Python"))

pythonLines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:26

scala> pythonLines.first()

res0: String = high-level APIs in Scala, Java, Python, and R, and an optimized engine that

　　Spark会自动将函数（比如line.contains("Python")）发到各个执行器节点上。这样，就可以在单一的驱动器程序中编程，并且让代码自动运行在多个节点上。

2.4 独立应用

　　Spark也可以在Java、Scala或Python的独立程序中被连接使用，这与在shell中使用的区别在于我们需要自行初始化SparkContext。

　　在Python中，我们可以把应用写成Python脚本，然后用Spark自带的bin/spark-submit脚本来运行。例：bin/spark-submit my_script.py

　　2.4.1 初始化SparkContext

　　　　例2-7：在Python中初始化Spark

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")

sc = SparkContext(conf = conf)

　　　　例2-8：在Scala中初始化Spark

　　　　　　略

　　2.4.2 构建独立应用

　　　　待学习。

Spark下载与入门（Spark自学二）的更多相关文章

（资源整理）带你入门Spark
一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...
Apache Spark大数据分析入门（一）
摘要:Apache Spark的出现让普通人也具备了大数据及实时数据分析能力.鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark.本文是Apache Spark入门系列教程(共四部分)的 ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
Spark中文指南(入门篇)-Spark编程模型(一)
前言本章将对Spark做一个简单的介绍,更多教程请参考:Spark教程本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark ...
10分钟入门spark
Spark是硅谷各大公司都在使用的当红炸子鸡,而且有愈来愈热的趋势,所以大家很有必要了解学习这门技术.本文其实是笔者深入浅出hadoop系列的第三篇,标题里把hadoop去掉了因为spark可以不依赖 ...
Spark Streaming 快速入门
一.简介 1.便于使用 Spark Streaming将Apache Spark的语言集成API 引入流处理,使您可以像编写批处理作业一样编写流式作业.它支持Java,Scala和Python. 2 ...
学习笔记：spark Streaming的入门
spark Streaming的入门 1.概述 spark streaming 是spark core api的一个扩展,可实现实时数据的可扩展,高吞吐量,容错流处理. 从上图可以看出,数据可以有很多 ...
Spark2.x学习笔记：Spark SQL快速入门
Spark SQL快速入门本地表 (1)准备数据 [root@node1 ~]# mkdir /tmp/data [root@node1 ~]# cat data/ml-1m/users.dat | ...

随机推荐

搭建 Linux 下 GitLab 服务器【转】
转自:http://blog.csdn.net/passion_wu128/article/details/8216086 版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[-] 平台 ...
配置Anaconda的jupyter notebook默认主页
1. 在Anaconda Prompt里输:jupyter notebook --generate-config 然后找到这个文件:C:\Users\{YOUR NAME}\.jupyter\jupy ...
Linux添加用户并赋予/取消管理员权限
Ubuntu sudo adduser username # 添加用户 sudo adduser username sudo # 追加管理员权限 grep -Po '^sudo.+:\K.*$' /e ...
springboot 404返回自定义json（只进入过滤器）
今天在公司没事干,记一次springboot遇到的一些坑,在百度上也没有搜到类似的问题和答案(或者说答案不是我想要的) 当我们在SpringBoot遇到了404或者500的错误的时候,你们会怎么办? ...
quartz 配置运行
这篇文章是对quartz 2.2.1进行配置分为spring 整合版本和QuartzInitializerServlet整合版本首先是QuartzInitializerServlet整合版本主要 ...
Nginx网站根目录更改及导致403 forbidden的问题解决
最近因为工作需要,要将Nginx网站根目录更改下,通过网上的一些教程更改后,但发现测试的时候一直提示403 forbidden错误,后台通过一个朋友的提示也解决了,所以现在将详细的步骤分享给大家,有需 ...
AC日记——pigs poj 1149
POJ - 1149 思路: 最大流: 代码: #include <cstdio> #include <cstring> #include <iostream> # ...
AC日记——Andryusha and Colored Balloons codeforces 780c
C - Andryusha and Colored Balloons 思路: 水题: 代码: #include <cstdio> #include <cstring> #inc ...
SecureCRT的安装、介绍、简单操作
网上看到一篇名为<SecureCRT的使用方法和技巧(详细使用教程)>的secureCRT教程,可能软件版本与我不一样我安装的是8.1. 原文来源:http://www.jb51.net/ ...
Codeforces #445 Div2 D
#445 Div2 D 题意给出一些字符串,要求构造一个最短的且字典序最小的字符串,使得给出的字符串都为目标字符串的子串,且这些字符串作为子串出现的次数都是最多的,如果不存在目标字符串输出 &quo ...

Spark下载与入门（Spark自学二）

Spark下载与入门（Spark自学二）的更多相关文章

随机推荐

热门专题