spark笔记 环境配置
spark笔记
spark简介
saprk 有六个核心组件:
SparkCore、SparkSQL、SparkStreaming、StructedStreaming、MLlib,Graphx
SparkCore
相当于Hadoop中的MapReduce,用于大规模离线批处理计算
SparkSQL
相当于Hive(稍微类似),用于交互式计算
注意:
1.交互式计算:用户界面中的查询条件进行过滤查询,然后交给SparkSQL进行处理,产生输出数据。速度比较快
2.交互式计算框架:Presto、Impala、Kylin、Druid等
SparkStreaming
相当于storm,用于实时流式计算。(准实时)
实时流式计算
1.实时:处理速度快,秒级别或毫秒级别
2.流式:处理数据比较少,但是是持续不断的,作业job不能停止。
StructedStreaming
类似SparkStreaming,不同点在于StructedStreaming基于SparkSQL,而SparkStreaming基于SpringCore。
Mllib
类似scikit-learning,Hadoop中的Mahout,用于分布式的机器学习算法
Graphx
用于图计算,主要适用于神经网络,图遍历之类的场景。
spark基本概念
application
应用程序,可以有多个job
job
一个作业,可以有多个stage阶段
stage
一个阶段,可以有多个task任务
task
一个任务,执行逻辑计算
clustermanager
集群管理器,譬如yarn、mesos、k8s、standalone等。
1.master
主节点,比如Yarn中的ResourceManager(RM)
2.worker
从节点,比如Yarn中的NodeManager(NM)
executor
1.执行器,一个运行某个stage中的各个task的进程。类似Yarn中的Container。
2.Yarn中的Container运行的一个task,task运行后就杀死进程。executor运行一个stage钟的所有taskset,整个stage阶段完成后就杀死进程。executor中有个线程池,每个线程运行一个task
driver
1.驱动器,有一部分功能类似于Yarn中的ApplicationMaster。
2.Driver功能:
a)将一个job中的各个 RDD串联起来,成为一个DAG(有向无环图)调度图
b)将DAG图拆分成各个Stage阶段(DAGScheduler)
c)类似于ApplicationMaster,任务申请与调度。(TaskScheduler)
spark分布式环境
配置
修改conf目录下的slaves、spark-default.conf、spark-env.sh
slaves:
slave1、slave2
spark-default.conf
spark.master spark://master:7077 (没有Ip映射写主机ip地址)
spark-env.sh
JAVA_HOME=xxxx (本机jdk目录)
启动
sbin/start-all.sh
访问
<master主机名/ip>:8080
说明
端口号:
7077:master rpc端口号
8080:master http端口号
注:rpc(remote process call)远程过程调用
启动流程
【start-all.sh】-> 加载【spark-config.sh】->调用
【start-master.sh】及【start-slaves.sh】->加载【spark-config.sh】及【load-spark-env.sh】->调用【spark-daemon.sh】->调用【spark-class.sh】或(【spark-submit.sh】->【spark-class.sh】)
运行模式
local、local-cluster、standalone、yarn、mesos
注:https://www.iteblog.com/archives/1223.html (yarn-client与yarn-cluster区别)
入门实例
单词统计
sc.textFile("/home/hduser/app/spark/README.md").flatMap(line=>line.split(" ")).map(word => (word,1)).reduceByKey((x,y) => x+y).collect()
RDD 概念
RDD:弹性分布式数据集,spark的第一个数据结构。只读的。
RDD特性
a)RDD是各个分区的集合,包含多个分区Partition
b)RDD的分区使用多种算子操作进行计算
c)RDD之间存在依赖关系
根据是否经过shuffle流程拆分成窄依赖和宽依赖
d)<k,v>形式的RDD需要重新分区,可指定分区器Partitioner,默认是HashPartitioner
单值形式的RDD中的分区数,依赖于父RDD中的分区数
e)数据本地性(RDD中的分区优先加载本地的数据)
创建RDD
集合并行化
val list = List(1,2,3,4,5)
val rdd = sc.parallelize(list)
rdd.collect
读取外部数据源
val rdd = sc.textFile(README.md)
rdd.collect
算子操作
rdd算子根据生成的数据类型分成transformation(转换)和action(动作)
tarnsformation
从RDD转换为另一个RDD
ation
将RDD中的数据进行输出
简单案例
开发工具
IDEA + maven
Manven简介
功能
maven:自动化构建工具
1.依赖包管理
2.自动构建(编译->测试->打包->安装->发布->运行)
安装配置
配置conf/setttings.xml
<!—本地仓库位置-->
<localRepository>D:/repository</localRepository>
<!—配置中央仓库与远程仓库的镜像,主要原因是仓库访问比较慢,使用镜像快 mirrorOf如果是*,这个镜像是所有中央仓库和远程仓库的镜像;
mirrorOf如果是central,只是中央仓库的镜像
-->
<mirror>
<id>nexus-aliyun</id>
<mirrorOf>*</mirrorOf>
<name>Nexus aliyun</name>
<url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>
配置环境变量
【计算机】->【高级系统设置】->【高级】->【环境变量】
MAVEN_HOME=D:\apache-maven
path=xxx;%MAVEN_HOME%\bin
测试
命令行中执行 mvn –v
正确显示
Apache Maven 3.6.0 (97c98ec64a1fdfee7767ce5ffb20918da4f719f3; 2018-10-25T02:41:47+08:00)
Maven home: C:\Program Files\apache-maven-3.6.0\bin\..
Java version: 12, vendor: Oracle Corporation, runtime: C:\Program Files\Java\jdk-12
Default locale: zh_CN, platform encoding: GBK
OS name: "windows 10", version: "10.0", arch: "amd64", family: "windows"
spark笔记 环境配置的更多相关文章
- windows下spark开发环境配置
http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark ...
- Spark 单机环境配置
概要 Spark 单机环境配置 JDK 环境配置 Spark 环境配置 python 环境配置 Spark 使用示例 示例代码 (order_stat.py) 测试用的 csv 文件内容 (order ...
- Windows下Spark单机环境配置
1. 环境配置 a) java环境配置: JDK版本为1.7,64位: 环境变量配置如下: JAVA_HOME为JDK安装路径,例如D:\software\workSoftware\JAVA 在pa ...
- spark开发环境配置
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache ...
- [Struts2学习笔记] -- 环境配置
在创建好WebProject后,就可以开始进行Struts2的环境配置,可以到Struts2官网下载,本环境使用struts-2.3.24.1版本. 首先导入必要的jar包到WebProject的/W ...
- mac下spark单机环境配置笔记
1.安装scala 从http://www.scala-lang.org下载scala-2.11.7.tgz并解压缩 将解压缩的文件夹用mv指令移动到/usr/local/share mv [scal ...
- Hadoop/Spark开发环境配置
修改hostname bogon 为localhost 查看ip地址 [training@bogon ~]$ sudo hostname localhost [training@bogon ~]$ h ...
- 02-tornado学习笔记-环境配置
Ubuntu16.04开发环境 1.ubuntu默认root用户没有激活,激活root用户,就要为root用户创建密码 $sudo passwd root 2.修改主机名 $vi /etc ...
- Metasploit学习笔记——环境配置
<Metasploit渗透测试魔鬼训练营>书56页开始配置网络环境,一共五台机器,攻击机换成了自己更常用的kali,配置方法和back track相同. kali(攻击机) 10.10.1 ...
随机推荐
- oracle数据库(五)
PL/SQL基础 PL/SQL语言是对oracle数据库语言的扩展,是一种高性能的基于处理事务的语言,能运行在任何oracle环境中,支持所有数据处理命令,支持所有SQL数据类型和函数,支持所有ora ...
- XXE(外部实体注入攻击)
利用XXE漏洞可以进行拒绝服务攻击.文件读取.命令代码执行.SQL(XSS)注入.内外扫描端口和入侵内网站点等,内网探测和入侵是利用XXE中支持的协议进行内网主机和端口的发现,可以理解为使用XXE进行 ...
- python Image open读取网络图片本地显示 爬虫必备
#!/usr/bin/python3 # -*- coding: utf-8 -*- import requests from PIL import Image from io import Byte ...
- Python错误 -- try/except/finally 、调用栈、记录错误、抛出错误
Bug:程序编写有问题造成的错误,称之为Bug. debug:调试 注意:bug是程序本身有问题.有缺陷.系统漏洞 异常:完全无法在程序运行中预测的错误,例如写入文件的时候,磁盘满了,写不进去了 ...
- 文件搜索命令locate
与find命令不同,locate命令不会去搜索某一个分区或硬盘,而是直接在资料库中搜索,因此,搜索的速度要比find命令快得多,linux系统会定期更新资料库. 利用locate locate命令可以 ...
- 细说PHP-fpm
在理解php-fpm之前,我们要先搞清楚几个关键词以及他们之间的关系:CGI FastCGI:(Fast Common Gateway Interface),即快速通用网关接口,是一种让交互程序与We ...
- xms西软预定列表-房类市场
select b.descript,sum(a.quan) as quan,case WHEN c.descript is null THEN '团队预留' ELSE c.descript end a ...
- x64汇编第四讲,c / C++中调用x64汇编
目录 x64汇编第四讲,c / C++中调用x64汇编 一丶简介 1.说明 二丶C/C++调用 asm64.asm函数. 1.配置asm参与生成 2.给Asm文件添加函数代码 3.C/C++调用asm ...
- 「BJOI2018」治疗之雨
传送门 Description 有\(m+1\)个数,第一个数为\(p\),每轮:选一个数\(+1\),再依次选\(k\)个数\(-1\) 要求如果第一个数\(=N\),不能选它\(+1\),如果第一 ...
- Redis内存数据库
remote dictionary server 远程字典服务器 Redis默认支持16个数据库,不同的应用应该使用不同的Redis实例存储数据. 支持数据类型:字符串,哈希散列,列表,集合,有序 ...