spark复习总结02

1.spark执行原理图 spark程序启动后创建sparkContext作为程序的入口,sparkContext可以与不同类的集群资源管理器(Cluster Manager)进行通信,从而获得程序运行所需要的资源, 获取到集群中其他工作节点(worker node)上对应的Executors,之后sparkContext将任务分发给executor进行执行. 1) 构建Spark Application运行环境在Driver Program中新建SparkContext(包含SparkCon…

【Spark 深入学习 02】- 我是一个凶残的spark

学一门新鲜的技术,其实过程都是相似的,先学基本的原理和概念,再学怎么使用,最后深究这技术是怎么实现的,所以本章节就带你认识认识spark长什么样的,帅不帅,时髦不时髦(这货的基本概念和原理),接着了解spark有什么必杀技(spark的各种大招),我们如何使用它的必杀技,最后看看spark如何更加高效的组合它的必杀技,以及spark是如何练就这一身必杀技的. 一.spark帅不帅 · 五官长相-spark架构图鼻子.眼睛.耳朵.眉毛.口,缺一不可,这斯就经长什么鸟样,先上照片,如下所示…

spark复习笔记(1)

使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" ") 来实现文件的加载 val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件,以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集 (2)元素拿来之后对集合中的每个元…

spark复习笔记(7):sparkstreaming

一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取.并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和window.最后,处理后的数据可以推送到文件系统,数据库和实时仪表盘.[DStresam]:离散流,连续的RDD序列.准实时计算,以batch处理作业. 2.在内部,它的工作原理如下.Spark Stream…

spark复习笔记(7):sparkSQL

一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过程该模块能在spark上运行sql语句 3.DataFrame //数据框,表在spark中的数据框,sparkSQL就能以完全分布式的方式来处理数据.组合数据框可以来自各种数据源来进行查询的处理 4.SparkSQL //SQL | DataFrame API 5.RDD[Customer…

spark复习笔记(6):RDD持久化

在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的每个分区都会保存到内存中,这使得将来的action更加的快. 缓存技术是迭代算法和交互式查询的重要工具可以使用persist()和cache()方法进行rdd的持久化,persist()是持久化到磁盘,而cache()是缓存到内存 action第一次计算的时候才会发生persist() spark…

spark复习笔记(6):数据倾斜

一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao…

spark复习笔记(4):RDD变换

一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发工作创建和执行. 2.map()是对每个元素进行变换,应用变换函数,返回的是一个新的分布式数据集,map就是对分区中的每个元素进行一个函数的调用,所以导致出现了那么多: map() //对每个元素进行变换,应用变换函数,(T)=>V, package com.jd.test import org.a…

spark复习笔记(5):API分析

0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎,提供内存计算和对外部数据集的引用. 3.spark sql (1)Spark SQL是Spark Core之上的组件,引入了新的数据抽象称为SchemaRDD,它为结构化和半结构化数据提供支持. 4.…

spark复习笔记(4):spark脚本分析

1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information regarding copyright ownership. #…

spark复习笔记(3)

在windows上实现wordcount单词统计一.编写scala程序,引入spark类库,完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要入口点,代表着到spark集群的连接,可用于在这些集群上创建RDD(弹性分布式数据集),累加器和广播变量.在每一个JVM上面只允许一个活跃的sparkcontext.在创建一个新的RDD之前,你应该停止这个活跃的SparkContext 2.sparkconf配置对象 sparkconf是对spar…

spark复习笔记(3)：使用spark实现单词统计

wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a.txt文本文件 2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中去,加载到内存之后,整个RDD就是一个数组,就以换行符来做分隔 val rdd1 = sc.textFile("/home/centos/a.txt") 3.对2中产生的数组按空格进行切割,…

spark复习笔记(2)

之前工作的时候经常用,隔了段时间,现在学校要用学的东西也忘了,翻翻书谢谢博客吧. 1.什么是spark? Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架…

spark复习总结03

1.DataFrame的创建方式 1.1 通过加载外部文件创建 //通过sqlContext读取json文件创建DataFrame DataFrame dataFrame=sqlContext.read().json("src/main/resources/datafromcreate.txt");//通过两种方式加载json文件//sqlContext.read().json("src/main/resources/datafromcreate.txt");sql…

spark复习总结01

1.MapReduce和spark的对比 MapReduce Spark 数据存储结构:磁盘hdfs文件系统的split 使用内存构建弹性分布式数据集RDD,对数据进行运算和cache 编程范式:Map+Reduce DAG(有向无环图):Transformation+action 计算中间数据放在磁盘,io及序列化,反序列化代价大计算中间数据在内存中维护,存储速度是磁盘的几个数量级 Task以进程的方式维护,任务启动就要数秒 Task以线程的方式维护,对小数量集的读取能达到亚秒级的延迟 2.…

Spring MVC 复习笔记02

1. 非注解的处理器映射器和适配器 1.1 非注解的处理器映射器处理器映射器:org.springframework.web.servlet.handler.BeanNameUrlHandlerMapping 另一个映射器:org.springframework.web.servlet.handler.SimpleUrlHandlerMapping 多个映射器可以并存,前端控制器判断url能让哪些映射器映射,就让正确的映射器处理. 1.2 非注解的处理器适配器 org.springframe…

mybatis 复习笔记02

1. 一对一查询: 1). 实体类: 2). 定义resultMap  <resultMap type="cn.itcast.mybatis.po.Orders" id="OrdersUserResultMap">  <!-- id:指定查询列中的唯一标识…

JAVA复习笔记02

16.interface中的成员变量默认为public static final类型,方法只能是public(默认为public) 17.内部类访问外部类成员: Outer.this.num; 18.一道有趣的题目使用内部类实现该程序.(答案附在本文末尾) interface Inter { void show(); } class Outer { /* */ } public class Test { public static void main(String[] args) { Oute…

Python复习笔记02

语句表达式: 在Python中支持遍历循环的对象:可迭代器对象,支持迭代协议的对象比如列表list没有迭代功能只是可迭代对象迭代:迭代协议 --> 例:f.__next__() 属于f的迭代方法,全局的迭代方法为next(f) 迭代工具 --> for,…推导… map… 迭代器对象已经实现可迭代对象 iter() --> __iter__()用于生成迭代器 iter(f) is f 判断f是否有迭代功能内置可迭代对象 --> range() map(函…

Servlet&JSP复习笔记 02

1.Servlet获取请求参数获取请求参数依靠的是表单元素的name属性,广泛意义来说id属性是给客户端使用的,name属性是服务器使用的. a.获取Name-Value的方法: - getParameter(); 获取单值表单元素提交的.例如:文本框,密码框; b.获取Name-Values的方法: - getParameterValues(); 获取一组表单元素提交的.例如:复选框. 2.Get请求与Post请求的区别: Get请求: a.在URL中传值; b.只能提交少量的数据; c.明…

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现（转）

原文链接:Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现 Apache Spark 1.3.0引入了Direct API,利用Kafka的低层次API从Kafka集群中读取数据,并且在Spark Streaming系统里面维护偏移量相关的信息,并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效.但是因为是Spark Streaming系统自己维护Kafka的读偏移量,而Spark Streaming系统并没有将这…

spark SQL学习（spark连接 mysql）

spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/14. */ object JdbcOperation { def main(args…

spark SQL学习（数据源之json）

准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {"id":2, "name":"jack", "age":19} {"id":3, "name":"marry", "age":17} 存放目录:hdfs:…

spark SQL学习（数据源之parquet）

Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/3. */ object ParquetLoadData { def main(args: Array[Stri…

在standalone模式下运行yarn 0.9.0对HDFS上的数据进行计算

1.通读http://spark.incubator.apache.org/docs/latest/spark-standalone.html 2.在每台机器上将spark安装到/opt/spark 3.在第一台机器上启动spark master. [root@jfp3-1 latest]# ./sbin/start-master.sh 在logs目录查看日志: [root@jfp3-1 latest]# tail -100f logs/spark-root-org.apache.spark.d…

Caused by: java.net.ConnectException: Connection refused: master/192.168.3.129:7077

1:启动Spark Shell,spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序. 启动Spark Shell,出现的错误如下所示: [root@master spark--bin-hadoop2.]# bin/spark-shell --master spark://master:7077 --executor-memory 512M --total-executor-cores 2 // :: WARN…

python就业班-淘宝-目录.txt

卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python就业班-淘宝-目录.txt│ ├─01 网络编程│ ├─01-基本概念│ │ 01-网络通信概述.flv│ │ 02-IP地址.flv│ │ 03-Linux.windows查看网卡信息.flv│ │ 04-ip地址的分类-ipv4和ipv6介绍.flv│ │ 05-(重点)端口.mp4│ │ 06-端口分类:知名端口.动态端口.flv│ │ 07-socket介绍.mp4│ │ │ ├─02…