论文内容: 待整理 参考文献: Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NS…
原文:http://shiyanjun.cn/archives/744.html 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing.下面的翻译,我是基于科学网翻译基础上进行优化.修改.补充,这篇译文翻译得很不错.在此基础上,我增加了来自英文原文的图和表格数据,以及译文中缺少的未翻译的部分.如果翻译措辞或逻辑有误,欢迎…
转载自:http://shiyanjun.cn/archives/744.html 摘要 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算.现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见:二是交互式数据挖掘工具.这两种情况下,将数据保存在内存中能够极大地提高性能.为了有效地实现容错,R…
论文内容: 待整理 参考文献: Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotCloud 2010. June 2010. Spark :工作组上的集群计算的框架…
Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式)        集群规划:    主机        IP                    软件      进程    sc1        192.168.1.61    spark    Master.Worker    sc2        192.168.1.62    spark    Worker    sc3        192.168.1.63    spark    W…
(只有文字没有图,图请参考http://research.google.com/archive/mapreduce.html) MapReduce: 一种简化的大规模集群数据处理法 翻译:风里来雨里去 原文:MapReduce: Simplified Data Processing on Large Clusters 作者:JeffreyDean and Sanjay Ghemawat 转载请保留以上信息 摘要 MapReduct是一个用于处理与生成大型数据集的编程模型及相关实现.用户分别指定一…
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 先来看下官网对RDD.DataSet.DataFrame的解释: 1.RDD Resilient distributed dataset(RDD),which is a fault-tolerant collection of elements that can be operated on in parallel RDD——弹性分布式数据集,分布在集群的各个结点上具有容错性…
论文内容: 待整理 参考文献: An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构…
文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD.DataFrame和Dataset When to use them and why 什么时候用他们,为什么? tale [tel] 传说,传言;(尤指充满惊险的)故事;坏话,谣言;〈古〉计算,总计 作者介绍 Jules S. Damji是Databricks在Apache Spark社区的布道者.他也是…
文章标题 Introducing DataFrames in Apache Spark for Large Scale Data Science 一个用于大规模数据科学的API——DataFrame 作者介绍 Reynold Xin, Michael Armbrust and Davies Liu 文章正文 Today, we are excited to announce a new DataFrame API designed to make big data processing even…
如果想在一台电脑上搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机.但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的.这个时候我们可以使用Docker.Docker可以看做是一种轻量级的虚拟机,占用资源少,用起来和传统的虚拟机很像,使用的时候可以类比VMware或VirtualBox.本文不能让你精通Docker,但能让你快速上手,并搭建好这个集群,前提是你对Hadoop和Linux有所了解. 〇.准备工作1.准备Docker宿主机目前Docker只能运行在内…
文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zaharia 文章正文 Developers have always loved Apache Spark for providing APIs that are simple yet powerful, a combination of traits that makes complex analys…
一:数据峰值的巨大影响 1. 数据确实不稳定,比如晚上的时候訪问流量特别大 2. 在处理的时候比如GC的时候耽误时间会产生delay延迟 二:Backpressure:数据的反压机制 基本思想:依据上一次计算的Job的一些信息评估来决定下一个Job数据接收的速度. 怎样限制Spark接收数据的速度? Spark Streaming在接收数据的时候必须把当前的数据接收完毕才干接收下一条数据. 源代码解析 RateController: 1. RateController是监听器.继承自Stream…
系列目录 前面的demo我们使用的都是只有一个windows主节点的的jenkins,实际生产环境中,一个节点往往是不能满足需求的.比如,.net项目要使用windows节点构建,java项目如果部署在linux服务器上往往也需要目标类型的linux节点做为构建节点,开发中使用的jdk版本不同也可能需要不同的构建主机.构建docker镜像往往也需要linux主机(强烈不建议使用docker for windows 进行linux环境的docker构建).本节我们讲解如何搭建一个主节点为windo…
上一篇文章<redis pipeline批量处理提高性能>中我们讲到redis pipeline模式在批量数据处理上带来了很大的性能提升,我们先来回顾一下pipeline的原理,redis client与server之间采用的是请求应答的模式,如下所示: Client: command1 Server: response1 Client: command2 Server: response2 - 在这种情况下,如果要完成10个命令,则需要20次交互才能完成.因此,即使redis处理能力很强,仍…
前面我们二进制部署K8S集群时,三台master节点仅仅作为集群管理节点,所以master节点上中并未部署docker.kubelet.kube-proxy等服务.后来我在部署mertics-server.istio组件服务时,发现无法正常运行,后来尝试把master节点也加入集群进行调度,这些组件才能够正常部署,并可以正确获取集群资源.所以本篇文章主要介绍如何在已经部署好集群的master节点部署docker.kubelet.kube-proxy等服务. 注意:本篇文章操作是基于我之前部署集群…
背景 笔者所在的业务线,最初化分为三个服务,由于业务初期业务复杂度相对简单,三个业务服务都能很好的独立完成业务功能. 随着产品迭代,业务功能越来越多后慢慢也要面对高并发.业务解耦.分布式事务等问题,所以经过团队内部讨论,引入 RocketMQ 消息中间件来更好的处理业务. 由于公司内部业务线部署相互独立,我们业务线对引入 RocketMQ 的需求也比较急切,所以打算自己搭建一套高可用的 RocketMQ 集群,同时对于自建的 RocketMQ 集群需要如下特性: 高可用 高并发 可伸缩 海量消息…
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 该篇主要介绍DataSet与DataFrame. 一.生成DataFrame 1.1.通过case class构造DataFrame package com.personal.test import org.apache.spark.sql.{Encoder, Encoders, SparkSession} object DataFrameTest { case class…
resilient [rɪˈzɪljənt] 能复原的;弹回的;有弹性的;能立刻恢复精神的;社会渣滓 dryad ['draɪæd] 森林女神 树妖 present [ˈprɛznt]  目前的;现在的;出席的;[语法学]现在时的 提出;出现;介绍;赠送 tolerant [ˈtɑ:lərənt] 宽容的;容忍的,忍受的;(植物.动物或机器)能在困难条件下生存(或操作)的;能耐…的 fault-tolerant  ['fɔ:ltt'ɒlərənt] 容错的 manner [ˈmænɚ] 方式,方…
文章标题 What’s new for Spark SQL in Apache Spark 1.3 作者介绍 Michael Armbrust 文章正文 The Apache Spark 1.3 release represents a major milestone for Spark SQL.  In addition to several major features, we are very excited to announce that the project has officia…
文章标题 Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop Deep dive into the new Tungsten execution engine 作者介绍 Sameer Agarwal, Davies Liu and Reynold Xin 文章正文 参考文献 https://databricks.com/blog/2016/05/23/apache-spark-as-a-compile…
文章标题 Deep Dive into Spark SQL’s Catalyst Optimizer 作者介绍 Michael Armbrust, Yin Huai, Cheng Liang, Reynold Xin and Matei Zaharia 文章正文 参考文献 https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html…
一.前述 本来有套好好的集群,可是不知道为什么虚拟机镜像文件损坏,结果导致集群不能用.所以不得不重新搭套集群,借此机会顺便再重新搭套吧,顺便提醒一句大家,自己虚拟机的集群一定要及时做好快照,最好装完每个东西后记得拍摄快照.要不搞工具真的很浪费时间,时间一定要用在刀刃上.废话不多说,开始准备环境搭建,本集群搭建完全基于企业思想,所以生产集群亦可以参照此搭建. 二.集群规划 三.配置 1.配置集群节点之间免密操作. 因为在node01(namenode)节点要启动datanode节点,所以需要配置n…
日志___2019.1.25 基于hadoop集群搭建zookeeper集群 Filezilla上传zookeeper压缩包到主节点 安装zookeeper到/usr/local目录 命令:tar –zxf zookeeper3.4.tar.gz /usr/local 更名命令: mv zookeeper3.4  zookeeper 配置zookeeper  复制zoo_sample.cfg成副本zoo.cfg 命令:cp conf/zoo_sample.cfg zoo.cfg 修改 zoo.c…
预览 在高层次上,每一个Spark应用(application)都包含一个驱动程序(driver program),该程序运行用户的主函数(main function),并在集群上执行各种并行操作. Spark提供的主要抽象是一个弹性分布式数据集(resilient distributed dataset,简称RDD),它是在集群节点间进行分区的元素集合,可以并行操作.RDD是通过Hadoop文件系统中的文件创建或者由驱动程序中现有的集合转换得到的,用户可以要求Spark将RDD持久化到内存中,…
spark集群中的节点可以只处理自身独立数据库里的数据,然后汇总吗? 修改 我将spark搭建在两台机器上,其中一台既是master又是slave,另一台是slave,两台机器上均装有独立的mongodb数据库.我是否可以让它们只统计自身数据库的内容,然后将结果汇总到一台服务器上的数据库里?目前我的代码如下,但是最终只统计了master里的数据,另一个worker没有统计上. val config = new Configuration() //以下代码表示只统计本机数据库上的数据,猜测问题可能…
一.Spark简介 1.什么是Spark Apache Spark是一种快速的集群计算技术,基于Hadoop MapReduce技术,扩展了MapReduce模型,主要特性是在内存中集群计算,速度更快.即使在磁盘上进行复杂计算,Spark依然比MapReduce更加高效.另一方面,Apache Spark扩展了MapReduce模型以使用更多类型的计算. 1.1 使用基于Hadoop的Spark Spark与Hadoop是兼容的,Hadoop组件可以通过以下方式与Spark一起使用: HDFS…
Spark 集群相关 table td{ width: 15% } 来源于官方, 可以理解为是官方译文, 外加一点自己的理解. 版本是2.4.4 本篇文章涉及到: 集群概述 master, worker, driver, executor的理解 打包提交,发布 Spark application standalone模式 SparkCluster 启动 及相关配置 资源, executor分配 开放网络端口 高可用(Zookeeper) 名词解释 Term(术语) Meaning(含义) App…
  Spark简介 官网地址:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台.它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的.低延迟的数据分析应用程序.它扩展了广泛使用的MapReduce计算 模型.高效的支撑更多计算模式,包括交互式查询和流处理.spark的一个主要特点是能够在内存中进行计算,及时依赖…