Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initializing Spark) 3.1 使用Spark Shell(Using the Shell) 4 弹性分布式数据集(RDDs) 4.1 并行集合(Parallelized Collections) 4.2 外部数据库(Externa…
Spark可以通过三种方式配置系统: 通过SparkConf对象, 或者Java系统属性配置Spark的应用参数 通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量 通过log4j.properties配置日志属性 Spark属性 Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性. 下面展示了在本地机使用两个线程并发执行的配置代码: val conf = new SparkConf() .setMas…
本文翻自官方博客,略有添加:https://github.com/mesos/spark/wiki/Spark-Programming-Guide Spark发指南 从高的面看,其实每一个Spark的用,都是一个Driver类,通运行用户定义的main函,在集群上行各种并发操作和算 Spark提供的最主要的抽象,是一个性分布式据集(RDD),它是一种特殊集合,可以分布在集群的点上,以函式程操作集合的方式,行各种各样的并发操作.它可以由hdfs上的一个文件建而,或者是Driver程序中,从一个已经…
本文转自:http://ifeve.com/spark-mesos-spark/ 在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使用Spark的主要优势有: 可以在Spark以及其他框架(frameworks)之间动态划分资源. 可以同时部署多个Spark实例,且各个实例间的资源分配可以调整. 工作原理 在独立部署的Spark集群中,下图里的Cluster Manager代表Spark master.然而,在Mesos集群中,…
转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linking with Spark) 3 初始化Spark(Initializing Spark) 3.1 使用Spark Shell(Using the Shell) 4 弹性分布式数据集(RDDs) 4.1 并行集合(Parallelized Collections) 4.2 外部数据库(External Datasets) 4.3 RDD操作(RDD Opera…
Spark版本:1.6.2 spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置.Spark支持三种集群:Standalone.Apache Mesos和Hadoop Yarn. 绑定应用程序依赖库 如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要包括依赖的第三方库.sbt和maven都有装配插件,可以指定hadoop和spark版本,而不将其打入jar包中,因为hadoop和spark的库由集群环境提供.然后通过spark安装目录下的spar…
除了部署在Mesos之上, Spark也支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群. 现在开始吧 使用sbt package对进行编译,可以参考开始指南.如果打算部署单独模式,就不需要安装Mesos. 手动方式启动集群 通过如下命令启动单独模式的master服务: ./runspark.deploy.master.Maste…
快速开始 本文将介绍如何用scala.java.python编写一个spark单击模式的程序. 首先你只需要在一台机器上成功建造Spark:做法: 进入Spark的根目录,输入命令:$ sbt/sbt package(由于天朝伟大的防火墙,大陆地区是无法成功的,除非你可以顺利FQ),不想爬墙的可以下载预编译好的Spark ,spark-0.7.2-prebuilt-hadoop1.tgz.gz   Spark shell的交互式分析 一.基础 概念: Spark的交互式脚本是一种学习API的简单…
注重版权,尊重他人劳动 转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html   Spark主要提供三种位置配置系统: 环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中: java系统性能:可以控制内部的配置参数,两种设置方法: 编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx”)语句设置相应系统属性值)…
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化.可以通过SQL.DataFrames API.Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理.用户可以根据自己喜好,在不同API中选择合适的进行处理.本章中所有用例均可以在spark-shell.pyspark shel…
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件.可以通过阅读应用提交文档了解如何在集群中提交应用. 组件 spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行.为了便于迁移,SparkContext可以支持多种类型的集群管理器(spark standalone.Yarn.Mesos).当与集群管理器创建连接后,spark在集群的节点上面申请executors,用于处理应用程序中的计算任…
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分类.回归.聚类.协同过滤.降维等,同时还包括底层的优化原语和高层的管道API. MLllib目前分为两个代码包: spark.mllib 包含基于RDD的原始算法API. spark.ml 则提供了基于DataFrames 高层次的API,可以用来构建机器学习管道. 我们推荐您使用spark.ml,…
1.关于存储: 1).可能的话,Spark节点与HDFS节点是一一对应的 2).如果做不到,那至少保证Spark节点与HDFS节点是一个局域网内 2.关于硬盘: 1).官方推荐每台机子4-8个硬盘,然后不需要做RAID(因为本身你的硬盘就是用来做),配置 spark.local.dir结点啦 3.关于内存 1).官方建议给spark配置当前机器内存的75%比较合理 2).当一个节点的内存超过200G的时候,建议将当前节点的worker换成两个,平均分配你的资源.  因为超过200G后,JAVA的…
由于NHibernate是被设计应用在许多不同环境中的,因此它存在很多配置参数.幸运的是,这些参数大多都有合理的默认值,而且NHibernate发布的时候伴随着一个App.config 例子(可在src\NHibernate.Test找到),这个例子已经包含了了很多配置信息.你通常只要把这个文件放如你的项目中然后定制它就行了. 编程式配置 一个NHibernate.Cfg.Configuration 实例表示一个完整的应用程序里面的类型和SQL数据库mapping信息的集合.Configurat…
配置 有多种方式可以配置redis,StackExchange.Redis提供了一个丰富的配置模型,在执行Connect (or ConnectAsync) 时被调用: var conn = ConnectionMultiplexer.Connect(configuration); 这里的 configuration 可以是一下类型当中的任意一项: 一个ConfigurationOptions 实例 一个包含配置数据的字符串 后者基本上是前者的字符串形式 基本的配置字符串 最简单 的例子就是只包…
apache原文地址:http://zookeeper.apache.org/doc/trunk/zookeeperOver.html ZooKeeper ZooKeeper: A Distributed Coordination Service for Distributed Applications Design Goals Data model and the hierarchical namespace Nodes and ephemeral nodes Conditional upda…
Overview This documentation is for Apache Flink version 1.0-SNAPSHOT, which is the current development version of the next upcoming major release of Apache Flink. Apache Flink is an open source platform for distributed stream and batch data processin…
使用java配置,跟spring security配置在一起 @EnableWebSecurity public class WebSecurityConfig extends WebSecurityConfigurerAdapter { @Override protected void configure(HttpSecurity http) throws Exception { http // ... .headers() .frameOptions().sameOrigin() .http…
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 DataFrames 2.1 入口:SQLContext(Starting Point: SQLContext) 2.2 创建DataFrames(Creating DataFrames) 2.3 DataFrame操作(DataFrame Operations) 2.4 运行SQL查询程序(Running…
原文:StackExchange.Redis 官方文档 时隔多年的翻译终于完成了第六个,也是很重要的的官方文档,是介绍有关链接管理,管道流水线和多路复用的 官方地址在这里:官方文档 下面做个汇总: StackExchange.Redis 官方文档(一) Basics StackExchange.Redis 官方文档(二) Configuration StackExchange.Redis 官方文档(三) Events StackExchange.Redis 官方文档(四) KeysScan St…
原文链接 在本附录中,我们会讨论一些初级的Spring AOP接口,以及在Spring 1.2应用中所使用的AOP支持. 对于新的应用,我们推荐使用 Spring AOP 2.0来支持,在AOP章节有介绍.但在已有的项目中,或者阅读数据或者文章时,可能会遇到Spring AOP 1.2风格的示例.Spring 2.0完全兼容Spring 1.2,在本附录中所有的描述都是Spring 2.0所支持的. Spring中的切入点API 一起看一下Spring是如何处理关键切入点这个概念. 概念 Spr…
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark api的扩展 能实现可扩展,高吞吐,可容错,的流式处理 从外接数据源接受数据流,处理数据流使用的是复杂的高度抽象的算法函数map reduce join window等 输出的数据可以存储到文件系统和数据库甚至是直接展示在命令行 也可以应用ml 和graph processing在这些数据流上 spar…
ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述 在这一部分,我们将要介绍ML Pipelines,它提供了基于DataFrame上统一的高等级API,可以帮助使用者创建和调试机器学习工作流: 目录: Pipelines中主要的概念: DataFrame Pipeline组件 Transformers:转换器 Estimators:预测器 Pipelines组件属性 Pipeline…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由@edwinhzhang发表于云+社区专栏 FairScheduler是yarn常用的调度器,但是仅仅参考官方文档,有很多参数和概念文档里没有详细说明,但是这些参明显会影响到集群的正常运行.本文的主要目的是通过梳理代码将关键参数的功能理清楚.下面列出官方文档中常用的参数: yarn.scheduler.fair.preemption.cluster-utilization-threshold The utilization thr…
TiDB官方文档: https://github.com/pingcap/docs-cn TiDB 整体架构 TiDB 集群主要包括三个核心组件:TiDB Server,PD Server 和 TiKV Server.此外,还有用于解决用户复杂 OLAP 需求的 TiSpark 组件 TiDB Server TiDB Server 负责接收 SQL 请求,处理 SQL 相关的逻辑,并通过 PD 找到存储计算所需数据的 TiKV 地址,与 TiKV 交互获取数据,最终返回结果.TiDB Serve…
Kryo作为一个优秀的Java序列化方案,在网上能找到不少测评,但未见系统的中文入门或说明文档.官方文档是最好的学习文档.虽然英文不差,但啃下来毕竟没母语来的舒服.这里抽出时间做些翻译,以方便大家查阅.为阅读流畅,文中选择性的未翻译某些专业词汇,如 buffer.scheme等, 并在双尖括号中给出了译者注释,形如 << 注释... >> .如遇到逻辑错误.阅读不通等,请参阅原文文档,并感谢您的指正. 翻译的源官方文档更新于2017年5月,本文初次翻译于2017年5月底. 官方文档…
HBase 官方文档 Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译) Revision History Revision 0.90.4 配置,数据模型使用入门 Abstract 这是 Apache HBase的官方文档, Hbase是一个分布式,版本化(versioned),构建在 Apache Hadoop和 Apache ZooKeeper上的列数据库. 我(译者)熟悉Hbase的源代码,从事Hbase的开发运维工…
HBase 官方文档0.90.4 Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译) Revision History Revision 0.90.4 配置,数据模型使用入门 Abstract 这是 ].现在官方的发行版都没有这个功能,所以你要自己打这个补丁.推荐看 Michael Noll写的详细的说明, ] [3]. 需要澄清的,这两个设置是针对操作系统的,不是Hbase本身的.有一个常见的错误是Hbase运行的用户,…
️ 引言 近两年,一直在折腾用FP与OO共存的编程语言Scala,采取以函数式编程为主的方式,结合TDD和BDD的手段,采用Domain Driven Design的方法学,去构造DDDD应用(Domain Driven Design & Distributed).期间,尝试了大量的框架:业务领域主要适用Akka.Scalaz等框架,UI和基础设施方面主要适用Spring.Kafka等框架,测试则主要适用Spock.ScalaTest.Selenium等框架. 两年的折腾,不能说没有一点收获.在…
写在前面 AutoMapper目录: [AutoMapper官方文档]DTO与Domin Model相互转换(上) [AutoMapper官方文档]DTO与Domin Model相互转换(中) [AutoMapper官方文档]DTO与Domin Model相互转换(下) 未完待续... 本篇目录: Flattening-复杂到简单 Projection-简单到复杂 Configuration Validation-配置验证 Lists and Array-集合和数组 Nested mapping…