Spark_总结一】的更多相关文章

Spark_总结四 1.Spark SQL     Spark SQL 和 Hive on Spark 两者的区别?         spark on hive:hive只是作为元数据存储的角色,解析,优化,执行都是spark做的             hive on spark: hive既作为存储的角色,又作为计算角色的一部分,hive将sql解析Spark任务,底层是Spark引擎(hive2.0以后推荐使用Spark引擎,转化为Spark任务,hvie2.0以前都是转化为MR任务)  …
Spark_总结五 1.Storm 和 SparkStreaming区别 Storm                      纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗资源)   Storm 优点 || 缺点 Storm 流式计算(扶梯)     优点:数据延迟度很低,Storm的事务机制要比SparkStreaming的事务…
转载标明出处 http://www.cnblogs.com/haozhengfei/p/07ef4bda071b1519f404f26503fcba44.html Spark_总结七_troubleshooting 1.yarn-client模式引起网卡流量激增问题? 一个Driver和Executor中的task频繁进行通信,通信消息特别多,通信的频率特别高,运行完一个stage,接着运行下一个stage,又是频繁的通信.    解决:yarn-cluster       yarn-clien…
Spark_总结一 1.Spark介绍     1.1什么是Spark?     Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发)          1.2Spark比Hadoop快的两个原因      第一,内存计算      第二,DAG(有向无环图) 2.Spark运行模式(四种 ) Local     多用于测试 Standalone Spark自带的资源调度器(默认情况下就跑在这里面) MeSOS 资源调度器,同Hadoop中的YARN YARN…
在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext,不过在Spark2.0中只要创建一个SparkSession就够了,SparkConf.SparkContext和SQLContext都已经被封装在SparkSession当中. 在与spark2.0交互之前必须先创建spark对象 val Spark = SparkSession .builder() .master(masterUrl) .appName(appName) .config("spark.s…
一.Spark支持的安装模式: 1.伪分布式(一台机器即可) 2.全分布式(至少需要3台机器) 二.Spark的安装配置 1.准备工作 安装Linux和JDK1.8 配置Linux:关闭防火墙.主机名.免密码登陆 2.安装部署Spark 解压:tar z-xvf spark-2.1.0-bin-hadoop2.7.tgz -C /root/trainning/ 核心配置文件 :con/spark-env.sh (cp spark-env.sh.template spark-env.sh) (伪分…
error: # ./spark-shell Caused by: javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://sd-9c1f-2eac:3306/hive?createDatabaseIfNotExist=true, username = hive. Terminating connection pool…
Scala中没有静态类型,但是有有“伴侣对象”,起到类似的作用. Scala中类对象中不可有静态变量和静态方法,但是提供了“伴侣对象”的功能:在和类的同一个文件中定义同名的Object对象:(须在同一文件中:main方法定义在Object对象中) private[spark] class Client( val args: ClientArguments, val hadoopConf: Configuration, val sparkConf: SparkConf) extends Loggi…
tpc 官方:http://www.tpc.org/ 一 简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminate objective, verifiable TPC performance data to the industry. TPC(The Transaction Processing Perform…
文章出处:http://www.cnblogs.com/haozhengfei/p/e353daff460b01a5be13688fe1f8c952.html Spark_总结五 1.Storm 和 SparkStreaming区别 Storm                      纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗…