Spark_总结一

【Spark_总结一】的更多相关文章

Spark_总结四

Spark_总结四 1.Spark SQL Spark SQL 和 Hive on Spark 两者的区别? spark on hive:hive只是作为元数据存储的角色,解析,优化,执行都是spark做的 hive on spark: hive既作为存储的角色,又作为计算角色的一部分,hive将sql解析Spark任务,底层是Spark引擎(hive2.0以后推荐使用Spark引擎,转化为Spark任务,hvie2.0以前都是转化为MR任务) …

Spark_总结五

Spark_总结五 1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗资源) Storm 优点 || 缺点 Storm 流式计算(扶梯) 优点:数据延迟度很低,Storm的事务机制要比SparkStreaming的事务…

Spark_总结七_troubleshooting

转载标明出处 http://www.cnblogs.com/haozhengfei/p/07ef4bda071b1519f404f26503fcba44.html Spark_总结七_troubleshooting 1.yarn-client模式引起网卡流量激增问题? 一个Driver和Executor中的task频繁进行通信,通信消息特别多,通信的频率特别高,运行完一个stage,接着运行下一个stage,又是频繁的通信. 解决:yarn-cluster yarn-clien…

Spark_总结一 1.Spark介绍 1.1什么是Spark? Apache Spark是一个开源的集群计算框架,使数据计算更快(高效运行,快速开发) 1.2Spark比Hadoop快的两个原因第一,内存计算第二,DAG(有向无环图) 2.Spark运行模式(四种 ) Local 多用于测试 Standalone Spark自带的资源调度器(默认情况下就跑在这里面) MeSOS 资源调度器,同Hadoop中的YARN YARN…

创建spark_读取数据

在2.0版本之前,使用Spark必须先创建SparkConf和SparkContext,不过在Spark2.0中只要创建一个SparkSession就够了,SparkConf.SparkContext和SQLContext都已经被封装在SparkSession当中. 在与spark2.0交互之前必须先创建spark对象 val Spark = SparkSession .builder() .master(masterUrl) .appName(appName) .config("spark.s…

Spark_安装配置_运行模式

一.Spark支持的安装模式: 1.伪分布式(一台机器即可) 2.全分布式(至少需要3台机器) 二.Spark的安装配置 1.准备工作安装Linux和JDK1.8 配置Linux:关闭防火墙.主机名.免密码登陆 2.安装部署Spark 解压:tar z-xvf spark-2.1.0-bin-hadoop2.7.tgz -C /root/trainning/ 核心配置文件 :con/spark-env.sh (cp spark-env.sh.template spark-env.sh) (伪分…

spark_运行spark-shell报错_javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.

error: # ./spark-shell Caused by: javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database. JDBC url = jdbc:mysql://sd-9c1f-2eac:3306/hive?createDatabaseIfNotExist=true, username = hive. Terminating connection pool…

Scala 中object和class的区别

Scala中没有静态类型,但是有有“伴侣对象”,起到类似的作用. Scala中类对象中不可有静态变量和静态方法,但是提供了“伴侣对象”的功能:在和类的同一个文件中定义同名的Object对象:(须在同一文件中:main方法定义在Object对象中) private[spark] class Client( val args: ClientArguments, val hadoopConf: Configuration, val sparkConf: SparkConf) extends Loggi…

【原创】大数据基础之Benchmark（2）TPC-DS

tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminate objective, verifiable TPC performance data to the industry. TPC(The Transaction Processing Perform…

Spark-Streaming总结

文章出处:http://www.cnblogs.com/haozhengfei/p/e353daff460b01a5be13688fe1f8c952.html Spark_总结五 1.Storm 和 SparkStreaming区别 Storm 纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 Storm支持动态调整并行度(动态的资源分配),SparkStreaming(粗粒度, 比较消耗…