spark的若干问题

问题1：SPARK与HADOOP之间的关系？

　　spark是一种高效处理hadoop分布式数据的处理引擎。借助hadoop的yarn框架，spark就可以运行在hadoop集群中。同时spark也可以处理存储在hdfs、Hbase、Cassandra、hive和所有存储在hadoop中的数据。spark可以采取类似于hadoop的mapreduce的方式处理一般数据，也可以采取stream的方式处理流式数据。

问题2：SPARK支持的开发语言？

　　spark支持scala、java和python三种语言。

问题3：SPARK目前可以支持多大的集群？

　　目前已知的spark最大集群节点数已经超过1000台。

问题4：SPARK中已经缓存的数据不适合存储在内存时，spark如何处理？

　　spark将数据序列化到磁盘中或者spark重新计算内存中的数据。默认情况下，spark采取重新计算的方式，即每次请求内存中的数据时，spark都是重新从磁盘中读取数据到内存，然后重新计算。可以通过修改storage level级别来修改处理方式(默认为MEMORY_AND_DISK)

问题5：spark如何在集群中执行？

　　如果集群中每个节点中都存在JAVA执行环境，那么也可以执行纯spark程序。如果你需要在Amazon EC2环境中执行spark程序，那么就需要在每个节点执行EC2 脚本。如果目前没有集群环境，那么可以通过local参数执行单机模式。local[n]中的n代表的是CPU核数，这个n也可以理解成spark并行执行数。

问题6：执行spark时一定需要存在hadoop环境么？

　　如果你不需要在集群环境中执行，那么就不需要hadoop环境。如果你需要执行集群环境，那么你需要搭建一下共享文件系统(NFS文件系统也可以的)。

问题7：学习spark有好资源么？

　　可以访问http://www.artima.com/scalazine/articles/steps.html做个入门，同时在apache也有一个 Scala tutorial for Java programmers和 Programming in Scala.如果你有JAVA开发经验和其他脚本开发经验，那么将程序迁移到scala中就很容易了。spark目前提供JAVA、scala和python三种API。

spark的若干问题的更多相关文章

spark standalone zookeeper HA部署方式
虽然spark master挂掉的几率很低,不过还是被我遇到了一次.以前在spark standalone的文章中也介绍过standalone的ha,现在详细说下部署流程,其实也比较简单. 一.机器 ...
spark storage之SparkEnv
此文旨在对spark storage模块进行分析,整理自己所看所得,等以后再整理. ok,首先看看SparkContext中sparkEnv相关代码: private[spark] def creat ...
大数据学习：Spark是什么，如何用Spark进行数据分析
给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧. 大数据在线学习什么是Apache Spark? Apache Spark是一 ...
掌握Spark机器学习库（课程目录）
第1章初识机器学习在本章中将带领大家概要了解什么是机器学习.机器学习在当前有哪些典型应用.机器学习的核心思想.常用的框架有哪些,该如何进行选型等相关问题. 1-1 导学 1-2 机器学习概述 1- ...
Spark踩坑记——初试
[TOC] Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
Spark 运行架构核心总结
摘要: 1.基本术语 2.运行架构 2.1基本架构 2.2运行流程 2.3相关的UML类图 2.4调度模块: 2.4.1作业调度简介 2.4.2任务调度简介 3.运行模式 3.1 standalo ...
geotrellis使用（二十四）将Geotrellis移植到CDH中必须要填的若干个坑
目录前言若干坑总结一.前言近期干了一件事情,将geotrellis程序移植到CDH中(关于CDH,可以参考安装ClouderaManager以及使用ClouderaManage ...
Spark基本工作流程及YARN cluster模式原理(读书笔记)
Spark基本工作流程及YARN cluster模式原理转载请注明出处:http://www.cnblogs.com/BYRans/ Spark基本工作流程相关术语解释 Spark应用程序相关的几 ...
Spark Streaming中空RDD处理及流处理程序优雅的停止
本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD ...

随机推荐

经典的排序算法java实现版
/** * * @author yuzhiping * @version 1.0 * 功能说明:计算机领域经典的算法 * */ public class sortAlgorithm<T exte ...
PS 如何制作环绕文字效果
最终效果地球素材 1.打开素材,使用椭圆选区工具按住shift绘制正圆选区 2.转到路径面板,将选区变为工作路径 3.选择文字工具,在路径上输入文字 4.ctrl+T,按住ctrl+alt,鼠标拖动 ...
SQL JOB 调用 SSIS package 权限问题
来自: http://www.cnblogs.com/sodacc/archive/2012/11/26/2789135.html 第一次用SQL给SSIS包排JOB的时候,都会遇到这样一个问题:单独 ...
【MVC5】First Unit Test
1.控制器测试注意点: 1.控制器中不要包含业务逻辑 2.通过构造函数传递服务依赖例:MathController中有一个Add的Action using FirstUnitTest.Servic ...
使用LBS(地理位置)
一.使用之前的简单封装的OkHttpUtil http://www.cnblogs.com/itfenqing/p/6758909.html 二.关键代码: public class MainActi ...
关于八数码问题中的状态判重的三种解决方法（编码、hash、<set>）
八数码问题搜索有非常多高效方法:如A*算法.双向广搜等但在搜索过程中都会遇到同一个问题.那就是判重操作(假设反复就剪枝),怎样高效的判重是8数码问题中效率的关键以下关于几种判重方法进行比較:编码. ...
javascript 冒泡排序算法
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8&quo ...
Odoo 8,9,10 制造领料、入库实践
Odoo12 已经支持在同一个仓库内,使用投入/产品库位, 不必采用本文的方法 Odoo 设计在仓库/库存进行生产,也就是在仓库/库存领料,产出, 例如如果要实现一般 ...
DASH简介及使用方法(FFmpeg, MP4Box)
DASH 为什么选择DASH YouTube采用DASH!其网页端及移动端APP都使用了DASH.DASH的其他采用者包括:Netflix, Hulu, … 什么是DASH 一种服务端.客户端的流媒体 ...
php SSL certificate problem: unable to get local issuer certificate
加上 curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,FALSE); 就可以了百度语音的demo: <?php header("Content-type ...

spark的若干问题

spark的若干问题的更多相关文章

随机推荐

热门专题