1. spark 是什么?

>Apache
Spark 是一个类似hadoop的开源高速集群运算环境  与后者不同的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.而且提tools:Spark
SQL
 for SQL 处理结构化数据, MLlib for
machine learning, GraphX for
graph processing, and Spark
Streaming
.

2. spark streaming

Spark Streaming: 构建在Spark上处理Stream数据的框架,主要的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是由于Spark的低延迟运行引擎(100ms+),尽管比不上专门的流式数据处理软件。也能够用于实时计算,还有一方面相比基于Record的其他处理框架(如Storm)。一部分窄依赖的RDD数据集能够从源数据又一次计算达到容错处理目的。

3. build spark:

1) 安装 scala

scala 语言非常简洁,属于函数式语言。其简洁度令人惊讶(代码量仅仅有java的十分之中的一个)值得学习。

http://www.scala-lang.org/download/

下载,解压 :tar -zxvf filename  loaction

改动环境变量:vim /etc/profile  在PATH后增加scala解压后文件位置。

>  export SCALA_HOME =
$/opt/scala/scala-2.11.7

>  export SPARK_HOME=$opt/spark/spark-1.4.1

           >  export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin

update( very important or you may failed to change the path)  >
source /etc/profile

检測:  scala -version

2)安装 spark streaming

下载这个版本号: spark-1.4.1-bin-hadoop2.6.tgz 
 (一定不要选source code 须要自己编译)

http://spark.apache.org/downloads.html

解压: tar -zxvf filemname location  (文件名称太长善用 tab键)

3)几个命令

启动Spark

在Spark执行之前,首先须要让Spark集群启动,假设须要用到hadoop的HDFS的话,也须要把HDFS启动起来。

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin (注意依据自己的安装文件夹定)

       ./stop-master.sh

    以及   ./start-master.sh

>cd /docker/opt/spark-1.4.0-bin-hadoop2.6/sbin; 
     ./stop-slave.sh; 
     ./start-slave.sh spark://XXXXX
>bin/spark-shell.sh   启动spark shell

在SPARK_HOME/sbin文件夹:

  • sbin/start-master.sh-在机器上运行脚本。启动 master .
  • sbin/start-slaves.sh- 启动conf/slaves中指定的每个slave .
  • sbin/start-all.sh- 同一时候启动master 以及 上面所说文件里指定的slave
  • sbin/stop-master.sh- 停止通过bin/start-master.sh脚本启动的master
  • sbin/stop-slaves.sh- 停止通过bin/start-slaves.sh启动的slave .
  • sbin/stop-all.sh- 停止上述的两种启动脚本启动的master和slave

执行:

    想在想在spark上跑自己的代码,须要我们打包成jar ,使用 spark-streaming的命令。可是须要用到sbt的tool,我们下一节再介绍。
參考:1. http://spark.apache.org/docs/latest/index.html
2. http://blog.csdn.net/yunlong34574/article/details/39098815
3.http://www.oschina.net/translate/spark-standalone?cmp

【大数据处理架构】1.spark streaming的更多相关文章

  1. Hadoop1-认识Hadoop大数据处理架构

    一.简介概述 1.什么是Hadoop Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于java语言开发,具有很好的跨平 ...

  2. Hadoop2-认识Hadoop大数据处理架构-单机部署

    一.Hadoop原理介绍 1.请参考原理篇:Hadoop1-认识Hadoop大数据处理架构 二.centos7单机部署hadoop 前期准备 1.创建用户 [root@web3 ~]# useradd ...

  3. 大数据架构之:Spark

    Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时.数据挖 ...

  4. 大数据技术原理与应用:【第二讲】大数据处理架构Hadoop

    2.1 Hadoop概论 创始人:Doug Cutting 1.简介: 开源免费; 操作简单,极大降低使用的复杂性; Hadoop是Java开发的; 在Hadoop上开发应用支持多种编程语言.不限于J ...

  5. 大数据技术原理与应用——大数据处理架构Hadoop

    Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以 ...

  6. 大数据处理架构hadoop

    Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构.它是基于java语言开发的,具有很好的跨平台特性,其核心是分布式文件系 ...

  7. 《大数据技术应用与原理》第二版-第二章大数据处理架构Hadoop

    2.1概述 Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面 ...

  8. Spark Streaming:大规模流式数据处理的新贵(转)

    原文链接:Spark Streaming:大规模流式数据处理的新贵 摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业.本文阐释了Spark Str ...

  9. Spark Streaming:大规模流式数据处理的新贵

    转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data 提到Spark Streaming,我们不得不说一 ...

随机推荐

  1. Sass的的使用三

    [Sass]普通变量与默认变量普通变量定义之后可以在全局范围内使用. 默认变量sass 的默认变量仅需要在值后面加上 !default 即可.sass 的默认变量一般是用来设置默认值,然后根据需求来覆 ...

  2. CentOS 7 挂载ntfs磁盘格式的U盘

    因为CentOS 默认不识别NTFS的磁盘格式,所以我们要借助另外一个软件来挂载,那就是ntfs-3g了 自带的yum源没有这个软件,要用第三方的软件源,这里我用的是阿里的epel. 1. 切换到系统 ...

  3. 迅为双核imx6DL核心板_ARM定制专家_Cortex SATA 千兆网 4G GPS

    核心板参数 尺寸:51mm*61mm CPU:Freescale Cortex-A9 双核精简版 i.MX6DL,主频 1.2 GHz 内存:1GB DDR3 存储:8GB EMMC 存储 EEPRO ...

  4. Android(java)学习笔记193:ContentProvider使用之获得系统联系人信息01

    1.系统联系人的数据库(3张最重要的表) (1)raw_contacts  联系人表        保存联系人的id   contact_id (2)data 数据表       保存联系人的数据 ( ...

  5. jQuery 超过字符截取部分用星号表示

    $(function(){ var str = $('#num').text(); if (str.length >15) { var strend = str.substring(4,str. ...

  6. CAD参数绘制椭圆(网页版)

    在CAD设计时,需要绘制椭圆,用户可以设置椭圆的基本属性. 主要用到函数说明: _DMxDrawX::DrawEllipse 绘制椭圆.详细说明如下: 参数 说明 DOUBLE dCenterX 椭圆 ...

  7. vue脚手架引入swiper

    方法一: 下载swiper: npm install swiper --save-dev swiper4.0使用入口:http://www.swiper.com.cn/usage/index.html ...

  8. Mysql--查询相关语句总结

    一.查询各个部门的最高工资及姓名,其中薪资字段是字符串类型: 优化前: SELECT *FROM (SELECT a.`deptno`, a.`sal`, a.`ename` FROM emp a O ...

  9. JVM优化(中)

    09.垃圾收集器之串行垃圾收集器: 1.-Xms512m 等价于 -XX:InitialHeapSize=512设置JVM初始堆内存大小:-Xmx2048m 等价于 -XX:MaxHeapSize=2 ...

  10. 2019浙师大校赛(浙大命题)(upc复现赛)总结

    2019浙师大校赛(浙大命题)(upc复现赛)总结 早上九点开始.起得迟了,吃了早饭慌慌张张跑过去,刚到比赛就开始了. 开始分别从前往后和从后往前看题,一开始A题,第一发WA,第二次读题发现漏看了还有 ...