Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解释器(2.6或者更高版本),请注意Spark暂不支持Python 3. 下载Spark 首先下载Spark并解压,我们从下载预编译版本的Spark开始.在浏览器中访问 http://spark.apache.org/down loads.html 选择"Pre-built for Hadoop 2.…
在Docker容器中安装jdk和spark 1.下载jdk和spark 可以使用迅雷等专业下载软件下载jdk和spark软件包,注意是linux版,这里直接给出下载地址: JDK下载地址 JDK进入后,需要选择同意之后,才能下载. https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html Spark 该地址是spark的软件包下载地址,直接下载即可. http://mirrors.sh…
一.前言:本文是个实践博客,演示如何结合使用自定义库和 HDInsight 上的 Spark 来分析日志数据. 我们使用的自定义库是一个名为 iislogparser.py的 Python 库. 每步的输入和对应的输出 纠正了原文中一个因版本引起的小问题 前提:你先在Azure HDinsight上有一个Apache Spark集群,(似乎现在只能是2.*版本的spark了) 二.将原始数据另存为 RDD 在本部分中,将使用与 HDInsight 中的 Apache Spark 群集关联的 Ju…
Sun wei  Sat, Feb 28 2015 3:07 AM Apache HBase是目前非常流行的NoSQL数据库,通过HDFS+Zookeep+Master+Region Server的架构避免了单点故障具有很高的可靠性.在Azure HDInsight中的HBase也提供了相应的功能,通过Azure Storage来代替HDFS并提供了3个zookeeper及在多个workernode上的region server,并提供每月99.9%的SLA.但是对于一些更苛刻的场景,用户还需要…
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari等(具体的组件请参看最后的附录).Azure HDInsight 支持 Windows的集群部署,也支持 Linux 集群部署.Hortonworks 是我目前所知唯一支持在 Windows 上部署的 Hadoop C…
Sun wei  Wed, Feb 25 2015 2:17 AM Apache Thrift 是一种可扩展的跨语言服务接口,可以通过内置的代码生成引擎帮助创建跨语言服务类库,Apache HBase 也是通过Thrift sever与Python,Ruby等其他程序开发语言进行交互.但是默认情况下Thrift Server默认不是启动的,需要手工处理一下.在Azure HDInight HBase中这种处理的方式有2种,我们可以根据使用场景来进行配置. 第一种方法相对简单,我们可以通过RDP远…
最近,由于工作原因,在Azure上的Ubuntu虚拟机中安装了Open edX 实例,安装过程遇到了不少问题, 在从网上找答案的过程中,学习到了不同的知识. 注:若Ubuntu虚拟机Setup在Global Azure上, 进行Open edX安装过程会比较顺利, 若Setup在China Azure上, 我至今没有安装成功过. 创建SSH的身份验证证书文件 使用 putty(http://www.putty.org)工具连接Ubuntu虚拟机, 提供了两种选择进行身份验证:用户名+密码; 使用…
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark…
Mac OSX系统中Hadoop / Hive 与 spark 的安装与配置 环境搭建 记录     Hadoop 2.6 的安装与配置(伪分布式) 下载并解压缩 配置 .bash_profile : export HADOOP_HOME=/Users/fan/Applications/hadoop-2.6.0 export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 配置 HDFS : etc/hadoop/core-site.xml: <con…
 Sunwei 9 Dec 2014 1:54 AM 传统的Hadoop系统提供给用户2个非常优秀的框架,MR计算框架和HDFS存储框架,尽管MR已经显得有些老迈而缓慢,但是HDFS还是很多应用系统的基石,很多应用都可以把HDFS作为系统的基本数据输入和输出方式.HDFS的基本特征就是数据是分布式切块存储,通过多副本冗余的方式来提供数据持久性保障,并且可以通过节点的增加来进行系统的扩容,这也是很多用户和系统所看重的特点.目前在Hadoop社区里面有各种各样的组件和解决方案用于处理海量数据.可靠性…