没想到,在我的hadoop2.2.0小集群上上安装传说中的Spark竟然如此顺利,可能是因为和搭建Hadoop时比较像,更多需要学习的地方还是scala编程和RDD机制吧 总之,开个好头 原来的集群:全源码安装,包括hadoop2.2.0 hive0.13.0 hbase-0.96.2-hadoop2  hbase-0.96.2-hadoop2   sqoop-1.4.5.bin__hadoop-2.0.4-alpha  pig-0.12.1 hive和hbase的版本要求比较严格,才能相互调用…
换了macbook pro之后,要重新安装hadoop,但是mac上的jdk跟windows上的不同,导致折腾了挺久的,现在分享出来,希望对大家有用. 一:下载jdk 选择最新版本下载,地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 安装完成之后,打开终端,输入java -version ,出现类似如下说明安装成功. java version "1.8.0" Java(TM) SE Runtim…
一.环境 硬件:虚拟机VMware.win7 操作系统:Centos-7 64位 主机名: hadoopServerOne 安装用户:root软件:jdk1.8.0_181.Hadoop-2.9.2 二.安装jdk 1.到普通用户目录/home/lims2.下载jdk-8u181-linux-x64.tar.gz移动到hadoop目录下,解压. tar -zxvf jdk-8u181-linux-x64.tar.gz .0_181 jdk1.8.0 三.配置ssh无密码登录 (我并没有这一步,前…
centos7安装spark(伪分布式) spark是由scala语言开发的,首先需要安装scala. Scala安装 下载scala-2.11.8,(与spark版本要对应) 命令:wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 解压到文件夹并配置环境变量 vim /etc/profile #scala export SCALA_HOME=/home/zck/software/scala export PAT…
在Hadoop集群的基础上搭建Spark 一.环境准备 在搭建Spark环境之前必须搭建Hadoop平台,尽管以前的一些博客上说在单机的环境下使用本地FS不用搭建Hadoop集群,可是在新版spark的安装之中,我们必须确定SPARK_DIST_CLASSPATH这个环境变量的值,而这个值恰恰就是Hadoop目录中的classpath,因为这个原因,我在搭建的过程中吃了很多的苦,希望大家引以为戒.现在让我们准备一下安装spark的实验环境: Ubuntu Kylin16.04.4 安装java环…
在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务 选择on yarn 模式:上面 Spark 在spark 服务中添加 在yarn 服务中添加 getWay 后重新 启动服务端 用hdfs 用户进入 spark bin 目录 cd /opt/cloudera/parcels/CDH/lib/spark/bin 执行 ./spark-submit --class org.apache.spark.examples.SparkPi --maste…
在linux上安装spark ,前提要部署了hadoop,并且安装了scala. 提君博客原创 对应版本 >>提君博客原创  http://www.cnblogs.com/tijun/  << 名称 版本 JDK 1.8.0 hadoop 2.6.0 scala 2.11.0 spark 2.2.0 第一步,下载  https://spark.apache.org/downloads.html 第二步,解压 tar -zxvf spark--bin-hadoop2..tgz 第三步…
Linux下一键安装包的基础上安装SVN及实现nginx web同步更新 一.安装 1.查看是否安装cvs rpm -qa | grep subversion 2.安装 yum install subversion 3.测试是否安装成功 /usr/bin/svnserve --version 如提示以下内容,说明已安装成功 -------------------------------------- svnserve,版本1.6.11 (r934486) 编译于Apr 11 2013,17:28…
Hadoop简介和安装及伪分布式 大数据概念 大数据概论 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产. 主要解决海量数据的存储和海量数据的分析计算问题. 按顺序给出数据存储单位:bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB. 1Byte =8bit 1KB=1024Byte 1MB=1024KB 1GB=10…
VMwareWorkstation平台Ubuntu14下安装配置伪分布式hadoop 安装VmwareStation 内含注册机. 链接:https://pan.baidu.com/s/1j-vKgDcMYyOYWg9QQs3FKg 提取码:byMB 下载与安装Ubuntu http://www.ubuntu.com 在vmware下安装镜像的过程中能跳过直接跳过,在命令行界面如果卡住直接断网即可.网络问题在后面会得到解决. 配置共享文件夹 图片太糊了,下载这个文档清晰点. 链接:https:/…