说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wordcount(master.slave1和slave2)(博主推荐) Spark on YARN分为两种: YARN cluster(YARN standalone,0.9版本以前)和 YARN client.    如果需要返回数据到client就用YARN client模式. 如果数据存储到hd…
引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12) 然后,安装目录是在/home/hadoop/app下. 官方建议在master机器上安装Hue,我这里也不例外.安装在bigdatamaster机器上. Hue版本:hue-3.9.0-cdh5.5.4 需要编译才能使用(联网) 说给大家的话:大家电脑的配置好的话,一定要安装clou…
不多说,直接上干货! 我这里,采取的是ubuntu 16.04系统,当然大家也可以在CentOS6.5里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数据搭建各个子项目时配置文件技巧(适合CentOS和Ubuntu系统)(博主推荐) 新建用户组.用户.用户密码.删除用户组.用户(适合CentOS.Ubuntu系统) VMware里Ubuntu-16.…
不多说,直接上干货! 我这里,采取的是CentOS6.5,当然大家也可以在ubuntu 16.04系统里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数据搭建各个子项目时配置文件技巧(适合CentOS和Ubuntu系统)(博主推荐) 新建用户组.用户.用户密码.删除用户组.用户(适合CentOS.Ubuntu系统) VMware里Ubuntu-16.…
不多说,直接上干货! Storm的版本选取 我这里,是选用apache-storm-1.0.2.tar.gz apache-storm-0.9.6.tar.gz的集群搭建(3节点)(图文详解) 为什么我用过storm-0.9.6版本,我还要用storm-1.0.2? storm集群也是由主节点和从节点组成的. storm版本的变更:  storm0.9.x  storm0.10.x  storm1.x  前面这些版本里面storm的核心源码是由Java+clojule组成的.  storm2.x…
不多说,直接上干货! Storm的版本选取 我这里,是选用apache-storm-0.9.6.tar.gz Storm的本地模式安装 本地模式在一个进程里面模拟一个storm集群的所有功能, 这对开发和测试来说非常方便.以本地模式运行topology跟在集群上运行topology类似. 要创建一个进程内“集群”,使用LocalCluster对象就可以了: import backtype.storm.LocalCluster; LocalCluster cluster = new LocalCl…
 前期博客 kibana-4.6.3-linux-x86_64.tar.gz的下载(图文详解) 因为,我的机器情况是如下: 1.上传 [hadoop@master app]$ rz [hadoop@master app]$ ll total drwxrwxr-x hadoop hadoop Apr : elasticsearch- drwxrwxr-x hadoop hadoop Apr : elasticsearch- lrwxrwxrwx hadoop hadoop Apr : es ->…
首先,对于Apache Kylin的安装,我有话要说. 由于Apache Kylin本身只是一个Server,所以安装部署还是比较简单的.但是它的前提要求是Hadoop.Hive.HBase必须已经安装且能正常工作. 以下,是我集群环境的情况  Apache kylin的官网安装文档 http://kylin.apache.org/cn/docs21/install/manual_install_guide.html 注意:本博文,立足于对Apache Kylin的单节点部署. 我这里,是安装在…
前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz +hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐)  Spark运行模式概述 Spark On YARN模式 这是一种很有前景的部署模式.但限于YARN自身的发展,目前仅支持粗粒度模式(Coarse-grained Mode).这是由于YARN上的Container资源是不可以动态伸缩的,一旦Container启动之后,可使用的资源不能再发生…
不多说,直接上干货! 最近,开始,进一步学习spark的最新版本.由原来经常使用的spark-1.6.1,现在来使用spark-2.2.0-bin-hadoop2.6.tgz. 前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐) 这里我,使用的是spark-2.2.0-bin-hadoop2.6.tgz + hadoop-2.6.0.tar…
进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了. 先给大家来梳理下.spark的运行模式和常用的standalone.yarn部署.这里不多赘述,自行点击去扩展. 1.Spark运行模式概述 2.Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2) 3.Spark standalone简介与运行wordcount(master.slave1和slave2) 4.Spark on…
Hadoop集群搭建安装过程(三)(图文详解---尽情点击!!!) 一.JDK的安装 安装位置都在同一位置(/usr/tools/jdk1.8.0_73) jdk的安装在克隆三台机器的时候可以提前安装,通过scp使安装文件和环境配置(/etc/profile)都拷贝过去,并使三台机 器都通过(source /etc/profile)命令使之生效 下载JDK(本次安装使用的版本是jdk1.8.0_73) 解压JDK : tar -zxvf /usr/tools/jdk-7u72-linux-x64…
不多说,直接上干货! 请移步 Spark on YARN简介与运行wordcount(master.slave1和slave2)(博主推荐) Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐)…
不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了. 比如,我目前用得较多的spark-mllib. 这里spark-mllib_2.10 就是你的scala版本是2.10.X系列.比如我一般是使用scala-2.10.4.…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
Hadoop集群搭建安装过程(二)(配置SSH免密登录)(图文详解---尽情点击!!!) 一.配置ssh无密码访问 ®生成公钥密钥对 1.在每个节点上分别执行: ssh-keygen -t rsa(一直按回车直到生成结束) 执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub 其中前者为私钥,后者为公钥 2.在主节点上执行: cp id_rsa.pub authorized_keys ®将子节点的公钥拷贝到主节点并添加进authorized_…
不多说,直接上干货! 1.先每台机器的zookeeper启动(bigdata-pro01.kfk.com.bigdata-pro02.kfk.com.bigdata-pro03.kfk.com) 2.启动zkfc(bigdata-pro01.kfk.com上) [kfk@bigdata-pro01 hadoop-2.6.0]$ pwd /opt/modules/hadoop-2.6.0 [kfk@bigdata-pro01 hadoop-2.6.0]$ sbin/hadoop-daemon.sh…
不多说,直接上干货! 这个问题,跟 全网最详细的Hadoop HA集群启动后,两个namenode都是standby的解决办法(图文详解) 是大同小异. 欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑       同时,大家可以关注我的个人博客:    http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream…
不多说,直接上干货! 导读   win下安装hadoop 大家,别小看win下的安装大数据组件和使用  玩过dubbo和disconf的朋友们,都知道,在win下安装zookeeper是经常的事   Disconf 学习系列之全网最详细的最新稳定Disconf 搭建部署(基于CentOS 6.X / 7.X)(图文详解) Disconf 学习系列之全网最详细的最新稳定Disconf 搭建部署(基于Windows7 / 8 / 10)(图文详解) Disconf 学习系列之全网最详细的最新稳定Di…
不多说,直接上干货! [hadoop@djt002 local]$ su root Password: [root@djt002 local]# ll total drwxr-xr-x. root root Sep bin drwxr-xr-x. hadoop hadoop Mar : data drwxr-xr-x. hadoop hadoop Feb : elasticsearch drwxr-xr-x. root root Sep etc drwxr-xr-x. hadoop hadoop…
对于Kibana ,我们知道,是Elasticsearch/Logstash/Kibana的必不可少成员. 第一步:进入Elasticsearch的官网 https://www.elastic.co/ 第二步:点击downloads https://www.elastic.co/downloads 第三步:选择Kibana 第四步: 选择past releases https://www.elastic.co/downloads/past-releases/kibana-4-6-3 第五步:选择…
不多说,直接上干货! 说在前面的话   重新试多几次.编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令.  如果出现缺少了某个文件的情况,则要先清理maven(使用命令 mvn clean) 再重新编译.  Spark源码编译的3大方式 1.Maven编译 2.SBT编译  (暂时没) 3.打包编译make-distribution.sh 注意的是,spark1.6.X 需要搭配1.7.x的jdk和maven3.3.3版本    spar…
引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以…
本文主要详细地描述了hadoop集群的搭建以及一些配置文件的说明,用于自己复习以及供新人学习,若有错误之处还请指出. 前期准备 先给出我的集群架构: 到hadoop官网下载好hadoop安装包http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz 装好四台虚拟机(我的四台虚拟机是CentOs6.3系统) 四台虚拟机都装好jdk 四台虚拟机都配好免密登录 四台虚拟机都配置好ip地址和主机名映射…
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168.80.12) 然后,安装目录是在/home/hadoop/app下. 官方建议在master机器上安装Hue,我这里也不例外.安装在bigdatamaster机器上. Hue版本:hue-3.9.0-cdh5.5.4 需要编译才能使用(联网) 说给大家的话:大家电脑的配置好的话,一定要安装clou…
不多说,直接上干货! 福利 => 每天都推送 欢迎大家,关注微信扫码并加入我的4个微信公众号:   大数据躺过的坑      Java从入门到架构师      人工智能躺过的坑         Java全栈大联盟        每天都有大量的学习视频资料和精彩技术文章推送... 人生不易,唯有努力.        百家号 :九月哥快讯               快手号:  jiuyuege 问题详情 每次提交spark任务到yarn的时候,总会出现uploading resource(打包sp…
之前用的rpm安装的每次安装都是最新的,,,导致每次版本不统一... 现在用tar包安装5.7.22和5.7.20一样的   5.7.20之后的和之前的版本还是有点不一样的 官网地址 https://dev.mysql.com/downloads/mysql/ 1. 安装依赖  yum install -y cmake make gcc gcc-c++ libaio ncurses ncurses-devel cd /usr/local/src 链接:https://pan.baidu.com/…