引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单机的搭建,是因为作为个人学习的话,单机已足以,好吧,说实话是自己的电脑不行,使用虚拟机实在太卡了... 整个的集群搭建是在公司的测试服务搭建的,在搭建的时候遇到各种各样的坑,当然也收获颇多.在成功搭建大数据集群之后,零零散散的做了写笔记,然后重新将这些笔记整理了下来.于是就有了本篇博文. 其实我在搭…
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主强烈推荐) 这里, 我重点说下spark项目,因为,对于hadoop这样的,我已经写了大量博客了. 比如,我目前用得较多的spark-mllib. 这里spark-mllib_2.10 就是你的scala版本是2.10.X系列.比如我一般是使用scala-2.10.4.…
不多说,直接上干货! 大部分用户玩的是windows,现在,跟随我来玩玩Mac. 1. VMware Workstation 11 2. unlocker 206(for OS X 插件补丁),这是VMware虚拟机mac虚拟机解锁工具 . 3. Mac OS X 10.10镜像iso 一.下载以上文件 1.VMware Workstation 11的下载,见 http://www.cnblogs.com/zlslch/p/5657831.html 2.unlocker 206(for OS X…
不多说,直接上干货! 最近,开始,进一步学习spark的最新版本.由原来经常使用的spark-1.6.1,现在来使用spark-2.2.0-bin-hadoop2.6.tgz. 前期博客 Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master.slave1和slave2)(博主推荐) 这里我,使用的是spark-2.2.0-bin-hadoop2.6.tgz + hadoop-2.6.0.tar…
不多说,直接上干货! 其实啊,很简单 分三步走 1.添加fcitx的键盘输入法系统,因为sogou是基于fcitx的,而系统默认的是iBus: 2.安装sogou输入法: 3.设置系统参数及一些注意点.       zhouls@zhouls-virtual-machine:~$ sudo -s [sudo] password for zhouls: root@zhouls-virtual-machine:~# cat /etc/issue Ubuntu LTS \n \l root@zhoul…
不多说,直接上干货! Spark Mllib里决策树二元分类使用.areaUnderROC方法计算出以AUC来评估模型的准确率和决策树多元分类使用.precision方法以precision来评估模型的准确率(图文详解) Spark Mllib里决策树回归分析使用.rootMeanSquaredError方法计算出以RMSE来评估模型的准确率   具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第18章 决策树回归分类Bike Sharing数据集…
不多说,直接上干货! 在决策树二元或决策树多元分类参数设置中: 使用DecisionTree.trainClassifier   见 Spark Mllib里如何对决策树二元分类和决策树多元分类的分类数目numClasses控制(图文详解) val model = DecisionTree.trainClassifier(trainData, , Map[Int, Int](), impurity, maxDepth, maxBins) 在决策树回归分析参数设置中: 使用DecisionTree…
不多说,直接上干货! 前言   其实啊,无论你是初学者还是具备了有一定spark编程经验,都需要对spark源码足够重视起来. 本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程. 好一段时间之前,写过这篇博客 使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码(博主强烈推荐) 最近开始进行更新,希望能帮助到开发的你. 下载源码 去github官网 下载   spark最新源码下载并导入到开发环境下助推高质量代码(Scala IDEA fo…
不多说,直接上干货! 如果在一个界面里,可以是单个项目 注意:本文是以gradle项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Gradle项目(含相关源码)(博主推荐)(图文详解) 注意:本文是以maven项目的方式来做的! 如何在IDEA里正确导入从Github上下载的Maven项目(含相关源码)(博主推荐)(图文详解) 如果在一个界面里,可以是多个项目 注意:本文是以maven项目的方式来做的! IDEA学习系列之IDEA里如何正确设置(类似eclipse里同一个wor…
这篇博客 是在Scala IDEA for Eclipse里手动创建scala代码编写环境. Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) 本博文,教大家,用maven来创建. 第一步:安装scala插件 因为,我win7下的scala环境是2.10.4 所以,选择下载的是,这个 下载好之后,解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可. 重启eclipse以后即可. 然后, Win…