1. 新建maven project 2. Group id : org.scala-tools.archetypes Artifact id : scala-archetype-simple Version : 1.2 3. 修改pom.xml文件(添加Hadoop client 及spark core 依赖) http://mvnrepository.com/ Hadoop client. 查找对应的Hadoop版本的文件 同理, spark client copy以上文件到pom.xml中…
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深入大数据开发才能逐步掌握大数据.而首先要搭开发环境,对于一个像我这样之前只做过plsql开发的人来说,确实走了很多弯路.一开始目标设得很高,直接下源代码编译成jar包进行使用,后来发现其实没什么必要,受到一些非技术因素尤其是天朝特色社会主义网络的影响,sbt基本无法使用,直接下官方编译好的版本就行了…
一.前言 近几年大数据是异常的火爆,今天小编以java开发的身份来会会大数据,提高一下自己的层面! 大数据技术也是有很多: Hadoop Spark Flink 小编也只知道这些了,由于Hadoop,存在一定的缺陷(循环迭代式数据流处理:多 并行运行的数据可复用场景效率不行).所以Spark出来了,一匹黑马,8个月的时间从加入 Apache,直接成为顶级项目!! 选择Spark的主要原因是: Spark和Hadoop的根本差异是多个作业之间的数据通信问题 : Spark多个作业之间数据 通信是基…
修改hostname bogon 为localhost 查看ip地址 [training@bogon ~]$ sudo hostname localhost [training@bogon ~]$ hostname 执行结果 此时python 版本为2.7 将python版本升级至3.0及以上 一.            下载欲升级python版本 Python-3.4.5,将包放于本机与虚似机的共享目录下,上传至虚似机的opt目录下 二.            解压 三.阅读README安装步…
1.windows下载并安装Anaconda集成环境 URL:https://www.continuum.io/downloads 2.在控制台中测试ipython是否启动正常 3.安装JDK 3.1环境变量配置: 3.2测试: 4.安装Spark并配置环境变量 4.1 URL: http://spark.apache.org/downloads.html 4.2解压到本地磁盘的对应目录 4.3配置环境变量 5.Pyspark配置 5.1配置如下系统变量    5.2修改spark\conf下的…
如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例. 1.准备工作 首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA,本文中使用的是win7系统,环境配置如下: jdk1.7.0_15 scala2.10.4 scala官网下载地址:http://www.scala-lang.org/download/ 如果是windows请下载msi安装包. 这两个可以在官网上下载jdk和s…
http://www.cnblogs.com/davidwang456/p/5032766.html windows下spark开发环境配置 --本篇随笔由同事葛同学提供. windows下spark开发环境配置 特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe.hadoop.dll等文件,前提是你已经安装了eclipse.maven.jdk等软件 spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8 我…
开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量.网上资料很多,安装过程忽略.此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本. 1. Eclipse开发环境搭建 1.1. 安装scala插件 安装eclipse-scala-plugin插件,下载地址http://scala-ide.org/download/prev-stable.html 解压缩以后把plugins和features复制到eclipse目录,重启eclipse以后即可.…
兄弟连大数据培训和大家一起探究Jupyter配置 Spark 开发环境 简介 为Jupyter配置Spark开发环境,可以安装全家桶–Spark Kernel或Toree,也可按需安装相关组件. 考虑到一般人更喜欢一步到位,并且Toree将会代替Spark Kernel,故直接且仅需安装Toree即可,不过下面还是给出了所有的安装方法. Spark Kernel的安装 参照Spark Kernel支持的语言,安装好Spark Kernel后,其默认可以支持Scala,Python,R,SQL,对…
基于Eclipse的Hadoop应用开发环境配置 我的开发环境: 操作系统ubuntu11.10 单机模式 Hadoop版本:hadoop-0.20.1 Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷) 第一步:先启动hadoop守护进程 具体参看:http://www.cnblogs.com/flyoung2008/archive/2011/11/29/2268302.html 第二步:在eclipse上…
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开发,所以必须版本对应 scala不是必须安装的,如果你是打算使用scala进行spark开发,则需要安装 环境搭建步骤 将spark-2.1.1-bin-hadoop2.x版本至c盘下即可 将spark中的jar包全部提取出来另外放到一地方用于进行开发 新建IDEA项目,将所有jar包导入到IDEA…
最近需要将生产环境的spark1.3版本升级到spark1.6(尽管spark2.0已经发布一段时间了,稳定可靠起见,还是选择了spark1.6),同时需要基于spark开发一些中间件,因此需要搭建一套windows下的spark的开发环境,方便代码的编写和调试.中间遇到了比较多的问题,在此也做一个记录/总结. Spark编译 编译条件: 官方给出的spark预编译版本是不支持spark on hive的,同时也不能将spark作为hive的执行引擎.如果需要获得这些支持,则需要自己对spark…
Spark高可用集群搭建 在所有节点上下载或上传spark文件,解压缩安装,建立软连接 配置所有节点spark安装目录下的spark-evn.sh文件 配置slaves 配置spark-default.conf 配置所有节点的环境变量 spark-evn.sh [root@node01 conf]# mv spark-env.sh.template spark-env.sh [root@node01 conf]# vi spark-env.sh 加入 export JAVA_HOME=/usr/…
近期开始研究学习spark,开发环境有多种,由于习惯使用STS的maven项目,但是按照许多资料的方法尝试以后并没有成功,也可能是我环境问题:也可以是用scala中自带的eclipse,但是不太习惯,听说支持也不太好,好多问题:咨询一些人后说,IDEA对scala的支持比较好.所以尝试使用IDEA来构建Spark开发环境: 1.  安装JDK 2.  安装IDEA最新版,目前是IDEA 14,社区免费版就可以: 3.  安装scala插件,运行IDEA,初次运行,可以直接再弹出的tab框中选择“…
spark-windows(含eclipse配置)下本地开发环境搭建   >>>>>>注意:这里忽略JDK的安装,JDK要求是1.8及以上版本,请通过 java  –version查看. 一.spark命令行环境搭建 Step1:安装Spark 到官网http://spark.apache.org/downloads.html选择相应版本,下载安装包.我这里下的是2.1.3版本,后面安装的Hadoop版本需要跟Spark版本对应.下载后找个合适的文件夹解压即可.这里新建…
一, PyCharm搭建Spark开发环境 Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧. 参照这个配置本地的Spark环境. 之后就是配置PyCharm用来开发Spark.本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1. 在程序中设置环境变量 import os import s…
一.安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择Spark版本和对应的Hadoop版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 配置环境变量 # vim /etc/profile 添加环境变量: export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6 export PATH=${SP…
一.安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 配置环境变量 # vim /etc/profile 添加环境变量: export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6 export PATH=…
一.安装Spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包: # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 配置环境变量 # vim /etc/profile 添加环境变量: export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6 export PATH=…
机器:windows 10 64位. 因Spark支持java.python等语言,所以尝试安装了两种语言环境下的spark开发环境. 1.Java下Spark开发环境搭建 1.1.jdk安装 安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.7.0_79”,视自己安装路劲而定. 同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:…
Mac配置Scala和Spark最详细过程 原文链接: http://www.cnblogs.com/blog5277/p/8567337.html 原文作者: 博客园--曲高终和寡 一,准备工作 1.下载Scala http://www.scala-lang.org/download/ 拖到最下面,下载for mac的版本 2.下载Spark http://spark.apache.org/downloads.html 记得选版本啊,如果你是按照我之前的 Mac配置Hadoop最详细过程 配置…
Spark的开发环境,可以基于IDEA+Scala插件,最终将打包得到的jar文件放入Linux服务器上的Spark上运行 如果是Python的小伙伴,可以在Windows上部署spark+hadoop+pycharm开发环境进行本地开发和调测,最后将py文件放入Linux服务器上的Spark运行 #### 先挖坑,后填坑 ####…
1. Win7下利用Intellij IDEA构建Spark开发环境 前提:Intellij IDEA Community 免费版下载(最新版14.0.1),Scala插件下载(最新版scala-intellij-bin-1.1.2.zip) 1> 安装Intellij IDEA Scala运行环境 http://blog.csdn.net/asongoficeandfire/article/details/26412493 Note:  a. 新建Scala Project后,会出现相应的树形…
一 下载maven 在maven官网上可下载maven:http://maven.apache.org/download.cgi 下载好后,解压.我的解压到了:D:\maven\apache-maven-3.3.9 二 配置maven 环境变量 系统变量:MAVEN_HOME = D:\Development\apache-maven-3.3.9 系统变量:path = %MAVEN_HOME%\bin 相信大家都有配过环境变量的,详细步骤就不说了,对着把属性名和属性值配上就OK了. 打开 cm…
hadoop搭建开发环境及编写Hello World   本文地址:http://www.cnblogs.com/archimedes/p/hadoop-helloworld.html,转载请注明源地址. 1.下载 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用java方便 进入网站:http://archive.eclipse.org/eclipse/downloads/ 选择3.71 eclipse SDK 进入下面的页面: http://archive.ecl…
一.创建基于Maven的Web项目…
原文见   http://xiguada.org/spark-develop/ 本文基于Spark 0.9.0,由于它基于Scala 2.10,因此必须安装Scala 2.10,否则将无法运行Spark作业.由于在windows环境下不方便执行命令行操作,因此建议在Linux环境下搭建Spark开发环境. 下载Spark 0.9.0(http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating.tgz),并解压. 安装Scala2.10.…
使用IntelliJ IDEA和Maven管理搭建+Web+Tomcat开发环境 前言:原来一直使用Eclipse,换工作后使用IDEA,初识IDEA发现,哇,它的快捷键可真多啊,但是一路用下来,觉得非常的好用,特别是利用Maven管理,那简直叫一个爽.当然笔者在使用过程中,也遇到过不少问题,但当一路解决下来,你会觉得原来世界如此美妙. 笔者在查找资料的过程中,发现用IDEA搭建web开发环境的过程中,不少网友遇到过很多问题(其实我也遇到过很多问题),所以这里就以一个例子来说明,如何使用IDEA…
在Ubuntu下配置舒服的Python开发环境 Ubuntu 提供了一个良好的 Python 开发环境,但如果想使我们的开发效率最大化,还需要进行很多定制化的安装和配置.下面的是我们团队开发人员推荐的一个安装和配置步骤,基于 Ubuntu 12.04 桌面版本标准安装. 安装 Python 发布版本和 build 依赖包 建议至少安装 Python 2.7/3.2 版本,毕竟 Python 2.X/3.X 还是有不少区别的. 1 2 3 4 # 安装 Python 发布版本,dev包必须安装,很…
原文地址:http://skywalkersoftwaredevelopment.net/blog/writing-an-orchard-webshop-module-from-scratch-part-2 配置您的Orchard开发环境 这是从头开始编写一个新的Orchard模块的教程的第2篇.对于本教程的概述,请参阅介绍. 当创建Orchard模块时,建议您下载完整的源代码,让我们从Orchard项目的首页:http://orchardproject.net/下载…