【原创干货】大数据Hadoop/Spark开发环境搭建

码以致用 2024-09-01 15:58:19 原文

　　已经自学了好几个月的大数据了，第一个月里自己通过看书、看视频、网上查资料也把hadoop（1.x、2.x）、spark单机、伪分布式、集群都部署了一遍，但经历短暂的兴奋后，还是觉得不得门而入。

　　只有深入大数据开发才能逐步掌握大数据。而首先要搭开发环境，对于一个像我这样之前只做过plsql开发的人来说，确实走了很多弯路。一开始目标设得很高，直接下源代码编译成jar包进行使用，后来发现其实没什么必要，受到一些非技术因素尤其是天朝特色社会主义网络的影响，sbt基本无法使用，直接下官方编译好的版本就行了。

注：我在搭建开发环境的过程中，在网上查阅了无数资料，也在《hadoop权威指南》等书里找过，但几乎找不到满意的，要不就是过程本身就有问题，要不就是提供的方法在天朝无法实践，还有就是写得过于简略或过于深奥。严重影响了搭建进度。看到本文的朋友们有福了，除去下载软件的时间，基本一个小时之内可以全部搞定。大道至简，很多东西要是不说清楚，写一万句废话也是没用的。

IDE:eclipse-Scala-Ide
hadoop:hadoop-2.6.2
spark:spark-1.2.0

一、hadoop开发环境

第一种方法：

直接用hadoop eclipse插件，再进行简单的配置就可以了。

第二种方法：

直接导入hadoop的jar包，可使用maven工程实现自动导入，也可手动导入

手动导入：

hdfs和mapred:

C:\Software\hadoop\hadoop-2.6.2\share\hadoop\common\

C:\Software\hadoop\hadoop-2.6.2\share\hadoop\common\lib\

C:\Software\hadoop\hadoop-2.6.2\share\hadoop\hdfs\

hive:

C:\Software\hadoop\apache-hive-2.1.0-bin\lib\

hbase:

E:\Hadoop\hbase-0.94.2-security\hbase-0.94.2-security.jar

E:\Hadoop\hbase-0.94.2-security\hbase-0.94.2-security-tests.jar

E:\Hadoop\hbase-0.94.2-security\lib\

其实不用导入那么多包，以后用maven来自动导入。

导入后，选中这些jar包，Build Path->Add to Build Path

二、spark开发环境

下载scala-ide。位数需要与本地jdk版本位数一致，直接解压即可作为eclipse使用

新建scala project

在工程名处右击点Properties->Java Builder Path->Libraries->Add External JARs->添加编译后spark assembly包（可以直接从官网下载编译后的版本里找出来）

有很多时候需要配置Run Configurations，重点关注Main和Arguments两项里的内容。如果没有部署spark，可以直接在VM arguments里添加-Dspark.master=local，或者直接在代码里添加conf.setMaster("local")

so easy！

【原创干货】大数据Hadoop/Spark开发环境搭建的更多相关文章

大数据 -- Hadoop集群环境搭建
首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网 ...
搭建大数据hadoop完全分布式环境遇到的坑
搭建大数据hadoop完全分布式环境,遇到很多问题,这里记录一部分,以备以后查看. 1.在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
HBase、Hive、MapReduce、Hadoop、Spark 开发环境搭建后的一些步骤（export导出jar包方式或 Ant 方式）
步骤一若是,不会HBase开发环境搭建的博文们,见我下面的这篇博客. HBase 开发环境搭建(Eclipse\MyEclipse + Maven) 步骤一里的,需要补充的.如下: 在项目名,右键, ...
我搭建大数据Hadoop完全分布式环境遇到的坑---hadoop： command not found
搭建大数据hadoop环境,遇到很多问题,这里记录一部分,以备以后查看. [遇到问题].在安装配置完hadoop以后,需要格式化namenode,输入指令:hadoop namenode -forma ...
Spark编译及spark开发环境搭建
最近需要将生产环境的spark1.3版本升级到spark1.6(尽管spark2.0已经发布一段时间了,稳定可靠起见,还是选择了spark1.6),同时需要基于spark开发一些中间件,因此需要搭建一 ...
Spark开发环境搭建和作业提交
Spark高可用集群搭建在所有节点上下载或上传spark文件,解压缩安装,建立软连接配置所有节点spark安装目录下的spark-evn.sh文件配置slaves 配置spark-default ...
《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.Hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cd ...
Hadoop项目开发环境搭建（Eclipse\MyEclipse + Maven）
写在前面的话可详细参考,一定得去看 HBase 开发环境搭建(Eclipse\MyEclipse + Maven) Zookeeper项目开发环境搭建(Eclipse\MyEclipse + Mav ...
Hadoop Eclipse开发环境搭建
This document is from my evernote, when I was still at baidu, I have a complete hadoop developme ...

随机推荐

sweep line-The Skyline Problem
2020-01-10 17:51:05 问题描述: 问题求解: 本题是经典的sweep line问题. 对于sweep line问题我们需要考虑的只有两点: 1. 延水平方向 / 时间方向 :时间队列 ...
3.Scikit-Learn实现完整的机器学习项目
1 完整的机器学习项目完成项目的步骤: (1) 项目概述 (2) 获取数据 (3) 发现并可视化数据,发现规律. (4) 为机器学习算法准备数据. (5) ...
OpenCV-Python 读取显示视频 | 六
目标学习读取视频,显示视频和保存视频. 学习从相机捕捉并显示它. 你将学习以下功能:cv.VideoCapture(),cv.VideoWriter() 从相机中读取视频通常情况下,我们必须用摄像 ...
Magenta Demos Magenta 实战代码
Magenta 实战代码这个仓库包含了很多 Magenta 模型的实现.看 Magenta 库以及模型,看我们的主仓库:https://github.com/tensorflow/magenta A ...
50行代码实现GAN | 干货演练
2014年,Ian Goodfellow和他的同事发表了一篇论文,向世界介绍了生成对抗网络(GAN).通过对计算图和博弈论的创新性组合,他们表明如果有足够的建模能力,两个相互对抗的模型可以通过普通的反 ...
zookeeper 负载均衡
1,原理将启动的服务注册到zookeeper 注册中心上面,采用临时节点,zookeeper 客户端从注册中心上读取服务的信息,之后再本地采用负载均衡算法(取模算法),将请求轮询到每个服务. 同时z ...
Tainted canvases may not be exported的问题解决
项目里使用到用canvas生成海报,在toDataURL报了这个错误Tainted canvases may not be exported. 原因就在于使用了跨域的图片,所以说是被污染的画布.解决方 ...
深入理解NIO（一）—— NIO的简单使用及其三大组件介绍
深入理解NIO(一)—— NIO的简单使用及其三大组件介绍深入理解NIO系列分为四个部分第一个部分也就是本节为NIO的简单使用(我很少写这种新手教程,所以如果你是复习还好,应该不难理解这篇,但如果 ...
403 Invalid CORS request 跨域问题
5.跨域问题跨域:浏览器对于javascript的同源策略的限制 . 以下情况都属于跨域: 跨域原因说明示例域名不同 www.jd.com 与 www.taobao.com 域名相同,端口不同 ...
【swagger】C# 中 swagger 的使用及避坑
@ 目录 1 安装 2 修改名称和版本号 3 显示说明 4 显示控制器注释及汉化 5 路由相同,查询参数不同的方法 6 忽略 Model 中的某些字段 7 传递 header 8 出错时的 HTTP ...