一、工具准备

1. jdk1.8

2. scala

3. anaconda3

4. spark-2.3.1-bin-hadoop2.7

5. hadoop-2.8.3

6. winutils

7. pycharm

二、安装

1. jdk安装

oracle官网下载，安装后配置JAVA_HOME、CLASS_PATH，bin目录追加到PATH，注意：win10环境下PATH最好使用绝对路径！下同！

2. scala安装

官网下载，安装后配置SCALA_HOME，bin目录追加到PATH(上图包含)

3. anaconda3安装

官网下载，安装时注意在“追加到PATH”复选框打钩

4. spark安装

官网下载压缩包，解压缩后配置SPARK_HOME，bin目录追加到PATH（上图包含）

5. hadoop安装

官网下载版本>=spark对应hadoop版本，解压缩后配置HADOOP_HOME，bin目录追加到PATH（上图包含）

6. winutils安装

下载地址：https://github.com/steveloughran/winutils，按hadoop版本对应下载

7. pycharm安装

下载付费版本，使用lanyu注册码激活，注意按照提示添加域名解析到hosts文件

三、处理python相关

将pyspark文件夹（在spark-2.3.1-bin-hadoop2.7\python目录）复制到anaconda3\Lib\site-packages目录下
将winutils解压缩后用对应版本的bin目录替换hadoop下的bin目录
conda install py4j
进入hadoop\bin目录下，以管理员方式打开cmd，输入命令：winutils.exe chmod 777 c:\tmp\Hive，若提示错误，检查Hive目录是否存在，若不存在，则手动创建，再重新执行命令

四、验证

打开pycharm，使用anaconda中的python作为解释器，输入以下代码并运行：

from pyspark import SparkContext

sc = SparkContext('local')

doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])

words = doc.flatMap(lambda d: d).distinct().collect()

word_dict = {w: i for w, i in zip(words, range(len(words)))}

word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):

    dict = {}

    wd = word_dict_b.value

    for w in d:

        if wd[w] in dict:

            dict[wd[w]] += 1

        else:

            dict[wd[w]] = 1

    return dict

print(doc.map(wordCountPerDoc).collect())

print("successful!")

　　运行结果：

[{0: 1, 1: 1, 2: 1}, {1: 1, 3: 2}]

successful!

本文为win10+pyspark+pycharm+anaconda的单机测试环境搭建。

win10+pyspark+pycharm+anaconda单机环境搭建的更多相关文章

windows7 spark单机环境搭建及pycharm访问spark
windows7 spark单机环境搭建 follow this link how to run apache spark on windows7 pycharm 访问本机 spark 安装py4j ...
[转载] Hadoop和Hive单机环境搭建
转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7 ...
win10子系统linux.ubuntu开发环境搭建
移步新博客... win10子系统linux.ubuntu开发环境搭建
Kafka 0.7.2 单机环境搭建
Kafka 0.7.2 单机环境搭建当下载完Kafka后,进行解压,其目录结构如下: bin config contrib core DISCLAIMER examples lib lib_manag ...
kafka单机环境搭建及其基本使用
最近在搞kettle整合kafka producer插件,于是自己搭建了一套单机的kafka环境,以便用于测试.现整理如下的笔记,发上来和大家分享.后续还会有kafka的研究笔记,依然会与大家分享! ...
HBase单机环境搭建
在搭建HBase单机环境之前,首先你要保证你已经搭建好Java环境: $ java -version java version "1.8.0_51" Java(TM) SE Run ...
Hadoop —— 单机环境搭建
一.前置条件 Hadoop的运行依赖JDK,需要预先安装,安装步骤见: Linux下JDK的安装二.配置免密登录 Hadoop组件之间需要基于SSH进行通讯. 2.1 配置映射配置ip地址和主机名 ...
Solr单机环境搭建及部署
一.定义官网的定义: Solr是基于Lucene构建的流行,快速,开放源代码的企业搜索平台.它具有高度的可靠性,可伸缩性和容错能力,可提供分布式索引,复制和负载平衡查询,自动故障转移和恢复,集中式配 ...
hadoop单机环境搭建
[在此处输入文章标题] Hadoop单机搭建 1. 工具准备 1) Hadoop Linux安装包 2) VMware虚拟机 3) Java Linux安装包 4) Window 电脑一台 2. 开始 ...

随机推荐

Springmvc & Report： FineReport vs BIRT vs Jasperreport
Springmvc与jasperreport结合生成报表的一种方法 - OneThin的个人空间 - OSCHINAhttps://my.oschina.net/onethin/blog/14360 ...
Flutter 中的常见的按钮组件以及自定义按钮组件
Flutter 里有很多的 Button 组件很多,常见的按钮组件有:RaisedButton.FlatButton. IconButton.OutlineButton.ButtonBar.Float ...
k8s之磁盘挂载持久化
ISO/IEC 9899:2011 条款6.7.9——初始化
6.7.9 初始化语法 1.initializer: assignment-expression { initializer-list } { initializer-list ...
webpack 相关文章
webpack loader原理由于webpack是基于Node的所以webpack只能识别.js文件,所以针对其他的文件就需要转译,这时候就需要用到我们的loader了. https://blog ...
全面系统Python3入门+进阶-1-6 python能做些什么？
结束
LabWindows/CVI入门之第四章：库文件(转)
按语: 在参考CVI参考书使用CVI生成动态库后,在另一工程中调用DLL ,编译通不过,后参考此文,豁然开朗. http://blog.sina.com.cn/s/blog_6373e9e60101b ...
雨幕——RainCurtian
今天19年10月14日,也不算是个什么特别的日子.不多能让我的这一天变得特殊的,或许就是在今天我开通了我的第一个博客吧.细想过来每一天都是那么的相似,不过是因为有了某些事情,才变得特殊起来,比如新生命 ...
关于tornado的raise gen.Retuen()
raise gen.Return(response.body)在python3.3以后作用相当于return, 在python3.3之前作用是返回一个异常值, 和返回一个value python 3. ...
按键板的原理和实现--基于GPIO的按键板
上篇介绍简单的ADC实现,需要IC提供一个额外的ADC.但出于IC成本的考虑,无法提供这个的ADC时,但提供了多个额外的GPIO(General Purpose Input Output:双向的:可以 ...

win10+pyspark+pycharm+anaconda单机环境搭建