pyspark在windows中的安装

0、安装python，我用的是python2.7.13

1、安装jdk

一定要安装1.7以上的版本，安装低版本会报下面的错误

java.lang.NoclassDefFoundError

安装后不用手动设置环境变量，安装完成之后用“java -version”测试是否安装成功

安装成功之后要添加一个“JAVA_HOME”的环境变量，因为在hadoop的\libexec\hadoop-config.sh中定义了一个JAVA_HOME的环境变量，如果找不到该变量，后面运行“sc = SparkContext(appName="PythonPi")”时就会出现虚拟机初始化错误，不能分配内存

2、下载并安装spark

下载地址：http://spark.apache.org/downloads.html

注意spark与hadoop的版本是严格对应的，文件名中也有体现，如果要安装hadoop，一定要安装对应的版本

spark-1.6.3-bin-hadoop2.6.tgz就要安装2.6版本的hadoop。

下载之后，将其解压到某文件夹，例解压到“C:\spark\spark-1.6.3-bin-hadoop2.6”

添加环境变量

　　1、将“C:\spark\spark-1.6.3-bin-hadoop2.6\bin”添加到系统变量Path中，这里面都是一些cmd文件

　　2、新建一个系统变量SPARK_HOME，然后将路径C:\spark\spark-1.6.3-bin-hadoop2.6添加进去

　　3、运行pyspark检查是否安装成功，虽有有错误，但可以把环境打开，安装下面的东西才能解决这些错误

3、下载并安装hadoop

下载地址：https://archive.apache.org/dist/hadoop/common/

根据上面这里要安装2.6版本的hadoop，然后将压缩包解压到指定文件夹，例如“C:\spark\hadoop-2.6.5”

添加环境变量

　　1、将“C:\spark\hadoop-2.6.5\bin”添加到系统变量Path中，这里面都是一些cmd文件

　　2、新建一个系统变量HADOOP_HOME，然后将路径C:\spark\hadoop-2.6.5添加进去

　　3、运行pyspark检查看错误是否消息

4、上面安装完成之后还是会有一个错误

主要是因为Hadoop的bin目录下没有winutils.exe文件的原因造成的。这里的解决办法是：
　　
- 去 https://github.com/steveloughran/winutils 选择你安装的Hadoop版本号，然后进入到bin目录下，找到winutils.exe文件，下载方法是点击winutils.exe文件，进入之后在页面的右上方部分有一个Download按钮，点击下载即可。
- 下载好winutils.exe后，将这个文件放入到Hadoop的bin目录下

5、输入pyspark，运行正常

Spark开始启动，并且输出了一些日志信息，大多数都可以忽略，需要注意的是两句话：

Spark context available as sc.

SQL context available as sqlContext

只有看到这两个语句了，才说明Spark真正的成功启动了。

6、在编译环境使用时，还要把C:\spark\spark-1.6.3-bin-hadoop2.6\python中的pyspark文件夹拷贝到对应的\Lib\site-packages中

7、运行pip install py4j安装包

8、运行一个例子检测是否成功，这个例子在运行这个文件时，需要输入命令行参数

import sys

from random import random

from operator import add

from pyspark import SparkContext

if __name__ == "__main__":

    """

        Usage: pi [partitions]

    """

    sc = SparkContext(appName="PythonPi")

    partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2

    print("partitions is %f" % partitions)

    n = 100000 * partitions

    def f(_):

        x = random() * 2 - 1

        y = random() * 2 - 1

        return 1 if x ** 2 + y ** 2 < 1 else 0

    count = sc.parallelize(range(1, n + 1), partitions).map(f).reduce(add)

    print("Pi is roughly %f" % (4.0 * count / n))

    sc.stop()

1
2Spark context和SQL context分别是什么，后续再讲，现在只需要记住，只有看到这两个语句了，才说明Spark真正的成功

pyspark在windows中的安装的更多相关文章

Appium+Robotframework实现Android应用的自动化测试-1：Appium在Windows中的安装
让我们开始在Windows中开始安装Appium吧,Appium在OS X中的具体安装后面的文章会介绍. 另外,官网上说先要装Node.js,还要装Apache Ant和Apache Maven,Gi ...
redis 在 windows 中的安装
redis 在 windows 中的安装 redis 官方并没有提供 redis 的 windows 版本.但是微软提供了 redis 的 windows 版本.有2.8和3.0版本.3.0版本支持集 ...
windows中配置安装mysql数据库
MySql 是一种免费的关系型数据库,相较于 MsSqlServer 和 Oracle 比较轻量化,安装也很简单,而且免费不需要的版权费用,个人认为一般的小项目采用还是比较合适的,当然也有部分数据量很 ...
ElasticSearch之Windows中环境安装
ElasticSearch 说明本章,我们主要以在 Windows 中对ElasticSearch 安装进行介绍! 1. 下载 ElasticSearch 这里我们下载的版本为7.17.4为例进行介 ...
Windows中 RabbitMQ安装与环境变量配置
RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议.1:安装RabbitMQ需要先安装Erlang语言开发包.下载地址 ht ...
redis在windows中的安装
之前介绍过了redis的相关知识,以及在linux平台上安装redis,为了方便学习,这里记录一下redis在windows平台上的安装步骤 1.下载redis下载地址https://github.c ...
Windows 中JDK安装配置教程
1.准备工作 a.因为Java JDK区分32位和64位系统,所以在安装之前必须先要判断以下我们的系统为多少位系统.右键计算机-属性查看,我安装的是64位 b.下载JDK,地址:http://www. ...
windows中mongoDB安装教程
下载路径:http://downloads.mongodb.org/win32/mongodb-win32-i386-1.7.0.zip 将一个DB文件夹我是放到D盘,路径:Ddb 解压mongod ...
在windows中python安装sit-packages路径位置在Pycharm中导入opencv不能自动代码补全问题
在Pycharm中导入opencv不能自动代码补全问题近期学习到计算机视觉库的相关知识,经过几个小时的探讨,终于解决了opencv不能自动补全代码的困惑, 我们使用pycharm安装配置可能会添加多 ...

随机推荐

2017-2018-1 20155308&20155321&20155330《信息安全技术》实验三——数字证书应用1
2017-2018-1 20155308&20155321&20155330<信息安全技术>实验三--数字证书应用1 实验目的了解PKI体系了解用户进行证书申请和CA颁 ...
20155308&20155316 2017-2018-1 《信息安全系统设计基础》实验一
20155308&20155316 2017-2018-1 <信息安全系统设计基础>实验一此次实验我和黄月同学一起做了1.2.3.5项,第4项在实验课上做完了,但是没有按时提交. ...
【课堂实践】Myod
实验内容编写MyOD.java 用java MyOD XXX实现Linux下od -tx -tc XXX的功能实验代码 od.java 截图遇到的问题及解决办法一开始想的方向是将得出的功能结果 ...
sougoupinyin for linux 安装步骤（精简版）
download deb double-click to install select fcitx reboot click it in the bar and choose the"tex ...
洛谷 P3369 【模板】普通平衡树（Treap/SBT）
题目描述您需要写一种数据结构(可参考题目标题),来维护一些数,其中需要提供以下操作: 插入x数删除x数(若有多个相同的数,因只删除一个) 查询x数的排名(排名定义为比当前数小的数的个数+1.若有多 ...
Zabbix学习之路（三）之使用SMTP发送邮件报警及定制邮件报警内容
1.设置邮件报警的思路 (1)设置触发器(Trigger)-->触发后需要执行的动作(Action) 触发器使用逻辑表达式来评估通过 item 获取到得数据是处于哪种状态.在触发器表达式中我们可 ...
你不需要jQuery You Don't Need jQuery
转载:https://github.com/oneuijs/You-Dont-Need-jQuery/blob/master/README.zh-CN.md You Don't Need jQuery ...
vscode eslint格式化配置
{ // vscode默认启用了根据文件类型自动设置tabsize的选项 "editor.detectIndentation": false, // 重新设定tabsize &qu ...
Sublime Text 3安装完美的Vim支持，ActualVim/NeoVim
很多IDE和编辑器都有Vim插件用于支持Vim模式,但大多数都有些问题,拿我一直用的Idea来说,它的vim在ctrl+v后,选择多行的行前插入,如果这几行中有空行,它不会把空格算在内,所以最终是会少 ...
XAF-物料管理信息工作日志
前段时间已经开始了第一阶段验收了,客户方并未把重点放在业务流程上面,一直在调整一些界面问题.有点小纠结. 今天要调一下菜单位置. 没修改时,是这样的: 到了列表界面,会多一个全文检索出来. 后来,客户 ...

pyspark在windows中的安装

pyspark在windows中的安装的更多相关文章

随机推荐

热门专题