1. 序
经过了一天的修炼,深深被恶心了,在虚拟环境中配置pyspark花式报错,由于本人实在是不想卸载3.6版的python,所以硬刚了一天,终于摸清了配置方法,并且配置成功,不抱怨了,开讲:

2. 需求环境
Anaconda3;(我的是最新版的Anaconda4.3.1(64位))

3. 安装虚拟环境
1、创建Python虚拟环境。
使用 conda create -n your_env_name python=3.5(2.7、3.6等) anaconda 命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。
2、 激活虚拟环境
activate your_env_name
3、 安装虚拟环境包
conda install -n your_env_name
至此一个名字是your_env_name的虚拟环境就建好了,它的python版本是3.5版本的,可以通过cmd进入,然后输入activate your_env_name在输出python然后查看到

4. 资源准备
spark_2.2.0_bin-hadoop2.7.tgz

根据自己的需求版本,可以下载不同的spark版本,我用的是spark-2.0.1-bin-hadoop2.7,之后解压,注意存放的路径一定不能带空格,例如放到C:\Program Files就不行。这里我放到了D:\spark;之后就是添加环境变量。
有两种方法:
1、直接在path中添加环境变量:将D:\spark\spark-2.0.1-bin-hadoop2.7\bin,和D:\spark\spark-2.0.1-bin-hadoop2.7\sbin都加到环境变量中。
2、先新建一个SPARK_HOME的环境变量,值为D:\spark\spark-2.0.1-bin-hadoop2.7,之后将%SPARK_HOME%\bin和%SPARK_HOME%\sbin加入到path中
如果想看是否添加成功,需要将虚拟环境加入到path变量中,然后上移到原始python=3.6的路径前面,之后再cmd中输入pyspark就会出现下面的情况。注意:如果虚拟环境的路径不在原始路径前面会出现找不到路径的情况,当然这个路径只是为了看是否安装成功,跟在pycharm中运行成功与否没有任何关系,你也可以再变换回去。

spark的依赖环境中有对hadoop的需求,因此还需要下载对应版本的hadoop,这里面我下载的是有关hadoop2.7+的资源,无需安装完整的Hadoop,但需要hadoop.dll,winutils.exe等。根据下载的Spark版本,下载相应版本的hadoop2.7.1。
解压,添加环境变量(如pyspark添加环境变量一样,同样有两种方法),经过我的测试,好像这里面的资源不太够,反正我用着会报错,因此我选择了从原始资源中下载bin文件,然后替换了前面hadoop2.7.1里面的bin文件。
要想在PyCharm中调用pySpark,需要加载包。将D:\spark\spark-2.0.1-bin-hadoop2.7\python文件夹下pySpark文件夹拷贝到D:\ProgramData\Anaconda3\envs\tensorflow\Lib\site-packages**(注:这个地方是要拷贝到虚拟环境的包路径)

4. 1关键
注意咯,,,接下来这步操作决定我们是否能够完成配置,,,
1、在D:\spark\spark-2.0.1-bin-hadoop2.7\bin文件夹下找到pyspark文件,然后用notepad++打开。
2、找到export PYSPARK_PYTHON然后把这个地方变成export PYSPARK_PYTHON=python3
3、保存。。。大功告成
4、重启(可以先略过此步,进行下面验证,如果验证还是花式报错(2)就可以上本步,成为大绝杀,然后可以爽歪歪用pyspark了)
到目前为止,我们的准备工作终于做好了,,,不容易啊。。。其实到现在为止我们也算是安装完成,,惊不惊喜,意不意外,,没想到这么简单吧,哈哈哈哈哈哈,接下来我们就可以验证了。。

5. 验证
在这里引用雪伦的例子,

新建wordCount.py文件,写代码
注意setAppName、setMaster中千万不要带空格,否则会出现“Java gateway process exited before sending the driver its port number”的报错

import sys
from operator import add

from pyspark import SparkContext

if __name__ == "__main__":
sc = SparkContext(appName="PythonWordCount")
lines = sc.textFile('words.txt')
counts = lines.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(add)
output = counts.collect()
for (word, count) in output:
print "%s: %i" % (word, count)

sc.stop()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
其中words.txt中的内容是

good bad cool
hadoop spark mlib
good spark mlib
cool spark bad
1
2
3
4
然后运行,,,你会发现——————————————————————————报错了是不是,哈哈哈。虽然不知道你报的什么错,肯定报错了,这才是虚拟环境装pyspark迷人的地方,花式报错,,别着急,那是因为我们没有添加项目的环境变量,在图中环境变量位置把SPARK_HOME的路径添加进去,之后再运行

出现

这就说明我们已经大功告成啦啦啦啦啦啦!!!!!!!!!!!!!!
---------------------
作者:Biorad
来源:CSDN
原文:https://blog.csdn.net/loverminger/article/details/76095845
版权声明:本文为博主原创文章,转载请附上博文链接!

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark的更多相关文章

  1. win10下通过编译源码方式在chrome中成功安装react-devtools开发工具插件

    win10下通过编译源码方式在chrome中成功安装react-devtools开发工具插件   1.去git上下载react-devtools文件到本地,https://github.com/fac ...

  2. win10下通过Anaconda安装TensorFlow-GPU1.3版本,并配置pycharm运行Mnist手写识别程序

    折腾了一天半终于装好了win10下的TensorFlow-GPU版,在这里做个记录. 准备安装包: visual studio 2015: Anaconda3-4.2.0-Windows-x86_64 ...

  3. win10下Anaconda3配置环境变量

    有时候在win10安装好Anaconda3后,使用conda命令时依然会出现: C:\Users\dell\PycharmProjects\pytorch>conda list 'conda' ...

  4. Win10下Anaconda3安装CPU版本TensorFlow并使用Pycharm开发

    环境:windows10 软件:Anaconda3 1.安装Anaconda 选择相应的Anaconda进行安装,下载地址点击这里,下载对应系统版本的Anaconda3. 运行 开始菜单->An ...

  5. win10下anaconda3环境配置

    WINDOW系统设置环境变量:我的电脑右键-属性-高级系统设置-高级-环境变量中在path中加入你系统安装anaconda的目录下的scripts中: C:\Users\***\anaconda3\S ...

  6. win10 下的python虚拟环境安装使用(使用powershell)

    安装virtualenv 若要使用python虚拟环境进行开发,首先需要安装virtualenv.命令:pip install virtualenv 我已经装过了

  7. Win10下免安装版MySQL5.7的安装和配置

    1.MySQL5.7解压 2.新建配置文件my.ini放在D:\Free\mysql-5.7.26-winx64目录下 [mysql] # 设置mysql客户端默认字符集 default-charac ...

  8. java环境的配置——实现win10下双击直接运行jar文件

    java环境的配置--实现win10下双击直接运行jar文件 在渗透测试的过程中很多工具的安装和使用需要java环境,下面我来介绍一下java环境配置的超详细步骤(包含怎样实现win10下双击直接运行 ...

  9. Anaconda3(5-2)程序编辑器 win10下PyCharm安装及配置Pytorch流程

    由于破解和付费问题,不推荐.优先用自带的spyder Win10 下PyCharm安装流程:(1)官网:https://www.jetbrains.com/pycharm/download/#sect ...

随机推荐

  1. solr安装部署、solr测试创建core、用solrj 访问solr(索引和搜索)

    一.安装solr4.8: 1.把apache-solr-4.8.1\example\webapps下的solr.war文件拷贝到Tomcat下的Tomcat7.0\webapps目录下,tomcat启 ...

  2. day17-jdbc 7.Statement介绍

    SQL语句:DML.DQL.DCL.DDL.DML和DQL是用的最多的.DCL和DDL用的很少. 程序员一般是操作记录,创建一表很少. package cn.itcast.jdbc; import c ...

  3. Tensorflow手写数字识别(交叉熵)练习

    # coding: utf-8import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data #pr ...

  4. 【转】mysql.sock文件的作用

    Mysql有两种连接方式: (1),TCP/IP (2),socket 对mysql.sock来说,其作用是程序与mysqlserver处于同一台机器,发起本地连接时可用. (如果程序跟mysql在同 ...

  5. CentOS6.5 安装python

    前言: CENTOS 6.X 系列默认安装的 Python 2.6 ,目前开发中主要是使用 Python 2.7 ,这两个版本之间还是有不少差异的,程序在 Python 2.6 下经常会出问题. 比如 ...

  6. EZOJ #87

    传送门 分析 由于我不知道壶里到底有多少水,那么显然我第一次 分别向两个杯子分别到 L/2 +1 和 L/2 才是最优的.(这样既维护了两个人的差值不超1,又正好倒了L的水).那么接下来如果壶里还有水 ...

  7. Advanced WordCount

    Github:https://github.com/Hoyifei/SQ-T-Homework-WordCount-Advanced (注:Github上的所有代码由我代为提交) PSP:(注:部分实 ...

  8. (字符串)count and say

    https://www.nowcoder.com/practice/c5e8e84b62bb48398ec3c88153950fb5?tpId=46&tqId=29141&tPage= ...

  9. vs2010 怎样设置文本编辑窗口和解决方案资源管理器同步?

    即切换左边的文本编辑窗口,解决方案资源管理器如何定位到相应的文件项上?答案: 工具--选项--项目和解决方案--常规--在解决方案资源管理器中跟踪活动项(前打勾)确定 应该就可以了.

  10. [转]MYSQL5.7版本sql_mode=only_full_group_by问题

    转至:https://www.cnblogs.com/zhi-leaf/p/5998820.html 具体出错提示: [Err] 1055 - Expression #1 of ORDER BY cl ...