机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

AS WE ALL KNOW，学机器学习的一般都是从python+sklearn开始学，适用于数据量不大的场景（这里就别计较“不大”具体指标是啥了，哈哈）

数据量大了，就需要用到其他技术了，如：spark, tensorflow，当然也有其他技术，此处略过一坨字...

先来看看如何让这3个集成起来吧（WINDOWS环境）：pycharm(python开发环境), pyspark.cmd(REPL命令行接口), spark(spark驱动、MASTER等)

download Anaconda, latest version, which 64bit support for windows, 这里必须安装64位版本的Anaconda，因为后面tensorflow只支持64位的

https://www.continuum.io/downloads/

安装Anaconda，都是默认选项就行

dowload pycharm from jetbrain site, and install (please do it by yourself)，这个很简单，直接略过

接下来是下载spark，我下的是最新版2.1.0的 http://spark.apache.org/downloads.html

解压缩后把它复制到一个容易找的目录，我这是C:\spark-2.1.0-bin-hadoop2.7

这个时候如果直接双击bin下的spark-shell.cmd文件的话是会报错的，主要原因是没有winutils.exe这东西(用来在windows环境下模拟文件操作的)，因此还需要做几个小步骤才能正常启动

1. 设置一个假的hadoop目录，在这个目录的bin下放刚才说的那个winutils.exe文件(需要自己创建bin目录)

2. 设置环境变量HADOOP_HOME，值为这个假的hadoop目录

3. 拷贝winutils.exe到这个bin里，下载

OK，这时可以双击spark-shell.cmd了，如下：

HOHO, ==，==，我们不是要搞PYTHON环境嘛，怎么搞scala了，别急，先搞scala是因为先要把基本的给走通，再去搞python环境的接口。

python接口的REPL是这个文件，pyspark.cmd，双击，也报错...

别急，这里是因为python版本问题，anaconda最新版的python解释器版本是3.6.1，这个版本的spark不支持，需要降低版本到3.5

卸载python? 不用，用anaconda的环境切换就行了

1. 先创建一个新的开发环境: conda create -n my_new_env_python35

2. 激活这个新的开发环境: activate my_new_env_python35

3. 在这个新的开发环境中安装python 3.5: conda install python=3.5

这时python3.5版本的解释器就算是安装完成了，默认目录在C:\ProgramData\Anaconda3\envs\my_new_env_python35\python.exe

然后就是需要把spark的python支持包复制到相应的路径中了，从下图1复制到my_new_env_python35环境的Lib\site-packages目录下

接下来需要把python默认版本改成python3.5，需要修改PATH路径，把python3.5的路径放在第一个查找路径下就行了

然后就开始整pycharm开发环境了。

首先肯定是新建一个python项目了，然后改设置，用来指定python解释器的路径，菜单：File-->Settings

接着设置运行时候的配置参数

漏了python调用pyspark的代码了，代码如下：

import sys

from operator import add

from pyspark import SparkContext

if __name__ == "__main__":

sc = SparkContext(appName="PythonWordCount")

lines = sc.textFile('words.txt')

count=lines.count()

print(count)

counts = lines.flatMap(lambda x: x.split(' ')) \

.map(lambda x: (x, 1)) \

.reduceByKey(add)

output = counts.collect()

for (word, count) in output:

print("%s: %i" % (word, count))

sc.stop()

至此，python环境算是搞定了。

出处：https://www.cnblogs.com/aarond/p/pyspark.html

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇的更多相关文章

机器学习 - pycharm, pyspark, spark集成篇
AS WE ALL KNOW,学机器学习的一般都是从python+sklearn开始学,适用于数据量不大的场景(这里就别计较“不大”具体指标是啥了,哈哈) 数据量大了,就需要用到其他技术了,如:spa ...
机器学习 - 开发环境安装pycharm + tensorflow集成篇
继续上篇的pyspark集成后,我们再来看看当今热的不得了的tensorflow是如何继承进pycharm环境的参考: http://blog.csdn.net/include1224/articl ...
基于python的机器学习开发环境安装（最简单的初步开发环境）
一.安装Python 1.下载安装python3.6 https://www.python.org/getit/ 2.配置环境变量(2个) 略...... 二.安装Python算法库安装顺序:Num ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
基础知识：IDE集成开发环境（pycharm）、基本数据类型、用户的交互、运算符
今日内容: 1.IDE集成开发环境(pycharm) 2.基本数据类型(int.float.str.list.dict) 3.用户的交互(注释.输入input.输出print) 4.运算符(分类及使用 ...
构建一个基本的前端自动化开发环境 —— 基于 Gulp 的前端集成解决方案（四）
通过前面几节的准备工作,对于 npm / node / gulp 应该已经有了基本的认识,本节主要介绍如何构建一个基本的前端自动化开发环境. 下面将逐步构建一个可以自动编译 sass 文件.压缩 ja ...
在linux ubuntu下搭建深度学习/机器学习开发环境
一.安装Anaconda 1.下载下载地址为:https://www.anaconda.com/download/#linux 2.安装anaconda,执行命令: bash ~/Downloads ...
一个电脑的重装到java开发环境安装配置的全过程
刚拿到一台别人用过的电脑.看着c盘爆满,而且用了还是windows7操作系统,强迫症发作马上就准备重装系统. 之前换固态使用wepe制作U盘启动盘装系统的步骤和过程全部忘记的,贼尴尬. 同事都看不过眼 ...
legend3---Windows 7/8/10 系统下Laravel框架的开发环境安装及部署详解（Vagrant + Homestead）
legend3---Windows 7/8/10 系统下Laravel框架的开发环境安装及部署详解(Vagrant + Homestead) 一.总结一句话总结: 1.安装的话就是下载好git,va ...

随机推荐

2.1FTP的简单传输
第一个简单的FTP传输实例 from ftplib import FTP nonpassive = False filename = 'new_1.py' dirname = '.' sitename ...
python中的if判断语句
判断(if)语句目标开发中的应用场景 if 语句体验 if 语句进阶综合应用 01. 开发中的应用场景生活中的判断几乎是无所不在的,我们每天都在做各种各样的选择,如果这样?如果那样?…… ...
quartz自定义线程数
1.加载包 2.添加quartz.propertes 3.编写自己的任务类 4.添加自动任务配置 5.通过 quartzProperties 配置连接池 1.加载包 <dependency> ...
Codeforces Round #212 (Div. 2) C. Insertion Sort
C. Insertion Sort Petya is a beginner programmer. He has already mastered the basics of the C++ lang ...
Vue.js与WdatePicker日历控件冲突问题的解决方案
问题:同时使用Vue.js与WdatePicker时,双向绑定的日期字段获取不到界面输入的值,而且别的字段的值改变后,日期控件的内容会被清空原因:WdatePicker不是Vue的插件,不能响应Vu ...
python day08作业
JAVA_模糊查询_重点是concat关键字
SELECT * FROM user WHERE username LIKE concat('%',#{username},'%') concat : 类似+ ,拼接sql.sql语句中会将+ 重写. ...
转：openwrt 框架分析
本文是本人对OpenWrt的Makefile的理解,并非转载.OpenWrt是一个典型的嵌入式Linux工程,了解OpenWrt的Makefile的工作过程对提高嵌入式Linux工程的开发能力有极其重 ...
解决react-native软键盘弹出挡住输入框的问题
解决react-native软键盘弹出挡住输入框的问题写登录页面,整体界面居中之后就出现软键盘弹出挡住输入框,用户体验不好的情况.用了RN官方的KeyboardAvoidingView组件,会有多出 ...
windows环境下安装Anaconda（Python）
参考网址:http://www.jianshu.com/p/169403f7e40chttp://blog.csdn.net/qq_26898461/article/details/51488326 ...

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇的更多相关文章

随机推荐

热门专题