PyCharm+Eclipse共用Anaconda的数据科学环境

CJZhaoSimons 2024-10-11 18:45:34 原文

1.安装anaconda2

　　安装好之后，本地python环境就采用anaconda自带的python2.7的环境。

2.安装py4j

　　在本地ctrl+r打开控制台后，直接使用pip安装py4j，因为anaconda默认是安装了pip的，当然也可以使用conda安装。

　　安装命令：pip install py4j

　　如果不安装py4j可能出现的问题？

答：因为Spark的Python版本的API依赖于py4j，如果不安装运行程序会抛出如下错误。

3.配置环境变量

　　配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME，另外一个是PYTHONPATH。

（1）.先打开Run Configurations

(创建一个项目，项目或python文件的左上角有该选项)

　　

（2）.编辑Environment variables

或者按下面的方式展开

菜单：File-->Settings (图来源于互联网~这里我用的是python2)

（3）.在Environment variables下增加spark和python的环境

　　增加SPARK_HOME目录与PYTHONPATH目录。

　　- SPARK_HOME:Spark安装目录

　　- PYTHONPATH:Spark安装目录下的Python目录

4.复制pyspark的包

编写Spark程序，复制pyspark的包，增加代码显示功能

为了让我们在PyCharm编写Spark程序时有代码提示和补全功能，需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包，叫做pyspark

pyspark包

Python导入第三方的包也很容易，只需要把相应的模块导入到指定的文件夹就可以了。
windows中将pyspark拷贝到Python的site-packages目录下（这里使用的是anaconda）

5.测试代码

import sys

from operator import add

from pyspark import SparkContext

logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

PyCharm+Eclipse共用Anaconda的数据科学环境的更多相关文章

（数据科学学习手札81）conda+jupyter玩转数据科学环境搭建
本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们在使用Python进行数据分析时,很 ...
Manjaro折腾笔记：我的数据科学环境搭建之路
ss并且开机启动 0. 安装shadowsocks sudo pip install shadowsocks 1. 建立配置文件ss.json 我的位置是:/home/ray/Documents/sh ...
python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
《Python数据科学手册》
<Python数据科学手册>[美]Jake VanderPlas著陶俊杰译 Absorb what is useful, discard what is not, and add wh ...
干货！小白入门Python数据科学全教程
前言本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话.我是一名数据 ...
python3 数据科学基础
第一章 1.Anaconda(最著名的python数据科学平台) 下面小伙伴们咱们来初初识下Anaconda吧 What is Anaconda???? 回答: (1).科学计算的平台 (2).有很多 ...
Python数据科学“冷门”库
Python是一种神奇的语言.事实上,它是近几年世界上发展最快的编程语言之一,它一次又一次证明了它在开发工作和数据科学立场各行业的实用性.整个Python系统和库是对于世界各地的用户(无论是初学者或者 ...
9 个鲜为人知的 Python 数据科学库
除了 pandas.scikit-learn 和 matplotlib,还要学习一些用 Python 进行数据科学的新技巧. Python 是一种令人惊叹的语言.事实上,它是世界上增长最快的编程语言之 ...
（数据科学学习手札50）基于Python的网络数据采集-selenium篇（上）
一.简介接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...

随机推荐

SpringMVC由浅入深day01_6源码分析(了解)
6 源码分析(了解) 通过前端控制器源码分析springmvc的执行过程. 入口第一步:前端控制器接收请求调用doDiapatch 第二步:前端控制器调用处理器映射器查找 Handler 第三步: ...
Docker应用之容器
容器是独立运行的一个或一组应用,以及他们的运行态环境 1.启动容器(基于镜像新建一个容器并启动或将终止状态的容器重新启动) run后面添加--name参数可以指定容器的名称,否则系统默认会给名称:使用 ...
MyBatis入门程序之Mapper代理方式
Mapper代理的开发方式,程序员只需要编写mapper接口(相当于dao接口)即可,MyBatis会自动为mapper接口生成动态代理实现类. 一.开发规范 1.mapper接口的全限定名要和map ...
nsi脚本中执行.bat文件要隐藏dos窗口问题
问题原因:工作中,在一个nsi的安装脚本文件中需要安装虚拟摄像头驱动,安装驱动脚本是.bat文件.使用nsi的execwait函数执行.bat文件时会显示dos窗口.但是领导要求不能显示dos窗口. ...
(转载)Java反射机制
Java反射机制是Java语言被视为准动态语言的关键性质.Java反射机制的核心就是允许在运行时通过Java Reflection APIs来取得已知名字的class类的相关信息,动态地生成此类,并调 ...
VS中快捷键修改以及快捷键的查看
eclipse用习惯了一直想把VS中的alt+/改为自动补全,同时自定义一下C#环境下自动加入命名控件的快捷键,前段时间摸索了一下,找到了比较好的方法首先是vs中修改快捷键的方法:工具->选项 ...
Linux 排错误删 /etc/fstab 和 /boot怎样恢复
实验:在分区情况下,rm -rf /boot和/etc/fstab,恢复首先我们查看一下/etc/fstab 里面放的是什么东西,从下图可以看出里面存放的是分区的挂载情况,删除分区将不能自动挂载接 ...
命令行连接mysql服务器时报Can't connect to local MySQL server through socket 'xxx.sock'错误
本来之前用的好好的mysql服务器,突然就报Can't connect to local MySQL server through socket 'xxx.sock'错误了遇到该问题思路首先是:检查 ...
ldap 测试表设计
1. ldap_oc_mappings 存储objeckClass 信息表结构: Column Desc. id objectClass的唯一标识 name objectClass的名称 k ...
【PHP】常见算法
1 冒泡排序思路:在要排序的一组数中,对当前还未排好的序列,从前往后对相邻的两个数依次进行比较和调整,让较大的数往下沉,较小的往上冒. 即,每当两相邻的数比较后发现它们的排序与排序要求相反时,就将它 ...