spark编程python实例

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[])

1.pyspark在jupyter notebook中开发，测试，提交

1.1.启动

IPYTHON_OPTS="notebook" /opt/spark/bin/pyspark

下载应用，将应用下载为.py文件（默认notebook后缀是.ipynb）

在shell中提交应用

wxl@wxl-pc:/opt/spark/bin$ spark-submit /bin/spark-submit /home/wxl/Downloads/pysparkdemo.py

3.遇到的错误及解决

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*])

d*

3.1.错误

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*])

d*

ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by <module> at /usr/local/lib/python2.7/dist-packages/IPython/utils/py3compat.py:288

3.2.解决，成功运行

在from之后添加

try:

    sc.stop()

except:

    pass

sc=SparkContext('local[2]','First Spark App')

贴上错误解决方法来源StackOverFlow

4.源码

pysparkdemo.ipynb

{

 "cells": [

  {

   "cell_type": "code",

   "execution_count": 1,

   "metadata": {

    "collapsed": true

   },

   "outputs": [],

   "source": [

    "from pyspark import SparkContext"

   ]

  },

  {

   "cell_type": "code",

   "execution_count": 2,

   "metadata": {

    "collapsed": true

   },

   "outputs": [],

   "source": [

    "try:\n",

    "    sc.stop()\n",

    "except:\n",

    "    pass\n",

    "sc=SparkContext('local[2]','First Spark App')"

   ]

  },

  {

   "cell_type": "code",

   "execution_count": 3,

   "metadata": {

    "collapsed": true

   },

   "outputs": [],

   "source": [

    "data = sc.textFile(\"data/UserPurchaseHistory.csv\").map(lambda line: line.split(\",\")).map(lambda record: (record[0], record[1], record[2]))"

   ]

  },

  {

   "cell_type": "code",

   "execution_count": 4,

   "metadata": {

    "collapsed": false,

    "scrolled": true

   },

   "outputs": [

    {

     "name": "stdout",

     "output_type": "stream",

     "text": [

      "Total purchases: 5\n"

     ]

    }

   ],

   "source": [

    "numPurchases = data.count()\n",

    "print \"Total purchases: %d\" % numPurchases"

   ]

  },

  {

   "cell_type": "code",

   "execution_count": null,

   "metadata": {

    "collapsed": true

   },

   "outputs": [],

   "source": []

  }

 ],

 "metadata": {

  "kernelspec": {

   "display_name": "Python 2",

   "language": "python",

   "name": "python2"

  },

  "language_info": {

   "codemirror_mode": {

    "name": "ipython",

    "version": 2

   },

   "file_extension": ".py",

   "mimetype": "text/x-python",

   "name": "python",

   "nbconvert_exporter": "python",

   "pygments_lexer": "ipython2",

   "version": "2.7.12"

  }

 },

 "nbformat": 4,

 "nbformat_minor": 0

}

pysparkdemo.py



# coding: utf-8

# In[1]:

from pyspark import SparkContext

# In[2]:

try:

    sc.stop()

except:

    pass

sc=SparkContext('local[2]','First Spark App')

# In[3]:

data = sc.textFile("data/UserPurchaseHistory.csv").map(lambda line: line.split(",")).map(lambda record: (record[0], record[1], record[2]))

# In[4]:

numPurchases = data.count()

print "Total purchases: %d" % numPurchases

# In[ ]:

spark编程python实例的更多相关文章

使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
Python（五）编程小实例
Python(五)编程小实例抓取网页信息,并生成txt文件内容! Python抓取网页技能--Python抓取网页就是我们常看见的网络爬虫,我们今天所要用到的就是我们Python中自带的模块,用这些 ...
【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
[原创 Hadoop&Spark 动手实践 6]Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写目标: 1. 掌握理论:了解Spark编程的理论基础 2. 搭建 ...
梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
Spark 的 python 编程环境
Spark 可以独立安装使用,也可以和 Hadoop 一起安装使用.在安装 Spark 之前,首先确保你的电脑上已经安装了 Java 8 或者更高的版本. Spark 安装访问Spark 下载页面, ...
Spark编程实现SQL查询的实例
1.Oracle中的SQL select count(1) from a_V_PWYZL_CUSTACCT_PSMIS t where not exists (select 1 from tb_sho ...
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...
Spark：Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356 Spark编程模型 SparkContext类和SparkConf类代码中初始化我们 ...
Spark编程指南V1.4.0(翻译)
Spark编程指南V1.4.0 · 简单介绍 · 接入Spark · Spark初始化 · 使用Shell · 在集群上部署代码 ...

随机推荐

Linux硬件信息采集
dmidecode: 简介: dmidecode命令通过读取DMI数据库获取硬件信息并输出.由于DMI信息可以人为修改,因此里面的信息不一定是系统准确的信息 dmidecode遵循SMBIOS/DMI ...
angluarJs与后台交互小案例
.myService.html: <!DOCTYPE HTML> <html ng-app="app"> <head> <title> ...
关于NPOIExcel导出excel
1.支持导出多个sheet文件 /// <summary> /// 导出到Excel并下载(html) /// </summary> /// <param name=&q ...
liunx php 安装 redis 扩展
切换到安装目录: cd /usr/local/ 下载php redis扩展:wget http://pecl.php.net/get/redis-2.2.8.tgz 更改名称压缩包名称: mv re ...
abp + angular 项目图标字体注意事项
用的字体建议下载到本地,否则部署环境没有网络的话,则图片字体会不正常显示.
POJ：2456 Aggressive cows(z最大化最小值）
描述农夫 John 建造了一座很长的畜栏,它包括N (2 <= N <= 100,000)个隔间,这些小隔间依次编号为x1,...,xN (0 <= xi <= 1,000, ...
OJ 21658::Monthly Expense(二分搜索+最小化最大值）
Description Farmer John是一个令人惊讶的会计学天才,他已经明白了他可能会花光他的钱,这些钱本来是要维持农场每个月的正常运转的.他已经计算了他以后N(1<=N< ...
Selenium WebDriver 中鼠标和键盘事件分析及扩展
[From] http://www.51testing.com/html/18/631118-861557.html 在使用 Selenium WebDriver 做自动化测试的时候,会经常模拟鼠标和 ...
网站ico那点事儿
一. 如何获取某个网站的favicon.ico http://moco.imooc.com/player/report.html 今天看到这个网站上,左侧的小图片挺好看的,想弄下来,检查源码,也没有看 ...
有关tensorflow一些问题
1.python版本采用64位的python 2.系统不支持高版本tensorflow(>1.6),运行报错如下: 问题描述如下: ImportError: DLL load failed: ...

spark编程python实例

spark编程python实例

1.pyspark在jupyter notebook中开发，测试，提交

1.1.启动

在shell中提交应用

3.遇到的错误及解决

3.1.错误

3.2.解决，成功运行

4.源码

spark编程python实例的更多相关文章

随机推荐

热门专题