Spark 集成开发

WordCount.py

# coding:utf-8

from pyspark import SparkContext

from pyspark import SparkConf

def SetLogger(sc):

    """设置不要显示过多信息"""

    logger = sc._jvm.org.apache.log4j

    logger.LogManager.getLogger("org").setLevel(logger.Level.ERROR)

    logger.LogManager.getLogger("akka").setLevel(logger.Level.ERROR)

    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def CreateSparkContext():

    sparkConf = SparkConf().setAppName("WordCounts").set("spark.ui.showConsoleProgress","false")

    sc = SparkContext(conf=sparkConf)

    print("master=",sc.master)

    SetLogger(sc)

    return sc

def main():

    print("开始执行")

    sc = CreateSparkContext()

    textFile = sc.textFile("file:/root/ipynotebook/test.txt") # 本地文件

    # textFile = sc.textFile("hdfs://master:9000/user/hadoop/test.txt") # hdfs文件

    stringRDD = textFile.flatMap(lambda x: x.split(" "))

    # print(stringRDD.collect())

    countsRDD = stringRDD.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

    print("开始保存")

    countsRDD.saveAsTextFile("file:/root/ipynotebook/output")

    # countsRDD.saveAsTextFile("hdfs://master:9000/user/hadoop/output")

    sc.stop()

if __name__ == "__main__":

    main()

使用spark-submit执行命令

# 本地

$ spark-submit --master local WordCount.py

$ cat /output/part-00000 # part文件数取决于实例数

# yarn

$ spark-submit --master yarn WordCount.py

$ hadoop fs -cat /user/hadoop/output/part-00000

Hadoop Web界面

http://master:8088/

Spark 集成开发的更多相关文章

Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
五款实用免费的Python机器学习集成开发环境（5 free Python IDE for Machine Learning）（图文详解）
前言集成开发环境(IDE)是提供给程序员和开发者的一种基本应用,用来编写和测试软件.一般而言,IDE 由一个编辑器,一个编译器(或称之为解释器),和一个调试器组成,通常能够通过 GUI(图形界面)来 ...
转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试
场景好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具.开发环境的搭建与本地测试.测试环境的搭建与测试” - 本文详细记录 ...
Spark集成
一.Spark 架构与优化器 1.Spark架构 (重点) 2.Spark优化器二.Spark+SQL的API (重点) 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的 ...
neurosolutions 人工神经网络集成开发环境 keras
人工神经网络集成开发环境 : http://www.neurosolutions.com/ keras: https://github.com/fchollet/keras 文档 http ...
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...
windows和linux中搭建python集成开发环境IDE——如何设置多个python环境
本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和l ...

随机推荐

Linux系统特殊变量
系统给定的特殊变量: 变量名作用 $0 当前脚本的名字 $n 传递给脚本或者函数的参数,n表示第几个参数 $# 传递给脚本或函数的参数个数 $* 传递给脚本或函数的所有参数 $@ 传递给脚本或者函数 ...
.net core实践系列之短信服务-Sikiro.SMS.Bus服务的实现
前言前两篇<.net core实践系列之短信服务-Sikiro.SMS.Api服务的实现>.<.net core实践系列之短信服务-Api的SDK的实现与测试>分别讲解了AP ...
inode 软/硬链接
一.inode是什么? 理解inode,要从文件储存说起. 文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector).每个扇区储存512字节(相当于0.5KB). 操作系统 ...
Maven 项目生成或者update jdk变为1.5的问题
在使用Maven构建项目时,生成的maven项目jdk默认使用的是jdk1.5. 在手动修改了jdk之后,update project之后jdk又会变为1.5. 或者用eclipse的Maven插件生 ...
sublime text3 安装package control 出现问题解决过程记录
1.安装package control 失败通过最简单的自动安装 package control 失败(详见package control官网). 报错展示: File "./python ...
个人作业week7——前端开发感想总结
个人作业week7——前端开发感想总结 1. 反思首先要谈谈在这次团队项目的工作中,我这边出现过的较为严重的一个问题:我和HoerWing (后端担当)合作时,最初因为我没有使用github(始终连 ...
剑指offer：树的子结构
题目描述: 输入两棵二叉树A,B,判断B是不是A的子结构.(ps:我们约定空树不是任意一个树的子结构) 解题思路: 同样考虑用递归来做. 利用两个递归函数,一个用于判断两棵树树否相等,另一个递归取A的 ...
利用ThreadLocal管理事务
package com.itheima.util; import java.sql.Connection; import java.sql.SQLException; //封装了所有与事务有关的方法 ...
JS 柯里化 (curry)
用 JS 理解柯里化函数式编程风格,试图以函数作为参数传递(回调)和无副作用的返回函数(修改程序的状态). 很多语言采用了这种编程风格.JavaScript,Haskell,Clojure,Erla ...
HDU 2087 剪花布条（字符串哈希）
http://acm.hdu.edu.cn/showproblem.php?pid=2087 Problem Description 一块花布条,里面有些图案,另有一块直接可用的小饰条,里面也有一些图 ...

Spark 集成开发

WordCount.py

使用spark-submit执行命令

Hadoop Web界面

Spark 集成开发的更多相关文章

随机推荐

热门专题