Spark 集成开发

WordCount.py

# coding:utf-8

from pyspark import SparkContext

from pyspark import SparkConf

def SetLogger(sc):

    """设置不要显示过多信息"""

    logger = sc._jvm.org.apache.log4j

    logger.LogManager.getLogger("org").setLevel(logger.Level.ERROR)

    logger.LogManager.getLogger("akka").setLevel(logger.Level.ERROR)

    logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def CreateSparkContext():

    sparkConf = SparkConf().setAppName("WordCounts").set("spark.ui.showConsoleProgress","false")

    sc = SparkContext(conf=sparkConf)

    print("master=",sc.master)

    SetLogger(sc)

    return sc

def main():

    print("开始执行")

    sc = CreateSparkContext()

    textFile = sc.textFile("file:/root/ipynotebook/test.txt") # 本地文件

    # textFile = sc.textFile("hdfs://master:9000/user/hadoop/test.txt") # hdfs文件

    stringRDD = textFile.flatMap(lambda x: x.split(" "))

    # print(stringRDD.collect())

    countsRDD = stringRDD.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)

    print("开始保存")

    countsRDD.saveAsTextFile("file:/root/ipynotebook/output")

    # countsRDD.saveAsTextFile("hdfs://master:9000/user/hadoop/output")

    sc.stop()

if __name__ == "__main__":

    main()

使用spark-submit执行命令

# 本地

$ spark-submit --master local WordCount.py

$ cat /output/part-00000 # part文件数取决于实例数

# yarn

$ spark-submit --master yarn WordCount.py

$ hadoop fs -cat /user/hadoop/output/part-00000

Hadoop Web界面

http://master:8088/

Spark 集成开发的更多相关文章

Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕
Spark Streaming揭秘 Day28 在集成开发环境中详解Spark Streaming的运行日志内幕今天会逐行解析一下SparkStreaming运行的日志,运行的是WordCountO ...
Ubuntu14.04或16.04下Hadoop及Spark的开发配置
对于Hadoop和Spark的开发,最常用的还是Eclipse以及Intellij IDEA. 其中,Eclipse是免费开源的,基于Eclipse集成更多框架配置的还有MyEclipse.Intel ...
五款实用免费的Python机器学习集成开发环境（5 free Python IDE for Machine Learning）（图文详解）
前言集成开发环境(IDE)是提供给程序员和开发者的一种基本应用,用来编写和测试软件.一般而言,IDE 由一个编辑器,一个编译器(或称之为解释器),和一个调试器组成,通常能够通过 GUI(图形界面)来 ...
转】[1.0.2] 详解基于maven管理-scala开发的spark项目开发环境的搭建与测试
场景好的,假设项目数据调研与需求分析已接近尾声,马上进入Coding阶段了,辣么在Coding之前需要干马呢?是的,“统一开发工具.开发环境的搭建与本地测试.测试环境的搭建与测试” - 本文详细记录 ...
Spark集成
一.Spark 架构与优化器 1.Spark架构 (重点) 2.Spark优化器二.Spark+SQL的API (重点) 1.DataSet简介 2.DataFrame简介 3.RDD与DF/DS的 ...
neurosolutions 人工神经网络集成开发环境 keras
人工神经网络集成开发环境 : http://www.neurosolutions.com/ keras: https://github.com/fchollet/keras 文档 http ...
Windows下搭建Spark+Hadoop开发环境
Windows下搭建Spark+Hadoop开发环境需要一些工具支持. 只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和H ...
windows和linux中搭建python集成开发环境IDE——如何设置多个python环境
本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和l ...

随机推荐

[Partition][Index]对于Partition表而言，是否Global Index 和 Local Index 可以针对同一个字段建立？
对于Partition表而言,是否Global Index 和 Local Index 可以针对同一个字段建立? 实验证明,对单独的列而言,要么建立 Global Index, 要么建立 Local ...
[python][spark]wholeTextFiles 读入多个文件的例子
$pwd /home/training/mydir $cat file1.json {"firstName":"Fred", "lastName&qu ...
Python从菜鸟到高手（2）：清空Python控制台
执行python命令会进入Python控制台.在Python控制台中可以用交互的方式执行Python语句.也就是执行一行Python语句,会立刻返回执行结果. 当Python控制台输入过多的Pyt ...
win10系统安装web3js的正确方法(2)
信渤网络科技是一家基于互联网信息服务的区块链技术公司,专业提供区块链技术培训,智能合约定制开发,文字图片数据存证上链等服务,为相关企业提供区块链应用落地项目的技术方案崇尚代码即法律,做一个智能合约开 ...
beta阶段测试基本概况对应机型硬件信息
机型测试概况测试结果测试终端数品牌分布分析系统分布分析分辨率分布未执行 1 联想 4.0.3 480*800 安装失败 1 联想 4.2.1 480*854 通过 119 华为, 三星, ...
08-java学习-数组-增强for循环-数组与方法-main函数参数
数组定义和使用数组与方法的结合使用 main函数传参
PAT L2-001 紧急救援
https://pintia.cn/problem-sets/994805046380707840/problems/994805073643683840 作为一个城市的应急救援队伍的负责人,你有一张 ...
PAT 1021 个位数统计
https://pintia.cn/problem-sets/994805260223102976/problems/994805300404535296 给定一个k位整数N = d~k-1~*10^ ...
CRM 数据查重
2.8 小工具 · 纷享销客产品手册https://www.fxiaoke.com/mob/guide/crmdoc/src/2-8%E5%B0%8F%E5%B7%A5%E5%85%B7.html C ...
From 简书转帖一下如何安装k8s1.10 改天做下实验. https://www.jianshu.com/p/9c7e1c957752
centos7.3 kubernetes/k8s 1.10 离线安装老菜_misa 关注 2018.04.25 23:57 字数 1243 阅读 266评论 1喜欢 3 本文介绍在centos7.3 ...

Spark 集成开发

WordCount.py

使用spark-submit执行命令

Hadoop Web界面

Spark 集成开发的更多相关文章

随机推荐

热门专题