spark-day1

#!/usr/bin/python

# -*- coding: utf_8 -*-

from pyspark import SparkConf, SparkContext

import os, time

if __name__ == '__main__':

    # Create SparkConf

    # sparkConf:是一个SparkConf的对象，用来初始化程序，配置应用，传递初始参数

    # setAppName：指定rdd名称；setMaster：指定运行的线程

    sparkConf = SparkConf() \

        .setAppName("python Spark WordCount") \

        .setMaster("local")

    # Create SparkContext

    # sc:是一个SparkContext的对象，代表了对计算集群的连接，用来访问Spark，创建RDD

    # 将sprkConf作为参数传递给SparkContext

    sc =SparkContext(conf=sparkConf)

    '''

        创建RDD：

            方式一：从本地集和并行化创建

            方式二：从外部文件系统读取数据（HDFS）

    '''

    # ----------第一种方式：从集合并行化创建RDD----------

    datas = ["hadoop spark", "spark hive spark sql", "spark hadoop sql spark"]

    # parallelize方法:接收一个list数据集作为参数，可以快速创建RDD；缺点：需要将数据集都加载到内存中

    rdd1 = sc.parallelize(datas)

    # ----------第二种方式：从外部存储中读取数据创建RDD----------

    # textfile方法：将文本文件读取为一个存储字符串的RDD

    rdd2 = sc.textFile('T_CAR_20150401.csv')

    # 转化操作：

    car_rdd = rdd2.filter(lambda x:'FB5018' in x)

    car2_rdd = rdd2.filter(lambda x:'FB5093'in x)

    total_rdd = car_rdd.union(car2_rdd)

    # 行动操作：

    # count:获取个数

    # first:获取第一条数据

    print rdd1.count()

    print rdd1.first()

    print total_rdd.count()

    print total_rdd.first()

    # 休眠一段时间，为WEB UI进行监控

    time.sleep(100000)

    # SparkContext stop

    sc.stop()

spark-day1的更多相关文章

Spark练习代码
1.scalaWordCount package com._51doit.spark.day1 import org.apache.spark.rdd.RDDimport org.apache.spa ...
Spark提交任务(Standalone和Yarn)
Spark Standalone模式提交任务 Cluster模式: ./spark-submit \--master spark://node01:7077 \--deploy-mode clus ...
day28Spark
PS:因为Spark是用内存运行的,非常快 PS: 1.下面就是将conf的spark-env.template改变成spark-env.sh,并添加红色部分 2.修改slaves文件添加从设备启 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
Spark Tungsten揭秘 Day1 jvm下的性能优化
Spark Tungsten揭秘 Day1 jvm下的性能优化今天开始谈下Tungsten,首先我们需要了解下其背后是符合了什么样的规律. jvm对分布式天生支持整个Spark分布式系统是建立在分 ...
Spark机器学习 Day1 机器学习概述
Spark机器学习 Day1 机器学习概述今天主要讨论个问题:Spark机器学习的本质是什么,其内部构成到底是什么. 简单来说,机器学习是数据+算法. 数据在Spark中做机器学习,肯定有数据来源 ...
Spark Streaming揭秘 Day5 初步贯通源码
Spark Streaming揭秘 Day5 初步贯通源码引子今天,让我们从Spark Streaming最重要的三个环节出发,让我们通过走读,逐步贯通源码,还记得Day1提到的三个谜团么,让我们 ...
spark streaming (二)
一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().s ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...
Spark Streaming揭秘 Day1-三大谜团
Spark Streaming揭秘 Day1 三大谜团引子在Spark的众多组件中,Streaming最接近企业级应用程序,学习Spark Streaming,是掌握大数据技术的一条捷径.今天是第 ...

随机推荐

Android使用Fragment来实现TabHost的功能
http://www.cnblogs.com/tiantianbyconan/p/3360938.html 好了,到此为止,我们已经用Fragment实现了类似TabHost的功能了,下面来看下各个F ...
centos7部署ethereum私有链
https://github.com/ethereum/go-ethereum/wiki http://book.8btc.com/books/6/ethereum/_book/public-chai ...
IFrame安全问题解决办法（跨框架脚本(XFS)漏洞）
最近项目要交付了,对方安全测试的时候检测出高危险漏洞,由于刚参加工作不久,经验不足,未涉及过此方面的东西.经过一番查询和探索,最终解决了这个问题,记录一下. 发现的漏洞为缺少跨框架脚本保护.跨框架脚本 ...
xshell里的一些配色方案
只需要把下面的代码复制到记事本中,保存为xcs文件格式,然后在xshell中导入选中就可以换配色方案了,可以自己修改下面的代码 [ubuntu]text(bold)=ffffffmagenta(bol ...
tampermonkey利用@require调用本地脚本的方法
比如Tampermonkey上的有个用户脚本a,本来的方法是: 1.直接在Tampermonkey上编辑js,适合高手,但是本人不清楚脚本如何同步,况且不熟练js,在Tampermonkey上写太难了 ...
使用slmgr查看、删除windows 授权(key)
查看 slmgr.vbs /dlv 删除授权使用管理员权限进入cmd All program -> accessories -> Command Prompt (右键已管理员方式运行) ...
diskpart分区
分区知识充电: 主分区:主分区,也称为主磁盘分区,和拓展分区.逻辑分区一样,是一种分区类型.主分区中不能再划分其他类型的分区,因此每个主分区都相当于一个逻辑磁(在这一点上主分区和逻辑分区很相似,但主分 ...
May 12th 2017 Week 19th Friday
Love asks faith, and faith asks firmness. 爱情要求忠诚,而忠诚要求坚贞. Love, as well as many other relations amon ...
Python之List和Tuple类型(入门3)
转载请标明出处: http://www.cnblogs.com/why168888/p/6407682.html 本文出自:[Edwin博客园] Python之List和Tuple类型 1. Pyth ...
Gym - 101334F 单调栈
当时我的第一想法也是用单调栈,但是被我写炸了:我也不知道错在哪里: 看了大神的写法,用数组模拟的: 记录下单调递增栈的下标,以及每个数字作为最小值的最左边的位置. 当有数据要出栈的时候,说明栈里的数据 ...

spark-day1

spark-day1的更多相关文章

随机推荐

热门专题