【机器学习之二】python开发spark案例

环境
　　spark-1.6
　　python3.5

一、wordcount

# -*- coding:utf-8 -*-

'''

Created on 2019年5月13日

@author: Administrator

'''

#从pyspark中导入相应的包

from pyspark import SparkConf

from pyspark import SparkContext

def show(x):

    print(x)

if __name__ == '__main__':

    #创建SparkConf

    conf = SparkConf().setAppName("wordcount").setMaster("local")

    #创建SparkContext  注意参数要传递conf=conf

    sc = SparkContext(conf=conf)

    #设置日志级别

    sc.setLogLevel("WARN")

    #使用2个分区读取数据 一行行的数据

    lines = sc.textFile("../../data/words", 2)

    print("lines rdd partition length = %d"%(lines.getNumPartitions()))

    #每一行数据按照空格拆分  得到一个个单词

    words = lines.flatMap(lambda line:line.split(" "), True)

    #将每个单词 组装成一个tuple 计数1

    pairWords = words.map(lambda word : (word,1),True)

    #使用3个分区 reduceByKey进行汇总

    result = pairWords.reduceByKey(lambda v1,v2:v1+v2, 3)

    print("result rdd partition length = %d"%(result.getNumPartitions()))

    #打印结果

    result.foreach(lambda t :show(t))

    #将结果保存到文件

    result.saveAsTextFile("../../data/wc-result")

    #关闭

    sc.stop()

二、PVUV

# -*- coding:utf-8 -*-

'''

Created on 2019年5月16日

@author: Administrator

'''

# import sys

from pyspark.conf import SparkConf

from pyspark.context import SparkContext

from builtins import sorted

# print(sys.getdefaultencoding())

# reload(sys)

# sys.setdefaultencoding('utf-8')

# print(sys.getdefaultencoding())

#打印结果

def showresult(em):

    print(em)

#数据样例

#7.213.213.208    吉林    2018-03-29    1522294977303    1920936170939152672    www.dangdang.com    Login

#页面访问量

def pv(lines):

    sitepair = lines.map(lambda line:(line.split("\t")[5],1))

    result1 = sitepair.reduceByKey(lambda v1,v2:v1+v2)

    #排序 降序

    result2 = result1.sortBy(lambda one:one[1],ascending=False)

    result2.foreach(lambda em :showresult(em))

# ('www.baidu.com', 18791)

# ('www.dangdang.com', 18751)

# ('www.suning.com', 18699)

# ('www.mi.com', 18678)

# ('www.taobao.com', 18613)

# ('www.jd.com', 18519)

# ('www.gome.com.cn', 18493)

#用户访问量

def uv(lines):

    #同一个IP访问某个网站量要排重

    sitepair = lines.map(lambda line:line.split("\t")[0]+"_"+line.split("\t")[5]).distinct()

    result = sitepair.map(lambda one:(one.split("_")[1],1)).reduceByKey(lambda v1,v2:v1+v2).sortBy(lambda one:one[1],ascending=False)

    result.foreach(lambda one:showresult(one))

# ('www.baidu.com', 15830)

# ('www.suning.com', 15764)

# ('www.mi.com', 15740)

# ('www.jd.com', 15682)

# ('www.dangdang.com', 15641)

# ('www.taobao.com', 15593)

# ('www.gome.com.cn', 15590)

def uvExceptBJ(lines):

    usiteviews = lines.filter(lambda line:line.split("\t")[1] != "北京").map(lambda line:line.split("\t")[0]+"_"+line.split("\t")[5]).distinct()

    result1 = usiteviews.map(lambda one:(one.split("_")[1],1)).reduceByKey(lambda v1,v2:v1+v2)

    result2 = result1.sortBy(lambda one:one[1],ascending=False)

    result2.foreach(lambda em : showresult(em))

# ('www.baidu.com', 15399)

# ('www.mi.com', 15341)

# ('www.suning.com', 15294)

# ('www.jd.com', 15255)

# ('www.dangdang.com', 15181)

# ('www.gome.com.cn', 15154)

# ('www.taobao.com', 15131)   

def getTop2Location(lines):

    #按照网站分组

    site_locations = lines.map(lambda line:(line.split("\t")[5],line.split("\t")[1])).groupByKey()

    result = site_locations.map(lambda one:getCurrSiteTop2Location(one)).collect()

    for em in result:

        print(em)

# ('www.suning.com', [('山西', 1102), ('广西', 606)])

# ('www.jd.com', [('山西', 1069), ('湖北', 614)])

# ('www.taobao.com', [('山西', 1065), ('安徽', 601)])

# ('www.gome.com.cn', [('山西', 1029), ('内蒙', 590)])

# ('www.dangdang.com', [('山西', 1083), ('香港', 591)])

# ('www.mi.com', [('山西', 1085), ('广东', 617)])

# ('www.baidu.com', [('山西', 1028), ('台湾', 641)])

def getCurrSiteTop2Location(one):

    site = one[0]

    locations = one[1]

    locationdict = {}

    #汇总每个网站中location的数量

    for location in locations:

        if location in locationdict:

            locationdict[location] += 1

        else:

            locationdict[location] = 1

    resultlist = []

    #使用内置函数排序

    sortedList = sorted(locationdict.items(),key = lambda kv:kv[1],reverse = True)

    #取前两个地区

    if len(sortedList) < 2:

       resultlist = sortedList

    else:

        for i in range(2):

            resultlist.append(sortedList[i])

    return site,resultlist

def getTopOperation(lines):

    site_operations = lines.map(lambda line:(line.split("\t")[5],line.split("\t")[6])).groupByKey()

    result = site_operations.map(lambda one:getCurrSiteTopOperation(one)).collect()

    for em in result:

        print(em)

# ('www.suning.com', [('View', 3168)])

# ('www.jd.com', [('Login', 3132)])

# ('www.taobao.com', [('Regist', 3196)])

# ('www.gome.com.cn', [('Click', 3170)])

# ('www.dangdang.com', [('Buy', 3179)])

# ('www.mi.com', [('Buy', 3231)])

# ('www.baidu.com', [('Comment', 3207)])

def getCurrSiteTopOperation(one):

    site = one[0]

    operations = one[1]

    operationDict = {}

    for operation in operations:

        if operation in operationDict:

            operationDict[operation] += 1

        else:

            operationDict[operation] = 1

    resultList=[]

    sortedList = sorted(operationDict.items(), key=lambda kv:kv[1], reverse=True)

    if len(sortedList) < 1:

       resultList=[]

    else:

        resultList.append(sortedList[0])

    return site,resultList

def getTop3User(lines):

    #另外一种思路 按照用户分组 统计每个用户访问不同网站数量

    site_uid_count = lines.map(lambda line:(line.split("\t")[3],line.split("\t")[5])).groupByKey().flatMap(lambda one:getSiteInfo(one))

    #按照网站分组之后再取前三

    result = site_uid_count.groupByKey().map(lambda one:getCurSiteTop3User(one)).collect()

    for em in result:

        print(em)

# ('www.suning.com', [('1522294989941', 5), ('1522294980028', 5), ('1522294986337', 5)])

# ('www.jd.com', [('1522295002636', 5), ('1522294988631', 5), ('1522294990824', 4)])

# ('www.taobao.com', [('1522294992394', 5), ('1522294982477', 5), ('1522294999369', 5)])

# ('www.gome.com.cn', [('1522294994219', 5), ('1522294988497', 5), ('1522294991142', 5)])

# ('www.dangdang.com', [('1522294994360', 5), ('1522294988712', 5), ('1522294992239', 4)])

# ('www.mi.com', [('1522294987189', 5), ('1522294989540', 5), ('1522294980962', 5)])

# ('www.baidu.com', [('1522294991559', 6), ('1522294989188', 5), ('1522294996021', 5)])

#统计每个用户访问网站数量 然后返回每个网站对应用户访问量

def getSiteInfo(one):

    uid = one[0]

    sites = one[1]

    siteDict = {}

    for site in sites:

        if site in siteDict:

            siteDict[site] += 1

        else:

            siteDict[site] = 1

    resultList=[]

    for site,count in siteDict.items():

        resultList.append((site,(uid,count)))

    return resultList

def getCurSiteTop3User(one):

    site = one[0]

    uid_counts = one[1]

    top3List = ["","",""]

    for uid_count in uid_counts:

        for i in range(0,len(top3List)):

            if top3List[i] == "":

                top3List[i] = uid_count

                break

            else:

                if uid_count[1] > top3List[i][1]:

                    for j in range(2,i,-1):

                        top3List[j] = top3List[j-1]

                    top3List[i] = uid_count

                    break

    return site,top3List           

if __name__ == '__main__':

    conf = SparkConf().setMaster("local").setAppName("pvuv")

    sc = SparkContext(conf=conf)

    sc.setLogLevel("WARN")

    lines = sc.textFile('../../data/pvuvdata')

    # 1).统计PV,UV

    pv(lines)

    uv(lines)

    # 2).统计除了北京地区外的UV

    uvExceptBJ(lines)

    # 3).统计每个网站最活跃的top2地区

    getTop2Location(lines)

    # 4).统计每个网站最热门的操作

    getTopOperation(lines)

    # 5).统计每个网站下最活跃的top3用户

    getTop3User(lines)

    #停止

    sc.stop()

【机器学习之二】python开发spark案例的更多相关文章

【机器学习之一】python开发spark环境搭建
环境 spark-1.6 python3.5 一.python开发spark原理使用python api编写pyspark代码提交运行时,为了不破坏spark原有的运行架构,会将写好的代码首先在pyt ...
visio二次开发——图纸解析
(转发请注明来源:http://www.cnblogs.com/EminemJK/) visio二次开发的案例或者教程,国内真的非常少,这个项目也是花了不少时间来研究visio的相关知识,困难之所以难 ...
windows下搭建spark+python 开发环境
有时候我们会在windows 下开发spark程序,测试程序运行情况,再部署到真实服务器中运行. 那么本文介绍如何在windows 环境中搭建简单的基于hadoop 的spark 环境. 我的wind ...
【基于spark IM 的二次开发笔记】第一天各种配置
[基于spark IM 的二次开发笔记]第一天各种配置 http://juforg.iteye.com/blog/1870487 http://www.igniterealtime.org/down ...
机器学习算法与Python实践之（二）支持向量机（SVM）初级
机器学习算法与Python实践之(二)支持向量机(SVM)初级机器学习算法与Python实践之(二)支持向量机(SVM)初级 zouxy09@qq.com http://blog.csdn.net/ ...
Python开发【第二十二篇】：Web框架之Django【进阶】
Python开发[第二十二篇]:Web框架之Django[进阶] 猛击这里:http://www.cnblogs.com/wupeiqi/articles/5246483.html 博客园首页 ...
openfire spark 二次开发服务插件
==================== 废话 begin ============================ 最近老大让我为研发平台增加即时通讯功能.告诉我用comet 在web端实现即 ...
Python什么是二次开发的意义？python在.net项目采用
任何人都知道python在.net该项目是做什么的啊? 辅助用途,用作"二次开发"..net站点的话python主要是CGI才用.能够用python编写B/S程序. 解释一下二次开 ...
PC结束 Spark 二次开发收到自己主动，并允许好友请求
本次Spark二次开发是为了客服模块的开发, 能让用户一旦点击该客服则直接自己主动加入好友.而客服放则需自己主动加入好友,不同弹出对话框进行允许,这方便的广大客服. 如今废话不多说,直接上代码. pa ...

随机推荐

【原创】selenium+python+openpyxl实现登录自动化测试，自动读取excel用例数据，并将数据结果自动写入到excel
# -*- coding: utf-8 -*- from selenium import webdriver from openpyxl import load_workbook from time ...
JAVA的概念理解：JavaSE、JavaEE、JavaME、jdk、jre、ide
JavaSE是Java Standard Edtion的缩写,译成中文就是Java标准版,也是Java的核心.无论是 JavaEE(Java企业版)还是JavaME(Java微型版)都是以JavaSE ...
React-Router常见API
React-Router是React项目中处理路由的库. 1. HashRouter 通过hashchange监听路由的变化,通过window.location.hash赋值触发监听的变化. 本质是一 ...
WinDbg常用命令系列---显示段选择器dg、链接列表dl和字符串ds/dS
dg (Display Selector) dg命令显示指定选择器的段描述符. dg FirstSelector [LastSelector] 参数: FirstSelector指定要显示的第一个选择 ...
Flutter 简介（事件、路由、异步请求）
1. 前言 Flutter是一个由谷歌开发的开源移动应用软件开发工具包,用于为Android和iOS开发应用,同时也将是Google Fuchsia下开发应用的主要工具.其官方编程语言为Dart. 同 ...
【JZOJ6210】【20190612】wsm
题目定义两个非递减数列的笛卡尔和数列\(C = A \oplus B\) 为\((A_i+B_j)\)排序后的非递减数列 \(W\)组询问,问有多少对可能的数列,满足: \(|C|=s,|A| = ...
linux命令之------Chown命令
Chown命令 1) 作用:将指定文件的拥有者改为指定的用户或组. 2) -c:显示更改的部分的信息. 3)-f:忽略错误信息. 4)-h:修复符号链接. 5)-v:显示详细的处理信息. 6)-R:处 ...
什么是uni-app?
uni-app 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一套代码,可发布到iOS.Android.H5.以及各种小程序(微信/支付宝/百度/头条/QQ/钉钉)等多个平台. 即使不跨 ...
升级pip3的正确姿势--python3 pip3 update
升级pip3的正确姿势为: pip3 install --upgrade pip 而不是 pip3 install --upgrade pip3
ranger整合kerberos
一.生成主体在kerberos服务器生成用于ranger的用户主体: # kadmin.local addprinc -randkey HTTP/manager1@HADOOP.COM addpri ...

【机器学习之二】python开发spark案例

【机器学习之二】python开发spark案例的更多相关文章

随机推荐

热门专题