第15章大数据与MapReduce

大数据概述

大数据: 收集到的数据已经远远超出了我们的处理能力。

大数据场景

假如你为一家网络购物商店工作，很多用户访问该网站，其中有些人会购买商品，有些人则随意浏览后就离开。

对于你来说，可能很想识别那些有购物意愿的用户。

那么问题就来了，数据集可能会非常大，在单机上训练要运行好几天。

接下来：我们讲讲 MapRedece 如何来解决这样的问题

MapRedece

Hadoop 概述

Hadoop 是 MapRedece 框架的一个免费开源实现。

MapReduce: 分布式的计算框架，可以将单个计算作业分配给多台计算机执行。

MapRedece 原理

MapRedece 工作原理

主节点控制 MapReduce 的作业流程
MapReduce 的作业可以分成map任务和reduce任务
map 任务之间不做数据交流，reduce 任务也一样
在 map 和 reduce 阶段中间，有一个 sort 和 combine 阶段
数据被重复存放在不同的机器上，以防止某个机器失效
mapper 和 reducer 传输的数据形式为 key/value对

MapRedece 特点

优点: 使程序以并行的方式执行，可在短时间内完成大量工作。

缺点: 算法必须经过重写，需要对系统工程有一定的理解。

适用数据类型: 数值型和标称型数据。

Hadoop 流(Python 调用)

理论简介

例如: Hadoop流可以像Linux命令一样执行

cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt

类似的Hadoop流就可以在多台机器上分布式执行，用户可以通过Linux命令来测试Python语言编写的MapReduce脚本。

实战脚本

# 测试 Mapper

# Linux

cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py

# Window

# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt

# 测试 Reducer

# Linux

cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py

# Window

# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py

MapReduce 机器学习

Mahout in Action

简单贝叶斯：它属于为数不多的可以很自然的使用MapReduce的算法。通过统计在某个类别下某特征的概率。
k-近邻算法：高维数据下（如文本、图像和视频）流行的近邻查找方法是局部敏感哈希算法。
支持向量机(SVM)：使用随机梯度下降算法求解，如Pegasos算法。
奇异值分解：Lanczos算法是一个有效的求解近似特征值的算法。
k-均值聚类：canopy算法初始化k个簇，然后再运行K-均值求解结果。

使用 mrjob 库将 MapReduce 自动化

理论简介

MapReduce 作业流自动化的框架：Cascading 和 Oozie.
mrjob 是一个不错的学习工具，与2010年底实现了开源，来之于 Yelp(一个餐厅点评网站).

python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt > input/15.BigData_MapReduce/myOut.txt

实战脚本

# 测试 mrjob的案例

# 先测试一下mapper方法

# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt

# 运行整个程序，移除 --mapper 就行

python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt

项目案例：分布式 SVM 的 Pegasos 算法

Pegasos是指原始估计梯度求解器(Peimal Estimated sub-GrAdient Solver)

Pegasos 工作原理

从训练集中随机挑选一些样本点添加到带处理列表中
按序判断每个样本点是否被正确分类
- 如果是则忽略
- 如果不是则将其加入到待更新集合。
批处理完毕后，权重向量按照这些错分的样本进行更新。

上述算法伪代码如下：

将 回归系数w 初始化为0

对每次批处理

    随机选择 k 个样本点(向量)

    对每个向量

        如果该向量被错分：

            更新权重向量 w

    累加对 w 的更新

开发流程

收集数据：数据按文本格式存放。

准备数据：输入数据已经是可用的格式，所以不需任何准备工作。如果你需要解析一个大规模的数据集，建议使用 map 作业来完成，从而达到并行处理的目的。

分析数据：无。

训练算法：与普通的 SVM 一样，在分类器训练上仍需花费大量的时间。

测试算法：在二维空间上可视化之后，观察超平面，判断算法是否有效。

使用算法：本例不会展示一个完整的应用，但会展示如何在大数据集上训练SVM。该算法其中一个应用场景就是本文分类，通常在文本分类里可能有大量的文档和成千上万的特征。

收集数据

文本文件数据格式如下：

0.365032        2.465645        -1

-2.494175       -0.292380       -1

-3.039364       -0.123108       -1

1.348150        0.255696        1

2.768494        1.234954        1

1.232328        -0.601198       1

准备数据

def loadDataSet(fileName):

    dataMat = []

    labelMat = []

    fr = open(fileName)

    for line in fr.readlines():

        lineArr = line.strip().split('\t')

        # dataMat.append([float(lineArr[0]), float(lineArr[1]), float(lineArr[2])])

        dataMat.append([float(lineArr[0]), float(lineArr[1])])

        labelMat.append(float(lineArr[2]))

    return dataMat, labelMat

分析数据: 无

训练算法

def batchPegasos(dataSet, labels, lam, T, k):

    """batchPegasos()

    Args:

        dataMat    特征集合

        labels     分类结果集合

        lam        固定值

        T          迭代次数

        k          待处理列表大小

    Returns:

        w          回归系数

    """

    m, n = shape(dataSet)

    w = zeros(n)  # 回归系数

    dataIndex = range(m)

    for t in range(1, T+1):

        wDelta = mat(zeros(n))  # 重置 wDelta

        # 它是学习率，代表了权重调整幅度的大小。（也可以理解为随机梯度的步长，使它不断减小，便于拟合）

        # 输入T和K分别设定了迭代次数和待处理列表的大小。在T次迭代过程中，每次需要重新计算eta

        eta = 1.0/(lam*t)

        random.shuffle(dataIndex)

        for j in range(k):      # 全部的训练集  内循环中执行批处理，将分类错误的值全部做累加后更新权重向量

            i = dataIndex[j]

            p = predict(w, dataSet[i, :])              # mapper 代码

            # 如果预测正确，并且预测结果的绝对值>=1，因为最大间隔为1, 认为没问题。

            # 否则算是预测错误, 通过预测错误的结果，来累计更新w.

            if labels[i]*p < 1:                        # mapper 代码

                wDelta += labels[i]*dataSet[i, :].A    # 累积变化

        # w通过不断的随机梯度的方式来优化

        w = (1.0 - 1/t)*w + (eta/k)*wDelta             # 在每个 T上应用更改

        # print '-----', w

    # print '++++++', w

    return w

完整代码地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/pegasos.py

MR版本的代码地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/15.BigData_MapReduce/mrSVM.py

作者：片刻小瑶
GitHub地址: https://github.com/apachecn/MachineLearning
版权声明：欢迎转载学习 => 请标注信息来源于 ApacheCN

【机器学习实战】第15章大数据与MapReduce的更多相关文章

Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
大数据与Mapreduce
第十五章大数据与Maprudece 一．引言实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分 ...
大数据技术 - MapReduce的Combiner介绍
本章来简单介绍下 Hadoop MapReduce 中的 Combiner.Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和磁盘I ...
2017.2.21 activiti实战--第十三章--流量数据查询与跟踪（一）查询接口介绍及运行时数据查询
学习资料:<Activiti实战> 第十三章流量数据查询与跟踪本章讲解运行时与历史数据的查询方法.主要包含三种:标准查询,Native查询,CustomSql查询. 13.1 Quer ...
第六章大数据，6.3 突破传统，4k大屏的沉浸式体验(作者：彦川、小丛)
6.3 突破传统,4k大屏的沉浸式体验前言能够在 4K 的页面上表演,对设计师和前端开发来说,即是机会也是挑战,我们可以有更大的空间设计宏观的场景,炫酷的转场,让观众感受影院式视觉体验,但是,又必 ...
第五章大数据平台与技术第12讲大数据处理平台Spark
Spark支持多种的编程语言对比scala和Java编程上节课的计数程序.相比之下,scala简洁明了. Hadoop的IO开销大导致了延迟高,也就是说任务和任务之间涉及到I/O操作.前一个任务完成 ...
互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...
《机器学习实战之第二章k-近邻算法》
入坑<机器学习实战>: 本书的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 ...
MongoDB实战指南(一)：大数据与云计算
1.1 什么大数据具体来说,大数据技术涉及到数据的创造,存储,获取和分析,大数据的主要特点有下面几个: 数据量大.一个典型的PC机载2000年前后其存储空间可能有10GB,今天facebook一天增 ...

随机推荐

An Introduction to Variational Methods (5.2)
我们现在已经得到了关于潜在变量Z的优化分布的表达形式: ‍ 其中: ‍ 所以现在我们可以得到Z的期望: ‍ 另外对于Z还值得一提的是,我们从其优化分布的表达式中可以看出,各个Z的组成部分之间还是相互耦 ...
【JAVA零基础入门系列】Day6 Java字符串
字符串,是我们最常用的类型,每个用双引号来表示的串都是一个字符串.Java中的字符串是一个预定义的类,跟C++ 一样叫String,而不是Char数组.至于什么叫做类,暂时不做过多介绍,在之后的篇章中 ...
HDU1212
大数MOD #include<cstdio> #include<cstdlib> #include<iostream> #include<algorithm& ...
zoj 2022
分析: 组合数学类型的题目. 正常的话可能会去分解1~N数里面有几个5和2,但是这样的复杂度为O(nlogn). 其实有更巧妙的办法,可以把问题分解成子问题. 可以发现N!末尾的0与1~N中有几个5的 ...
通过js修改网页内容
js可以通过文本所在标签的id获取该标签对象,然后修改其内容,如: document.getElementById('标签id').innerHTML = '要修改的文本内容'; 该方法可以在要修改的 ...
jquery层次选择器：空格 > next + nextAll ~ siblings
全栈工程师开发手册 (作者:栾鹏) jquery系列教程1-选择器全解 jquery层次选择器 jquery层次选择器,包括空格.>.next.+.nextAll.~.siblings等函数或表 ...
cocos2dx - 环境配置，项目创建
准备工具 cocos2dx当前最新版本:v3.9 官网下载地址: http://www.cocos.com/download/ python 2.7x最新版本:2.7.11 官 ...
sublime Text 正则替换
我遇到一个文章,需要把所有的 (数字) 换为 [数字] 于是我使用 Sublime Text的替换首先,我们需要打开正则使用"Alt+R" 或打开"Ctrl+h&quo ...
vue搭建项目前奏曲——vue-cli
vue-cli是快速构建这个单页应用的脚手架,这个可是官方的.官方给的建议,如果你是初次尝试Vue,哪就老老实实用普通的书写引入js文件,这里牵扯太多的东西,例如webpack.Node.js.npm ...
Appium python自动化测试系列之滑动函数封装实战(八)
8.1 什么是函数的封装教科书上函数的封装太官方,我们这里暂且将函数的封装就是为了偷懒把一些有共性的功能或者一些经常用的功能以及模块放在一起,方便我们以后再其他地方调用.这个只是个人的理解所以大家懂 ...

【机器学习实战】第15章 大数据与MapReduce

第15章 大数据与MapReduce

大数据 概述

大数据 场景

MapRedece

Hadoop 概述

MapRedece 原理

Hadoop 流(Python 调用)

MapReduce 机器学习

Mahout in Action

使用 mrjob 库将 MapReduce 自动化

项目案例：分布式 SVM 的 Pegasos 算法

Pegasos 工作原理

开发流程

【机器学习实战】第15章 大数据与MapReduce的更多相关文章

随机推荐

热门专题

【机器学习实战】第15章大数据与MapReduce

第15章大数据与MapReduce

大数据概述

大数据场景

【机器学习实战】第15章大数据与MapReduce的更多相关文章