数据算法 --hadoop/spark数据处理技巧 --（9.基于内容的电影推荐 10. 使用马尔科夫模型的智能邮件营销）

九.基于内容的电影推荐在基于内容的推荐系统中,我们得到的关于内容的信息越多,算法就会越复杂(设计的变量更多),不过推荐也会更准确,更合理. 本次基于评分,提供一个3阶段的MR解决方案来实现电影推荐. 1.找出各个电影的评分人总数 2.对于每个电影对A和B,找出所有同时对A和B评分的人. 3.找出每两个相关电影之间的关联.在这个阶段,我使用3个不同的关联度算法(pearson,cosine,jaccard)一般要根据具体的数据需求来选择关联度算法. 数据的输入格式: 第一阶段转化完之后: 经过M…

数据算法 --hadoop/spark数据处理技巧 --（5.移动平均 6. 数据挖掘之购物篮分析MBA）

五.移动平均多个连续周期的时间序列数据平均值(按相同时间间隔得到的观察值,如每小时一次或每天一次)称为移动平均.之所以称之为移动,是因为随着新的时间序列数据的到来,要不断重新计算这个平均值,由于会删除最早的值同时增加最新的值,这个平均值会相应地“移动”. 例子: java代码: MR方案: 方案1:对于各个规约器键,在RAM种对时间序列数据排序,这个方法存在一个问题:如果没有足够的RAm来完成规约器的排序操作,这种方法就不可行. 方案2:让MRF完成时间序列数据的排序(MR框架的主要特性之一就…

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

一.二次排序问题. MR/hadoop两种方案: 1.让reducer读取和缓存给个定键的所有值(例如,缓存到一个数组数据结构中,)然后对这些值完成一个reducer中排序.这种方法不具有可伸缩性,因为reducer要接受一个给定键的所有值,这种方法可能导致reducer的内存耗尽(OOM).另一方面,如果值数量很少,就不会导致内存溢出,那么这种方法可行. 2.使用MR框架对reducer的值排序(这样一来,就不再需要对传入reducer的值完成排序.)这种方法“会为自然键增加部分或整个值来创建…

数据算法 --hadoop/spark数据处理技巧 --（3.左外连接 4.反转排序）

三. 左外连接考虑一家公司,比如亚马逊,它拥有超过2亿的用户,每天要完成数亿次交易.假设我们有两类数据,用户和交易: users(user_id,location_id) transactions(transction_id,product_id,user_id,quantity,amout) 所谓左外连接:令T1(左表)和T2(右表)是以下两个关系(其中t1是T1的属性,t2是T2的属性): T1=(K,t1) T2=(K,t2) 关系T1,T2在连接键K上左外连接的结果将包含左表(T1)的…

数据算法 --hadoop/spark数据处理技巧 --（17.小文件问题 18.MapReuce的大容量缓存）

十七.小文件问题十八.MR的大容量缓存在MR中使用和读取大容量缓存,(也就是说,可能包括数十亿键值对,而无法放在一个商用服务器的内存中).本次提出的算法通用,可以在任何MR范式中使用.(eg:MR,Spark)…

数据算法 --hadoop/spark数据处理技巧 --（11.K-均值聚类 12. k-近邻）

十一.k-均值聚类这个需要MR迭代多次. 开始时,会选择K个点作为簇中心,这些点成为簇质心.可以选择很多方法啦初始化质心,其中一种方法是从n个点的样本中随机选择K个点.一旦选择了K个初始的簇质心,下面可以计算输入集合中各个点到这个k个中心点的距离,然后将各个点分配到与他距离最近的簇中心.所有对象都分配之后,在重新计算k个质心的位置.反复迭代,知道簇质心不变(或者变化非常小.) 算法代码: MR的实现步骤: Spark由ML库,可以直接调用方法: 十二. KNN spark的大致步骤: 1.导入…

数据算法 --hadoop/spark数据处理技巧 --（13.朴素贝叶斯 14.情感分析）

十三.朴素贝叶斯朴素贝叶斯是一个线性分类器.处理数值数据时,最好使用聚类技术(eg:K均值)和k-近邻方法,不过对于名字.符号.电子邮件和文本的分类,则最好使用概率方法,朴素贝叶斯就可以.在某些情况下,NBC也可以用来对数值数据分类. 对于数值数据的分类,比如(连续属性,身高,体重,脚长),建议采用采用高斯分布,令x是一个连续属性.首先,按类对数据分段,然后计算各个类中的x的均值(u)和方差(). 本次主要以文本数据进行. 首先先进行Map函数,将数据进行处理. 得到的数据如下: 之后再进行r…

数据算法 --hadoop/spark数据处理技巧 --（15.查找、统计和列出大图中的所有三角形 16.k-mer计数）

十五.查找.统计和列出大图中的所有三角形第一步骤的mr: 第二部mr: 找出三角形第三部:去重 spark: 十六: k-mer计数 spark:…

数据算法 --hadoop/spark数据处理技巧 --（7.共同好友 8. 使用MR实现推荐引擎）

七,共同好友. 在所有用户对中找出“共同好友”. eg: a b,c,d,g b a,c,d,e map()-> <a,b>,<b,c,d,g> ;<a,c>,<b,c,d,g>;..... <a,b>,<a,c,d,e> reduce()-> <a,b>,<c,d> 也就是a,b的共同好友是c,d. 上述就是思想. 八,使用MR实现推荐引擎 1.购买过该商品的顾客还购买了哪…

基于隐马尔科夫模型(HMM)的地图匹配(Map-Matching)算法

文章目录 1. 1. 摘要 2. 2. Map-Matching(MM)问题 3. 3. 隐马尔科夫模型(HMM) 3.1. 3.1. HMM简述 3.2. 3.2. 基于HMM的Map-Matching 3.3. 3.3. Viterbi算法 4. 4. 相关部分论文工作 4.1. 4.1. A HMM based MM for wheelchair navigation 4.2. 4.2. MM for low-sampling-rate GPS trajectories 4.3. 4.3.…

隐马尔科夫模型HMM（三）鲍姆-韦尔奇算法求解HMM参数

隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在本篇我们会讨论HMM模型参数求解的问题,这个问题在HMM三个问题里算是最复杂的.在研究这个问题之前,建议先阅读这个系列的前两篇以熟悉HMM模型和HMM的前向后向算法,以及EM算法原理总结,这些在本篇里会用到.在李航的<统计学习方法>中,这个算法的讲解只考虑了单个观测…

隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率

隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题,本篇我们就关注于HMM第一个基本问题的解决方法,即已知模型和观测序列,求观测序列出现的概率. 1. 回顾HMM问题一:求观测序列的概率首先我们回顾下HMM模型的问题一.这个…

隐马尔科夫模型HMM（四）维特比算法解码隐藏状态序列

隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列在本篇我们会讨论HMM模型最后一个问题的求解,即即给定模型和观测序列,求给定观测序列条件下,最可能出现的对应的隐藏状态序列.在阅读本篇前,建议先阅读这个系列的第一篇以熟悉HMM模型. HMM模型的解码问题最常用的算法是维特比算法,当然也有其他的算法可以求解这个问题.同时维特比算法是一个通用的求…

隐型马尔科夫模型(HMM)向前算法实例讲解(暴力求解+代码实现)---盒子模型

先来解释一下HMM的向前算法: 前向后向算法是前向算法和后向算法的统称,这两个算法都可以用来求HMM观测序列的概率.我们先来看看前向算法是如何求解这个问题的. 前向算法本质上属于动态规划的算法,也就是我们要通过找到局部状态递推的公式,这样一步步的从子问题的最优解拓展到整个问题的最优解.在这里我们认为随机过程中各个状态St的概率分布,只与它的前一个状态St-1有关,同时任何时刻的观察状态只仅仅依赖于当前时刻的隐藏状态. 在t时刻我们定义观察状态的概率为: αt(i)=P(o1,o2,...ot,i…

隐马尔科夫模型，第三种问题解法，维比特算法（biterbi) algorithm python代码

上篇介绍了隐马尔科夫模型本文给出关于问题3解决方法,并给出一个例子的python代码回顾上文,问题3是什么, 下面给出,维比特算法(biterbi) algorithm 下面通过一个具体例子,来说明维比特算法(biterbi) 下面附上该解决该例题的python代码 import numpy as np #you must install the numpy A=np.array([[0.5,0.2,0.3],[0.3,0.5,0.2],[0.2,0.3,0.5]]) B=np.array(…

HMM：隐马尔科夫模型-前向算法

http://blog.csdn.net/pipisorry/article/details/50722376 目标-解决HMM的基本问题之一:已知HMM模型λ及观察序列O,如何计算P(O|λ)(计算给定隐马尔科夫模型HMM下的观察序列的概率-Pr(observations |).)?从而评估哪一个HMM最有可能产生了这个给定的观察序列. 计算观察序列的概率(Finding the probability of an observed sequence) 穷举搜索( Exhaustive sea…

《统计学习方法》笔记（9）：EM算法和隐马尔科夫模型

EM也称期望极大算法(Expectation Maximization),是一种用来对含有隐含变量的概率模型进行极大似然估计的迭代算法.该算法可应用于隐马尔科夫模型的参数估计. 1.含有隐含参数的概率模型举例? 三硬币模型:A.B.C三枚硬币,这些硬币投出正面的概率分别为π.p.q.进行如下硬币实验,先投硬币A,如果为正面则投硬币B,如果为反面则投硬币C.最终出现的正面则记为1,出现反面则记为0:独立的重复n次实验(取n=10),出现的结果如下: {1,1,0,1,0,1,0,1,1} 假设只能…

隐马尔科夫模型及Viterbi算法的应用

作者:jostree 转载请注明出处 http://www.cnblogs.com/jostree/p/4335810.html 一个例子: 韦小宝使用骰子进行游戏,他有两种骰子一种正常的骰子,还有一种不均匀的骰子,来进行出千. 开始游戏时他有2/5的概率出千. 对于正常的骰子A,每个点出现的概率都是1/6. 对于不均匀的骰子B,5,6两种出现的概率为3/10,其余为1/10. 出千的随机规律如下图所示: 我们观测到的投掷结果为:ob={1,3,4,5,5,6,6,3,2,6} 请判断韦小宝什么…

HMM：隐马尔科夫模型-维特比算法

http://blog.csdn.net/pipisorry/article/details/50731584 目标-解决HMM的基本问题之二:给定观察序列O=O1,O2,-OT以及模型λ,如何选择一个对应的状态序列S = q1,q2,-qT,使得S能够最为合理的解释观察序列O? 寻找最可能的隐藏状态序列(Finding most probable sequence of hidden states) 记着,下次再写吧... 皮皮blog from:http://blog.csdn.net/pi…

基于GPS数据建立隐式马尔可夫模型预测目的地

<Trip destination prediction based on multi-day GPS data>是一篇在2019年,由吉林交通大学团队发表在elsevier期刊上的一篇论文.在论文中,他们基于GPS数据,使用不同的方法建立了多个预测目的地的模型,进行对比试验,最终提高了正确率,取得了很好的效果. 0. 概括基于8周.10人的GPS数据,在隐式马尔可夫模型和习惯预测模型的基础上,作者建立了一个可以预测出行目的地的模型,该模型大大提高了预测的精度.最重要的他们发现,人们出行关于…

HMM隐马尔科夫算法(Hidden Markov Algorithm)初探

1. HMM背景 0x1:概率模型 - 用概率分布的方式抽象事物的规律机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测. 概率模型(probabilistic model)提供了一种描述框架,将学习任务归结于计算未知变量的概率分布,而不是直接得到一个确定性的结果. 在概率模型中,利用已知变量推测未知变量的分布称为“推断(inference)”,其核心是如何基于可观测变量推测出未知变量的条件分布. 具体来说,假定所关心的变量集合为…

详解隐马尔可夫模型(HMM)中的维特比算法

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 4. 隐马尔可夫模型与序列标注第3章的n元语法模型从词语接续的流畅度出发,为全切分词网中的二元接续打分,进而利用维特比算法求解似然概率最大的路径.这种词语级别的模型无法应对 OOV(Out of Vocabulary,即未登录词) 问题: 00V在最初的全切分阶段就已经不可能进人词网了,更何谈召回. 例如下面一句: 头上戴着束发嵌宝紫金冠,齐眉勒着二龙抢珠金抹额加粗的就是相对…

ZH奶酪：隐马尔可夫模型学习小记——forward算法+viterbi算法+forward-backward算法（Baum-welch算法）

网上关于HMM的学习资料.博客有很多,基本都是左边摘抄一点,右边摘抄一点,这里一个图,那里一个图,公式中有的变量说不清道不明,学起来很费劲. 经过浏览几篇博文(其实有的地方写的也比较乱),在7张4开的草稿纸上写公式.单步跟踪程序,终于还是搞清楚了HMM的原理. HMM学习过程: 1.搜索相关博客: 隐马尔可夫模型[博客](图示比较详细,前部分还可以,后部分公式有点乱):http://www.leexiang.com/hidden-markov-model HMM简介.forward算法和vite…