一.算法应用背景 计算广告学(Computational Advertising)是一门广告营销科学,以追求广告投放的收益最大化为目标,重点解决用户与广告匹配的相关性和广告的竞价模型问题,涉及到自然语言处理.数据挖掘以及竞价营销.创意设计等诸多学科的融合.计算广告是依据给定的用户和网页内容,通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制.其目的是为用户提供最易于接受的优质广告:对于广告主的广告投放效果负责.综合用户和广告主之间的关系.进行广告竞价产生最大收益. 对于用户而言,计…
本文主要针对广告检索领域的查询重写应用,依据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法.关于SimRank++算法的背景和原理请參看前一篇文章<基于MapReduce的SimRank++算法研究与实现>. SimRank++的矩阵形式的计算公式为: 算法主要过程例如以下: Step1: 计算权值矩阵.并获取最大Query编号和最大广告编号. Step2: 以Step1的输出作为输入,迭代计算SimRank相似度. Step3: 计算证据矩阵.并用计算结果修正St…
原文链接(系列):http://blog.csdn.net/XuanZuoNuo/article/details/10472219 论文: 加速贝叶斯网络:Accelerating Bayesian NetworkParameter Learning.pdf 概率论与信念传播:Axioms for probability and belief-function propagation.pdf 贝叶斯网络在知识发现中的应用:bayesian_networks_for_knowledge_disco…
原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学…
转自:http://zengzhaozheng.blog.51cto.com/8219051/1557054 一.概述 这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍<推荐算法实践>和<Mahout in action>,在这里主要是根据这两本书的一些思想和自己的一些理解对分布式基于ItemBase的推荐算法进行实现.其中分两部分,第一部分是根据共现矩阵的方式来简单的推算出用户的推荐项,第二部分则是通过传统的相…
基于mapreduce的大规模连通图寻找算法 当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢? 问题 已知每个账号之间的联系 如: A B B C D E F C B G 得到 对应的一个人的账号 如: A B C F G为同一个人 D E 为同一个人 当前迭代次数11次 理论最大迭代次数: max_nick_count = max(nick_count) max_iterator = log2(max_nick_count) 62%的账号可在…
论文标题:基于 3D 卷积神经网络的行为识别算法研究 来源/作者机构情况: 中  国  地  质  大  学(北京),计算机学院,图像处理方向 解决问题/主要思想贡献: 1. 使用张量CP分解的原理,把3D的filter变成了三个方向的1D卷积核 2.提出了三种方式的卷积 成果/优点: 运行速度大大提升 缺点: 反思改进/灵感: ############################################################# 论文主要内容与关键点: 1. 2. 3. 4…
1.基于用户的协同过滤推荐算法 利用相似度矩阵*评分矩阵得到推荐列表 已经推荐过的置零 2.基于物品的协同过滤推荐算法 3.基于内容的推荐 算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的物品 首先在物品特征建模…
在新文章“MapReduce模式.算法和用例”中,Ilya Katsov提供了一个系统化的综述,阐述了能够应用MapReduce框架解决的问题. 文章开始描述了一个非常简单的.作为通用的并行计算框架的MapReduce应用,这个框架适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等.接下来是一组算法,通常用于日志分析.ETL和数据查询,包括计数及求和,数据整理(基于特定函数),过滤,解析,验证和排序. 第二大部分是关于MapReduce模式,Katsov…
基于mahout的itembased算法 事实上mahout分布式上仅仅是实现了部分算法.比方推荐算法中Item-based和slopone都有hadoop实现和单机版实现,User-based没有分布式实现. Mahout已实现的算法(单机版和分布式版) https://mahout.apache.org/users/basics/algorithms.html 大多数情况下,我们仅仅是调用mahout的算法,要么单机版,要么分布式版. 那么mahout的分布式算法怎么调用呢? 事实上maho…