链接分析算法之:主题敏感PageRank     前面的讨论提到.PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别.例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画.理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.所以搜索引擎一般会选择一种称为主题敏感PageRank(Topic-Sensitive PageRank …
原文引自:http://blog.csdn.net/hguisu/article/details/8005192,感谢 前面的讨论提到.PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别.例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画.理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.所以搜索引擎一般会选择一种称为主题敏…
  链接分析算法之:HillTop算法     Hilltop算法是由Krishna Baharat 在2000年左右研究的,于2001年申请专利,但是有很多人以为Hilltop算法是由谷歌研究的.只不过是Krishna Baharat 后来加入了Google成为了一名核心工程师,然后授权给Google使用的. 在与PageRank算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能.Google的HillTop算法现在已经能更好的与旧的算法(PR算法)联合起来工作…
链接分析算法之:SALSA算法 SALSA算法的初衷希望能够结合PageRank和HITS算法两者的主要特点,既可以利用HITS算法与查询相关的特点,也可以采纳PageRank的“随机游走模型”,这是SALSA算法提出的背景.由此可见,SALSA算法融合了PageRank和HITS算法的基本思想,从实际效果来说,很多实验数据表明,SALSA的搜索效果也都优于前两个算法,是目前效果最好的链接分析算法之一. 从整体计算流程来说,可以将SALSA划分为两个大的阶段:首先是确定计算对象集合的阶段,这一阶…
链接分析算法之:HITS算法     HITS(HITS(Hyperlink - Induced Topic Search) ) 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分. HITS算法是链接分析中非常基础且重要的算法,目前已被Teoma搜索引擎(www.teoma.com)作为链…
[主题敏感词PageRank] PageRank忽略了主题相关性,导致结果的相关性和主题性降低,对于不同的用户,甚至有很大的差别.例如,当搜索“苹果”时,一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧,而一个小朋友可能在找苹果的简笔画.理想情况下,应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行.所以搜索引擎一般会选择一种称为主题敏感PageRank(Topic-Sensitive PageRank)的折中方案.主题敏感PageRan…
转自http://blog.csdn.net/Androidlushangderen/article/details/43311943 参考资料:http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 链接分析 在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的.具体是怎么做呢,继续…
转自:https://blog.csdn.net/tjiyu/article/details/53982412 1-1.为什么需要了解垃圾回收 目前内存的动态分配与内存回收技术已经相当成熟,但为什么还需要去了解内存分配与GC呢? 1.当需要排查各种内存溢出.内存泄漏问题时: 2.当垃圾收集成为系统达到更高并发量的瓶颈时: 我们就需要对这些"自动化"技术实话必要的监控和调节: 1-2.垃圾回收需要了解什么 思考GC完成的3件事: 1.哪些内存需要回收?即如何判断对象已经死亡: 2.什么时…
作者 Yongzheng (Tiger) Zhang ,译者 木环 ,本人只是备份一下.. LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn认为倾听用户意见回馈很重要,发现反馈的主要话题.用户的热点话题和痛点,能够做出改善产品.提高用户体验等重要的商业决定.下面是整理后的技术要点. 文本分析平台及主题挖掘 文本数据挖掘是,计算机通过高级数据挖掘和自然语言处理,对非结构化的文字进行机器学习.文本数据挖掘包含但不局限以下几点:主题挖掘.文本…
微软数据挖掘算法:Microsoft 目录篇 介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. 它使用这些列的值(也称之为状态)预测指定为可预测的列的状态. 具体地说,该算法标识与可预测列相关的输入列. 例如,在预测哪些客户可能购买自行车的方案中,假如在十名年轻客户中有九名购买了自行车,但在十名年龄较大的客户中只有两名购买了自行车,则该算法从中推断出年龄是自行车购买情况的最佳预测因子. 决策树…