基于mapreduce的大规模连通图寻找算法 当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢? 问题 已知每个账号之间的联系 如: A B B C D E F C B G 得到 对应的一个人的账号 如: A B C F G为同一个人 D E 为同一个人 当前迭代次数11次 理论最大迭代次数: max_nick_count = max(nick_count) max_iterator = log2(max_nick_count) 62%的账号可在…
原文链接(系列):http://blog.csdn.net/XuanZuoNuo/article/details/10472219 论文: 加速贝叶斯网络:Accelerating Bayesian NetworkParameter Learning.pdf 概率论与信念传播:Axioms for probability and belief-function propagation.pdf 贝叶斯网络在知识发现中的应用:bayesian_networks_for_knowledge_disco…
1.基于用户的协同过滤推荐算法 利用相似度矩阵*评分矩阵得到推荐列表 已经推荐过的置零 2.基于物品的协同过滤推荐算法 3.基于内容的推荐 算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的物品 首先在物品特征建模…
MapReduce 支持的部分数据挖掘算法 MapReduce 能够解决的问题有一个共同特点:任务可以被分解为多个子问题,且这些子问题相对独立,彼此之间不会有牵制,待并行处理完这些子问题后,任务便被解决.在实际应用中,这类问题非常庞大,谷歌在论文中提到了MapReduce 的一些典型应用,包括分布式grep.URL 访问频率统计.Web 连接图反转.倒排索引构建.分布式排序等,这些均是比较简单的应用.下面介绍一些比较复杂的应用. (1)TopK 问题 我们要选择一个酒店入住,有a-g个备选,每个…
基于Matlab的标记分水岭分割算法 http://blog.sina.com.cn/s/blog_725866260100rz7x.html 1 综述 Separating touching objects in an image is one of the more difficult image processing operations. The watershed transform is often applied to this problem. The watershed tra…
1 MapReduce编程 1.1 MapReduce简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,用于解决海量数据的计算问题. MapReduce分成了两个部分: 1.映射(Mapping)对集合里的每个目标应用同一个操作.即,如果你想把表单里每个单元格乘以二,那么把这个函数单独地应用在每个单元格上的操作就属于mapping. 2.化简(Reducing)遍历集合中的元素来返回一个综合的结果.即,输出表单里一列数字的和这个任务属于reducing. 你向Ma…
摘  要  在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的.为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near-Duplicate WebPages ).试验证明,比起其他网页去重算法(I-Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果. 关键词  网页去重算法   特征向量   近似网页   支持向量机 第一部分介绍现有去重算法:第…
目前基于麦克风阵列的声源定位方法大致可以分为三类:基于最大输出功率的可控波束形成技术.基于高分辨率谱图估计技术和基于声音时间差(time-delay estimation,TDE)的声源定位技术. 基于TDE的算法核心在于对传播时延的准确估计,一般通过对麦克风间信号做互相关处理得到.进一步获得声源位置信息,可以通过简单的延时求和.几何计算或是直接利用互相关结果进行可控功率响应搜索等方法.这类算法实现相对简单,运算量小,便于实时处理,因此在实际中运用最广. GCC-PHAT 基于广义互相关函数的时…
摘要:如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台. 查看FFA大会视频. 本次分享主要分为四个方面: Lyft 的流数据与场景 准实时数据分析平台和架构 平台性能及容错深入分析 总结与未来展望 重要:文末「阅读原文」可查看 Flink Forward Asia 大会视频. 一.Lyft 的流…
一.名称 动态规划法应用 二.目的 1.贪婪技术的基本思想: 2.学会运用贪婪技术解决实际设计应用中碰到的问题. 三.要求 1.实现基于贪婪技术思想的Prim算法: 2.实现基于贪婪技术思想的Dijkstra算法. 四.内容 1.实现基于贪婪技术思想的Prim算法 1.1.Prim算法的伪代码描述 算法 Prim(G) //构造最小生成树的Prim算法 //输入:加权连通图G<V,E> //输出:E(T),组成G的最小生成树的边的集合 V(t)←{V0} //可以用任意顶点来初始化树的顶点集合…