本章主要讲解大数据下如何做数据分片,所谓分片,即将大量数据分散在不同的节点,同时每个存储节点还要做副本备份. 而一般的抽象分片方法是, 先将数据映射到一个分片空间,这是多对一的关系,即一个数据分片区间可能有多条数据 再将分片空间映射到物理node,这也是多对一的关系,即一个物理node对应多个分片空间 具体到实现,通过hash进行分片是比较常见方式,而常见的hash方法是: round robin,hash取模,即通过取模将数据分散到各个node,这种方法跳过了分片空间,数据直接映射到了物理no…
基本上是hash实用的各种举例 布隆过滤器 Bloom Filter 常用来检测某个原色是否是巨量数据集合中的成员,优势是节省空间,不会有漏判(已经存在的数据肯定能够查找到),缺点是有误判(不存在的数据可能也会被找到). 应用场景有,chrome进行恶意的url判断,爬虫判断爬取过的url,缓存使用BF进行海量数据查找,比特币使用BF对历史交易进行验证. 基本思想是,首先有个位数组,长度为m,将数据a通过n个hash函数进行计算,每个hash得到的结果x 在[1,m]区间,将x作为一个索引,索引…
布隆过滤器(bloom filter,BF): 二进制向量数据结构,时空效率很好,尤其是空间效率极高.作用:检测某个元素在某个巨量集合中存在. 构造: 查询: 不会发生漏判(false negative),但误判(false positive)存在,因此BF适合允许少量误判的场景. 计数布隆过滤器(counting bloom filter,CBF): BF基础上支持删除元素操作.数组每个位置1bit扩展为n bits. 另外需要考虑计数溢出问题. BF应用: Chrome浏览器判断恶意url:…
前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, 高不可攀, 也没想着深入学习. 之后, 一次偶然的机会, 在csdn官方博客上看到了这种一个活动 [置顶] 话题讨论&征文--谈论大数据时我们在谈什么 于是, 从下载试读样章, 到正式读书, 開始了学习大数据的过程... 到今天, 差点儿相同两周过去了, 马马虎虎过了一遍, 感触颇多. 以下简单评…
Verilog HDL常用建模方式——<Verilog与数字ASIC设计基础>读书笔记(四) Verilog HDL的基本功能之一是描述可综合的硬件逻辑电路.所谓综合(Synthesis)是指将Verilog HDL程序.原理图等设计输入翻译成由与门(and).或门(or).非门(not)等基本逻辑单元组成的门级连接,并根据设计目标和要求对门级逻辑连接进行优化,得到优化的门级网表文件. Verilog HDL主要有三种建模方式: 4.1结构级建模 结构级建模包括门级建模和分层建模两种情况.门级…
文章提纲 全书总评 读书笔记 C1.初识神经网络 C2.神经网络是如何学习的 C3.有监督学习(运用感知机) C4.无监督学习(自组织映射) Rreferences(参考文献) 全书总评 书本印刷质量:5星.纸张很白,印刷清楚,文字排版合适,基本没有排版过程中引入的错误,阅读不累眼睛. 著作编写质量:3星.入门书,看完后可能会对神经网络有个基本概念,但是也可能就只有个基本概念.基本概念描述还是清楚的,还给出了比较好的参考资料.几个例子讲的很浅,好处就是提供了代码,如果有开发方向的需要可以参考.深…
接着上一篇博文说. 5.代码段执行时的保护 每个代码段都有自己的段界限.同栈段一个道理,有效界限和G位相关. G=0:有效界限 = 描述符中的段界限 G=1:有效界限 = 描述符中的段界限值 * 0x1000 + 0xFFF 当处理器取指令的时候,偏移地址由EIP提供,EIP的范围应该在 [0,有效界限] 之间(为了说明问题,我就用数学上的闭区间表示了).否则会引发异常. 对于本代码,代码段描述符中的界限值是0x1FF,G=0,那么有效界限=0x1FF,也就是说这个值就是段内最后一个允许访问的偏…
上一篇博文我们讲了如何看到实验结果,这篇博文我们着重分析源代码. 书中作者为了说明原理,约定了一种比较简单地用户程序头部格式,示意图如下(我参考原书图8-15绘制的,左边的数字表示偏移地址): 所以,如果用户程序要利用本章的源码c08_mbr.asm生成的加载器来加载的话,就应该遵循这种头部格式. 下面我们讲解源码c08_mbr.asm(粘贴的源代码不一定和配书的代码完全一样,因为有些地方我加了注释) ;代码清单8-1 ;文件名:c08_mbr.asm ;文件说明:硬盘主引导扇区代码(加载程序)…
首先来段题外话:之前我发现我贴出的代码都没有行号,给讲解带来不便.所以从现在起,我要给代码加上行号.我写博客用的这个插入代码的插件,确实不支持自动插入行号.我真的没有找到什么好方法,无奈之下,只能按照网友的说法,在VIM中给每行代码加上行号,然后再贴出来. 在VIM中每一行都添加上行号的方法是: :%s/^/\=line(".")/ 对,只要执行这个命令就可以了.至于为什么这样写,可以参考我的另一篇博文 <在VIM中添加行号的方法>http://blog.csdn.net/…
计算广告:逻辑回归 千次展示收益eCPM(Effective Cost Per Mille) eCPM= CTR * BidPrice 优化算法 训练数据使用:在线学习(online learning).批学习(batch learning).mini-batch学习 数据量往往千万到几亿,模型参数达到10~100亿 . 并行随机梯度下降(Parallel Stochastic Gradient Descent): 批学习并行逻辑回归: 重点在计算梯度. step1 算内积 step2 按行聚合…