读<大数据日知录:架构与算法>有感
前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽。在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, 高不可攀, 也没想着深入学习。
之后, 一次偶然的机会, 在csdn官方博客上看到了这种一个活动
[置顶] 话题讨论&征文--谈论大数据时我们在谈什么
于是, 从下载试读样章, 到正式读书, 開始了学习大数据的过程...
到今天, 差点儿相同两周过去了, 马马虎虎过了一遍, 感触颇多。 以下简单评价下我看完后对这本书的认识。
(ps: 在此之前, 我对大数据等全然没有概念, 接下去的言论, 仅仅是个人的观点, 不喜勿喷)
本书前言中提到:
"从传统IT 业到互联网、互联网到移动互联网,从以智能手机和Pad 为主要终端载体的移动互联网到可穿戴设备的移动互联网。然后再到万物互联的物联网,这一定是不可违抗的发展规律和前进方向。伴随着这个趋势必定有越来越多、形态越来越丰富的超量数据不断产生。而大数据明显是由此衍生出来的明白且必定的发展趋势。 "
-----<大数据日知录:架构与算法>
看到这, 给我一种感觉, 大数据无处不在, 大数据高贵冷艳...直到如今, 我才干确定, 它确实是这样!
读完最大的感受是有助于建立大数据技术的总体大局观。
这书从大数据基本理论、各种架构组件以及算法几个角度归纳了眼下常见的大数据技术,理论部分讲的还挺透彻。也包含了方方面面的技术点,真挺全面,能够当个工具书。
这本书蕴涵的的内容比較多——从大数据的存储结构、内容管理,讲到集群任务调度、分布式数据通信、流行的各类新式数据库的介绍,还有基于机器学习技术的大数据实现以及大数据挖掘应用范例等内容,既包罗万象,又深入浅出。17个章节, 17个不同内容, 尽管有所差别, 可是密切相关, 它们分别从大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术, 从不同角度描写叙述了同一个知识--"大数据",可见作者张俊林扎实的功底。尽管我不是专业从事大数据行业的, 可是仅凭我的一些计算机知识, 也能把这本书读下来, 可见作者写作水平之高。
17章中, 我看的最认真的应该是图数据库(毕竟是样章, 最早看), 等我看完之后, 个人觉得这是书中的一个亮点, (不然也不会拿来当样章), 相同的, 数据结构、集群资源管理这两章也非常不错。 就说图数据库这一章吧, 有完整的理论归纳也有详细小样例,体系感强,也好理解。
喜欢这本书的另外一个理由是图文并茂, 比方在介绍TAO的跨数据中心架构的时候, 给了一张非常直观的图,例如以下。我想这比写再多的文字描写叙述都管用。另外, 在介绍一些知识点的时候, 总会举出非常贴切的样例, 便于读者理解。
比方介绍图的时候, 引入Facebook关系图来描写叙述, 十分贴切。
"Facebook是眼下世界上最著名的社交站点, 假设从数据抽象的角度来看, Facebook的社交图不仅包含好友之间的关系, 还包含人与实体以及实体与实体之间的关系, 每一个用户, 每一个页面, 每张图片, 每一个应用。每一个地点以及每一个评论都能够作为独立的实体......"
另外, 看的比較蛋疼的一章应该是机器学习这一章了。
内容尽管非常有用。覆盖了多数经常使用的互联网应用,也是实际使用中的经常使用算法,但缺点也非常明显,感觉对于刚開始学习的人(就像我这样从没学习过的...)有点深,要具备一些主要的机器学习知识恐怕才干理解。
所以我想等先看一些入门书籍过后, 再来又一次读读这个章节。
另外, 每一个章节前面都有一小段歌词, 尽管我没看出有什么名堂, 可是感觉挺好的, 重拾好心情, 開始一个新章节的学习。
最后呢, 借用之前学习大数据看到的一段话: "大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心。在以云计算为代表的技术创新大幕的衬托下,这些原本非常难收集和使用的数据開始easy被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造很多其它的价值。"
假设, 你想从理论方面学习大数据
(理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的总体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈)
或者, 你想从技术方面学习大数据
(技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从採集、处理、存储到形成结果的整个过程。)
再不然, 你想从实践方面学习大数据
(实践是大数据的终于价值体现。在这里分别从互联网的大数据。政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图)。
我都觉得, <大数据日知录:架构与算法>是一本你值得一读的书,。
非常庆幸,我能静下心看了这本书。
读<大数据日知录:架构与算法>有感的更多相关文章
- 《大数据日知录》读书笔记-ch1数据分片与路由
目前主流大数据存储使用横向扩展(scale out)而非传统数据库纵向扩展(scale up)的方式.因此涉及数据分片.数据路由(routing).数据一致性问题 二级映射关系:key-partiti ...
- 一. 数据分片和路由 <<大数据日知录>> 读书笔记
本章主要讲解大数据下如何做数据分片,所谓分片,即将大量数据分散在不同的节点,同时每个存储节点还要做副本备份. 而一般的抽象分片方法是, 先将数据映射到一个分片空间,这是多对一的关系,即一个数据分片区间 ...
- 《大数据日知录》读书笔记-ch15机器学习:范型与架构
机器学习算法特点:迭代运算 损失函数最小化训练过程中,在巨大参数空间中迭代寻找最优解 比如:主题模型.回归.矩阵分解.SVM.深度学习 分布式机器学习的挑战: - 网络通信效率 - 不同节点执行速度不 ...
- 《大数据日知录》读书笔记-ch2数据复制与一致性
CAP理论:Consistency,Availability,Partition tolerance 对于一个分布式数据系统,CAP三要素不可兼得,至多实现其二.要么AP,要么CP,不存在CAP.分布 ...
- 《大数据日知录》读书笔记-ch16机器学习:分布式算法
计算广告:逻辑回归 千次展示收益eCPM(Effective Cost Per Mille) eCPM= CTR * BidPrice 优化算法 训练数据使用:在线学习(online learning ...
- 《大数据日知录》读书笔记-ch11大规模批处理系统
MapReduce: 计算模型: 实例1:单词统计 实例2:链接反转 实例3:页面点击统计 系统架构: 在Map阶段还可以执行可选的Combiner操作,类似于Reduce,但是在Mapper sid ...
- 《大数据日知录》读书笔记-ch3大数据常用的算法与数据结构
布隆过滤器(bloom filter,BF): 二进制向量数据结构,时空效率很好,尤其是空间效率极高.作用:检测某个元素在某个巨量集合中存在. 构造: 查询: 不会发生漏判(false negativ ...
- 二. 大数据常用的算法和数据结构 <<大数据日知录>> 读书笔记
基本上是hash实用的各种举例 布隆过滤器 Bloom Filter 常用来检测某个原色是否是巨量数据集合中的成员,优势是节省空间,不会有漏判(已经存在的数据肯定能够查找到),缺点是有误判(不存在的数 ...
- 我读《大数据时代的IT架构设计》
架构设计是一门艺术,对架构的掌握要通过多看,多学,多交流,多积累,从实战架构上总能吸收到很好的营养,这边书虽然 (一).hadoop技术处理电信行业的上网日志 根据上网的url或未知url爬取内容,进 ...
随机推荐
- 详解浏览器缓存机制与Apache设置缓存
一.详解浏览器缓存机制 对于,如何说明缓存机制,在网络上找到了两张图,个人认为思路是比较清晰的.总结时,上图. 这里需要注意的有两点: 1.Last-Modified.Etag是响应头里的数据 2.I ...
- JAVA三大框架的各自作用
http://christhb.blog.163.com/blog/static/98982492011727114936239/ 一.Spring Spring是一个解决了许多在J2EE开发中常见的 ...
- QAbstractItemView为截断的项显示ToolTip(在eventFilter函数里覆盖QEvent::ToolTip事件)
在Qt中想要为QAbstractItemView中长度不够而使得内容被截断的项显示ToolTip,Qt官网有一篇文章介绍使用事件过滤器来显示太长的项,但是没有涵盖图标的情况.显示列头项太长的情况等等, ...
- ERP 实施和应用不成功共同点
ERP 实施和应用不成功共同点 ERP 重新得到人们理性的关注并不意味着实施和应用ERP变得轻而易举了.如何才能实施好ERP?这仍然是关键的问题. 大部份企业应用ERP不成功的原因是什么,许多 ...
- 将Sublime Text3添加到右键菜单中
卸载了Sublime Text2,安装了最新版本的Sublime Text3,不过一直不在右键菜单中,每次使用都需要从打开方式中选,所以决定添加,有如下2种方法. 添加到右键菜单 方法一(推荐) 在S ...
- HTML颜色编码
Web安全色 #000000 #000033 #000066 #000099 #0000CC #0000FF #003300 #003333 #003366 #003399 #0033CC #0033 ...
- BASE64编码规则及C#实现
一.编码规则 Base64编码的思想是是采用64个基本的ASCII码字符对数据进行重新编码.它将需要编码的数据拆分成字节数组.以3个字节为一组.按顺序排列24位数据,再把这24位数据分成4组 ...
- iphone4s丢失如何找回
iphone4s丢失如何找回 iphone4s手机丢了怎么办,其实苹果手机自带找回功能,但是前提你得打开了icloud这款软件. 方法/步骤 1 在手机的设置里找到icloud设置,如图. 2 点击进 ...
- Go语言程序的状态监控 via 达达
Go语言程序的状态监控 Go是很实在的编程语言,从一开始就提供了很详细的运行状态信息.产品上线后的调优和排查疑难杂症都得靠这些状态信息.这边总结一些我们项目里用到的状态监控手段. pprof Go自带 ...
- Phonegap3.4 教程
英文原扯:http://coenraets.org/blog/cordova-phonegap-3-tutorial/ 我只是对着原文学习一遍,记录在这里,一来为了加深印象(边翻译边学习),二来为了自 ...