《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假闲得蛋痒,混混沌沌,开始看《Data-Intensive Text Processing with mapReduce》,尽管有诸多单词不懂,还好六级考多了,虽然至今未过;再加上自己当研究僧有一段时间了,经书尚且能懂;故本书大概内容及技术还是理解的。一种闲散的心态开始了对一本技术型书籍的啃读。
此外,看到本校论坛上的技术帖如此冷清,八卦帖依然火爆…..堂堂985+211理工学校的猛男,悍妹,难道都思春去了;实在不给力。闲话少说,开帖(尼玛,最近键盘总是在码字到某个字符的时候突然卡死,弃之,转手写,以后再码上)。
《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
Mapreduce是一种分布式的程序设计模式。作者首先提出了“Why”,答案是:大数据。那就先来说说数据。
数据的产生:大数据时代,比如咱们的搜索行为、购物习惯、看片类型、社交等,就在各巨头的服务器上存在,并且爆炸式增长。
数据的管理:随着硬件的发展,数据中心越来越多,有能力存了,但是真正会用的公司也就那么几家。
数据的分析:即数据挖掘,用于商业智能、统计学习、决策等。也说本人最感兴趣的。
例子:词性标志。(前言用了大量自然语言处理(NLP)例子, 推荐一本正在看的书,中科院宗成庆的《统计自然语言处理》,超新星视频有他的课程,校园网免费,可在实验室高速下载,而后慢慢学习研究,当然里面还有很多丰富的课程,没事的时候,别老泡图书馆,看视频,学得更快。天文地理,文学艺术,我已经把感兴趣的下得差不多了)
机器如何对输入的语句进行断句(专业讲就是分词,且标出每个词的词性,是名词,还是其他)。首先要有语料库,如果可能,就是人类有史以来所以的文字记载,这就是数据啊,量够大吧,根据统计获得各种断句的概率分布,属于这样切分的概率是多少,那样的概率是多少,就是分类问题。但是语言博大精深,如果碰到一个词有可能有多种词性,就要考虑上下文的关系,这就是多元的语言模型了建立条件概率,根据庞大的语料库,单机计算犹如慢慢长夜,基于群集的分布式处理才能实现高效,mapreduce就派上用场了。
总之,数据驱动一切。而此书主要针对文本型的密集数据进行处理,此外作者还总结了几个有意思的观点:
1). 至少对于文本数据,其研究有三要素:数据本身、特征(数据的表示,或者说模型)以及算法(求解模型的数学方法);我们说数据就是点,点连成线就是建了模型,而点如何成线就要万能的Mathematics,然后根据你输入的点,就可以根据模型拿到你想要的。
2). 数据量越大,学习的准确率越高,引发了争议:只要有足够的数据,机器存储量够大、运行速度够快,算法并不重要。机器学习算法的研究者可以歇菜了。尼玛,研究了两年的算法难道就白费了,还好只是争议,况且目前数据和硬件还无法实现。
3). 平滑处理。大数据的处理,离不开统计。数据缺失时有发生,以前没被雷劈过并表示你下雨打手机一定安全。在语音识别、机器翻译时候的,平滑处理显得尤为重要。
说了一大堆why后,就讲到了what?不是的。是渐渐扯远了,只为吸引你。
- 云计算
从传统的并行计算(MPI)、网格计算到效用计算(提供服务的计算模型)。云的最高境界,即一切的一切均抽象为服务。当前就有流行的的3S,IaaS、PaaS以及SaaS。而Mapreduce设计模型恰是一种Powerful的抽象手段,将What和How分离,你只需享受终端的各种服务,怎么做的,那是云端的事情。这让我常想起广告中的一些词,如“联所未连”、“智慧地球”。
2. 强大的思想
1).横向拓展,非纵向延伸——普通pc机就能搭建庞大的群集,无需高性能计算机,成本低;
2).容错性。当出现down机时,自动重新分配节点,依然能正确提供服务,神不知鬼不觉;
3).计算本地化,尽量存储与计算的分离,减少过多的网络传输;
4).数据大而密集,采用批处理,顺序读取,避免随机读取。尽管对固态硬盘而言,两种读取差不多,但是固态硬盘的缺陷也很明显,容量小,成本高,还短命;
5).对开发者而言,So easy,再也不用考虑过多的实现细节了,只需描述你要做什么,怎么做大多是系统封装好了的;
6)扩展能力,数据增大,可扩展群集。当数据固定,增加节点,执行更快,具有线性加速比。
3. 与众不同
随着存储成本下降,hadoop开源发展,云服务变得简单,大数据无非就是存储、算法处理、可视化。Mapreduce在存储与算法间键搭起桥梁。群集的数据中心正如一台超级电脑,冯氏计算机模型将不再高效。
4. 此书的内容
此书主要针对密集文本进行分析,提出算法设计及应用。基于hadoop的Mapreduce开源实现,但不会探讨hadoop的api使用,如需了解,推荐《hadoop权威指南》(目前也在艰难的啃读当中)。
结束语:
今日获悉,长沙又将迎来创纪录的持续高温天气,酷暑已超过寂寞,实在难耐,祝各位凉快!
《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言的更多相关文章
- 《Data-Intensive Text Processing with mapReduce》读书笔记之二:mapreduce编程、框架及运行
搜狐视频的屌丝男士第二季大结局了,惊现波多野老师,怀揣着无比鸡冻的心情啊,可惜随着剧情的推进发展,并没有出现期待中的屌丝奇遇,大鹏还是没敢冲破尺度的界线.想百度些种子吧,又不想让电脑留下污点证据,要知 ...
- 《JAVA 程序员面试宝典(第四版)》读书笔记之前言
工作五年了一直在小的软件公司混,总感觉自己的专业知识没有太大的提升.当然了中间也换了一两家公司,面试的公司就很多家,总感觉正规的软件公司(无论大小)对于基础知识的考核都非常重视,而不管你说你之前服务过 ...
- <Python Text Processing with NLTK 2.0 Cookbook>代码笔记
如下是<Python Text Processing with NLTK 2.0 Cookbook>一书部分章节的代码笔记. Tokenizing text into sentences ...
- HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和 块/存储管理(Block Storage). 命名空间管理(Namespac ...
- 【vue.js权威指南】读书笔记(第一章)
最近在读新书<vue.js权威指南>,一边读,一边把笔记整理下来,方便自己以后温故知新,也希望能把自己的读书心得分享给大家. [第1章:遇见vue.js] vue.js是什么? vue.j ...
- WPF,Silverlight与XAML读书笔记第四十七 - Silverlight与浏览器
说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 这部分内容主要介绍Silverlight与浏 ...
- WPF,Silverlight与XAML读书笔记第四十五 - 外观效果之模板
说明:本系列基本上是<WPF揭秘>的读书笔记.在结构安排与文章内容上参照<WPF揭秘>的编排,对内容进行了总结并加入一些个人理解. 模板允许用任何东西完全替换一个元素的可视树, ...
- AngularJS in Action读书笔记6(实战篇)——bug hunting
这一系列文章感觉写的不好,思维跨度很大,原本是由于与<Angularjs in action>有种相见恨晚而激发要写点读后感之类的文章,但是在翻译或是阐述的时候还是会心有余而力不足,零零总 ...
- 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...
随机推荐
- Maven系列--"maven-compiler-plugin"的使用、Maven之Surefire插件
一."maven-compiler-plugin"的使用 http://my.oschina.net/poorzerg/blog/206856 二.Maven之Surefire插件 ...
- 基于局部敏感哈希的协同过滤推荐算法之E^2LSH
需要代码联系作者,不做义务咨询. 一.算法实现 基于p-stable分布,并以‘哈希技术分类’中的分层法为使用方法,就产生了E2LSH算法. E2LSH中的哈希函数定义如下: 其中,v为d维原始数据, ...
- PLSQL显示乱码-无法进行中文条件查询解决
PLSQL显示乱码-无法进行中文条件查询解决 原因: PLSQL乱码问题皆是ORACLE服务端字符集编码与PLSQL端字符集编码不一致引起.类似乱码问题都可以从编码是否一致上面去考虑. 解决: 1. ...
- 【转】Spring+Hibernate+EHcache配置(一)
大量数据流动是web应用性能问题常见的原因,而缓存被广泛的用于优化数据库应用.cache被设计为通过保存从数据库里load的数据来减少应用和数据库之间的数据流动.数据库访问只有当检索的数据不在cach ...
- 重新学struct,边界对齐,声明……与Union的区别
在内存中,编译器按照成员列表顺序分别为每个结构体变量成员分配内存,当存储过程中需要满足边界对齐的要求时,编译器会在成员之间留下额外的内存空间. 如果想确认结构体占多少存储空间,则使用关键字sizeof ...
- hdu 4794 FIb求循环节
很容易看出来这道题是求模n意义下fib数列的最小循环节 对于fib数列的最小循环节的求法,我们可以这样: 1.令n=p1^m1 * p2^m2 * p3^m3…… 2.分别计算fib数列在模p1^m1 ...
- unite
列出某个集合里的项目,比如file,buffer等 :United file——列出文件 :United buffer——列出buffer :United file_rec——递归列出文件 进入Uni ...
- Upload/download/UrlConnection/URL
文件上传的核心点 1:用<input type=”file”/> 来声明一个文件域.File:_____ <浏览>. 2:必须要使用post方式的表单. 3:必须设置表单的类型 ...
- delphi使用 第三方控件
第三方控件安装时必须把所有的pas,dcu,dpk,res等文件复制到你的Lib目录下 然后通过dpk进行安装 安装后会多出来新的控件面板,新控件就在那里了 当然也有一些控件会安装到原有的面板上 比如 ...
- awesome cpp
https://github.com/fffaraz/awesome-cpp Awesome C/C++ A curated list of awesome C/C++ frameworks, lib ...