提到大数据,就不得不提到Hadoop,提到Hadoop,就不得不提到Google公布的3篇研究论文:GFS.MapReduce.BigTable,Google确实是一家伟大的公司,开启了全球的大数据时代, 在<后谷歌时代:大数据的没落与区块链经济的崛起>中如此说道: googol一词的意思是10的100次方--一个大到不可思议的数字. ... 随着岁月的流逝,谷歌几乎数字化了世界上所有可以获取的图书(2005),数字化了世界语言这个大织锦挂毯上的所有语言及其翻译(2010),数字化了这个星球的…
什么是大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 大数据的定义是4Vs:Volume.Velocity.Variety.Veracity.用中文简单描述就是大.快.多.真. Volume —— 数据量大 随着技术的发展,人们收集信息的能力越来越强,随之获取的数据量也呈爆炸式增长.例如百度每日处理的数据量达上百PB,总的数据量规模已经到达E…
键值存储数据库临时性:如Memcached.临时性的键值数据库把数据存储在内存中,在两种情况下会造成上数据的丢失,一是断电,而是数据内容超出内存大小.这种处理的好处是非常快.永久型:如Tokyo Tyrant .Flare和ROMA两者兼有型:Redis.Redis首先把数据存在内存中,然后在满足特定条件(默认是15分钟1次以上,5分钟10个以上,1一分钟10000个以上的键发生变化)的时候,将数据同步到硬盘,这样既可以保证数据的处理速度,又可以保证数据的永久性.我的疑惑是:按照这种特定条件的话…
NoSQL产生的原因: 关系型数据库不擅长的操作,是NoSQL应运而生的原因: 大量的数据写入操作书上写的是“大量数据的写入操作“,我理解的应该是“大量的数据写入操作”,因为大量的数据写入操作才会引起并发,并发和锁是关系型数据库的瓶颈,NoSQL将表拆分到不同的节点上,可以将写入操作分发到各个节点上.为何关系型数据库无法解决大量的数据写入操作?在数据读入方面,关系型数据库可以通过增加节点,主从复制,来提高高并发的时候的压力.但是在写入方面,为了保证每个节点上数据的一致,仍然要把写入请求发送到每个…
<零起点,python大数据与量化交易>,这应该是国内第一部,关于python量化交易的书籍. 有出版社约稿,写本量化交易与大数据的书籍,因为好几年没写书了,再加上近期"前海智库·zw大数据"项目,刚刚启动. 因为时间紧,只花了半天时间,整理框架和目录. 说是v0.1版,但核心框架已经ok:从项目角度而言,完成度,已经超过70%,剩下的只是体力活. 完成全本书,需要半年以上连续时间,本人没空,大家不要再问:"什么时间可以完成." 配合zwPython,这…
转载自http://www.ibm.com/developerworks/cn/opensource/os-twitterstorm/ 流式处理大数据简介 Storm 是一个开源的.大数据处理系统,与其他系统不同,它旨在用于分布式实时处理且与语言无关.了解 Twitter Storm.它的架构,以及批处理和流式处理解决方案的发展形势. Hadoop(大数据分析领域无可争辩的王者)专注于批处理.这种模型对许多情形(比如为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的…
  一.大数据简介 大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据[big data]这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构”[big data and the next wave of infrastress]中用它来描述数据的快速增长.现在一般用4V来表示,及大量[volume].多样[variety].快速[velocity]和价值[value]. 二.大数据时代所面临的问题 1.数据的快速增长使快速处理数据成为了…
大数据简介,概念部分 概念部分,建议之前没有任何大数据相关知识的朋友阅读 大数据概论 什么是大数据 大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产 粗略解读以下 常规软件工具:例如 JavaEE.Mysql(500-1000w数据)即使构建 Mysql 集群,集群中节点的数量也不是无限增加的. 海量.高增长率:数据本身基数大,每天新加入的数据也多 多样…
impala2.12 官方:http://impala.apache.org/ 一 简介 Apache Impala is the open source, native analytic database for Apache Hadoop. Impala is shipped by Cloudera, MapR, Oracle, and Amazon. impala是hadoop上的开源分析性数据库:C++和java语言开发: Do BI-style Queries on Hadoop Im…
tpc 官方:http://www.tpc.org/ 一 简介 The TPC is a non-profit corporation founded to define transaction processing and database benchmarks and to disseminate objective, verifiable TPC performance data to the industry. TPC(The Transaction Processing Perform…