1.NoSQL产生的原因 目前关系型数据库难以应对日益增多的海量数据,横向的分布式扩展能力比较弱,因此构建出非关系型数据库(所谓的NoSQL),其目的是为了构建一种结构简单.分布式.易扩展.效率高且使用方便的新型数据库系统. 2.NoSQL特点 NoSQL一般提供数据的分布式存储.数据表的统一管理和维护.以及快速的分布式写入和简单查询能力等. 一是流行的NoSQL软件满足业务需求而生 二是知名的NoSQL软件都是开源 3.NoSQL的典型应用场景 海量日志数据.业务数据或监控数据的管理和查询 特…
一直觉得“大数据”这个名词离我很近,却又很遥远.最近不管是微博上,还是各种技术博客.论坛,碎碎念大数据概念的不胜枚举. 在我的理解里,从概念理解上来讲,大数据的目的在于更好的数据分析,否则如此大数据的存储便没有这么大的意义了.至于从技术上, 恰好之前在<淘宝技术这十年>的引言部分,读到一篇小文,觉得放在这个大数据的讨论下,也还很贴切: “据不可靠消息,在双十一当天高峰,淘宝的访问流量最巅峰达到871GB/S.这个数字意味着需要178万个4Mb带宽的家庭宽带才能负担的起, 也完全有能力拖垮一个中…
[摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [问题] 如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系? [答案1] 学习很重要的是能将纷繁复杂的信息进行归类和抽象. 对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题. 1.存储,海量的数据怎样有效的存储?主要包…
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:“应用驱动的架构与技术 ”.大数据概念最近真是火得不行,从大会多达7个的“大数据架构与系统”.“大数据技术”.“大数据应用”.“大数据研究与发展”.“大数据基准测试”“智能交通与大数据”以及“传统行业如何驾驭大数据”主题论坛,再到现场爆棚的人群,可见大家拥抱大数据的高涨热情. 在9月份读完了一本<大数据时代>,后面又听大学老师…
摘要:距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图.UDF支持动态参数.支持分区裁剪.生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用.那么,近期MaxCompute究竟还有哪些新特性呢?本文就为大家揭晓答案. 以下内容根据视频及PPT整理而成. MaxCompute与阿里云大数据产品解决方案 在介绍MaxCompute新功能前,我们先快速对阿里云的大数据产品解决方案进行介…
http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html 目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别.这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系数据库)技术对比如下: 硬件架构 从本质上来讲,两者的硬件架构基本相同,都是采用x86服务器集群的分布式并行模式来应对大规模的数据与计算.但是,数据库一体机的商家大都会对硬件体系进行面向产品化的.系…
1 大数据概述 大数据特性:4v volume velocity variety value 即大量化.快速化.多样化.价值密度低 数据量大:大数据摩尔定律 快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少:1秒定律,这和传统的数据挖掘技术有着本质区别(谷歌的dremel可以在1秒内调动上千台服务器处理PB级数据) 价值密度低,商业价值高 大数据影响: 对科学研究影响:出现科学研究第四方式数据(前三个分别是实验.理论.计算) 对思维方式影响:全样而非抽样.效率而非准确.相关而非…
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技术专家天梧.阿里巴巴中间件技术部资深技术专家纪君祥将给大家带来Hadoop.Spark.HBase.JStorm Turbo等内容. 无谓:Hadoop过去现在未来,从阿里云梯到E-MapReduce 阿里云高级技术专家 无谓 从开辟大数据先河至现在,风雨十年,Hadoop已成为企业的通用大数据框架…
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储.分析.分布式资源调度等.Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储. Hadoop的核心有两大板块:HDFS和MapReduce. HDFS全称Hadoop Distributed File System,是一种…
除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了…