1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行.Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义.数据加载时,一般也是根据Rowkey的二进制序由小到大进行的. HBase是根据Rowkey来进行检索的,系统通过找到某个Rowkey (或者某个 R…
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>——云里雾里的感觉.或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您…
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影<云图>——云里雾里的感觉.或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保持清醒的头脑,认真仔细的慎问一下自己,我们公司真的需要大数据吗? 做为一家第三方支付公司,数据的确…
一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句…
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群: 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放.数据组织.以…
一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问题2:大数据传统企业实施切入点到底是从核心开始还是该从外围介入? 两个问题有关联关系,如果界定不了核心与外围的边界,那么第二个问题也就无从回答.在此与大家共享,希望更多的人能参与进来发表自己的观点. 二.探讨案例 某品牌电视产品厂商,主营业务是电视机生产.目前规划要做转型做数据化运营,通过内嵌入在电…
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文:  The NoSQL Ecosystem 目录 The NoSQL Ecosystem... 1 13.1. What's in a Name?. 5 13.1.1. SQL and the Relational Model 6 13.1.2. NoSQL Inspirations. 8 13.1.3. Characteristics and Considerations…
一.引言 大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了VisualHBase的开发群:263505724,希望能够借助社区的力量,解决大数据企业实施的瓶颈. 二.应用场景 基于Hadoop+HBase构建的实时查询数据库系统. 三.产品目标 HBase企业级可视化管理工具(数据定义和数据操作)和可视化定制开发管理工具. 四.角色分析 1.数据库设计人员 2…
一.HDFS 的设计思路 1)思路 切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题 缺点 不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处理,节点可能成为网络瓶颈,很难进行大数据的处理: 存储负载很难均衡,每个节点的利用率很低: 二.HDFS 的设计目标 Hadoop Distributed File System(HDFS):源于Google 的 GFS 论文: 设计目标 分布式存储:根据需要,水平横向增加节点: 运行在普通廉价的硬…
为了方便后面的学习,在学习Hive的过程中先学习一个工具,那就是Sqoop,你会往后机会发现sqoop是我们在学习大数据框架的最简单的框架了. Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 对于某些NoSQL数据库它也提供了连接器. Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据…