Hadoop生态圈-hbase介绍-完全分布式搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最优的写性能(能使I/O利用率达到饱和)进而出色的读性能,它充分利用了磁盘空间,支持特定列族切换可选压缩算法. HBase继承自谷歌公司的 BigTable模型,只考虑单一的索引,类似于RDBMS的主键,提供了服务器端钩子,可以实施灵活的辅助索引解决方案.此外,它还提供了过滤器功能,减少了网络传输的数…
Hadoop生态圈-Kafka的完全分布式部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要内容就是搭建Kafka完全分布式,它是在kafka本地模式(https://www.cnblogs.com/yinzhengjie/p/9209058.html)的基础之上进一步实现完全分布式搭建过程. 一.试验环境 试验环境共计4台服务器 1>.管理服务器(s101) 2>.Kafka节点二(s102,已经部署好了zookeeper服务) 3>.Kafka节点三…
Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统   用于存储大量的数据 (2)分布式计算框架MapReduce高效的分析数据 以上的两个概念组成一个名词 Hadoop 二.Hadoop的起源 谷歌发布了三篇论文 : GFS 分布式存储系统  ,  MapReduce  分…
Hadoop生态圈-HBase性能优化 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-HBase的HFile创建方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 废话不多说,直接上代码,想说的话都在代码的注释里面. 一.环境准备 list create 'yinzhengjie:WordCount3','f1','f2' list desc 'yinzhengjie:WordCount3' scan 'yinzhengjie:WordCount3' 二.编写HFile创建方式的代码 1>.编写Map端代码 /* @author :yinz…
Hadoop生态圈-Hbase的协处理器(coprocessor)应用 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-Hbase的rowKey设计原则 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-Hbase的Region详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Hadoop生态圈-Hbase过滤器(Filter) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…