《OD学HBase》20160821

一、HBase性能调优

1. JVM内存调优

MemStore内存空间，设置合理大小

memstore.flush.size 刷写大小 134217728 = 128M

memstore.mslab.enabled

preclose.flush.size

JVM堆内存

初生代内存空间：数据停留时间较短 128~512M -Xmn128M

老生代内存空间：数据停留时间比较长，几GB

内存碎片 GC清理 -->进程停顿

当垃圾过多，GC进程限制应用程序进程的进行

GC垃圾回收策略：

Parrallel New Collector垃圾回收策略

Concurrent Mark-Sweep Collector 并行标记垃圾回收器

2. 本地MemStore缓存

数据从MemStore刷写到磁盘上，MemStore空间就会留下随便（内存孔洞）

GC对这些随便进行清理

内存孔洞，重复使用

预先设置固定大小的内存孔洞，下次数据写进内存，根据数据的大小找到合适之前预先设置好的后者留下来的内存孔洞，写进去。

缺点：占用大量的内存空间

hbase.hregion.memstore.mslab.enabled 开关

大小 2M

3. 拆分与合并

split: Region分割 Region大小增大一定大小

hbase.hregion.max.filesize 只要region中的任何一个StoreFile大小默认上限 10GB

Region

-->拆分成平均大小的两个小的Region

-->Region1 -->接收数据 -->又继续拆分

-->Region2

HBase表数据量连续增长非常快，拆分过程频繁进行，明显降低HBase表的读写性能

解决办法：将hbase.hregion.max.filesize 设置大一点

手动执行split命令进行拆分，选择业务发生量最小的时刻

compact 合并：

memstore刷写数据到磁盘，生成StoreFile(HFile)，

HFile好多小文件，造成HBase读性能不高，HBase内部有合并机制。

合并为了优化读性能

合并：

minor compact：只是简单将同一个Store中小的StoreFile合并成大的StoreFile

major compact：将整个HBase表的StoreFile进行大范围的合并，真正进行删除数据，另外也对过期的数据进行移除。

HBase删除数据，并没有立即删除，其实只是打了个删除标记。

手动进行ajon compact

hbase.hregion.majorcompaction 默认七天

hbase.hregion.majorcompation.jitter 浮动

根据业务具体情况来决定如何进行优化拆分与合并

4. 预创建Region

5. 负载均衡

6. 热点现象

rowkey优化

二、Storm

1. 实际场景

（1）交通部门：检测高速公路上的车辆超速情况，对超速车辆实时发罚单

（2）公安部门：追踪疑犯，实时检测到疑犯的出现地点。

（3）金融行业：反欺诈交易实时检测，事后反欺诈。

（4）游戏行业：实时得到游戏上线后的一些反馈博爱高

（5）软件系统上线后：日志分析，实时检测到一些运行不良的系统、组件

Hadop mapreduce能否解决以上需求？

实时

以上场景都有共同的需求：讲数据分析结果能够实时反馈，需要对数据进行实时处理

实时数据分析框架：

Storm 流失数据处理技术框架

Spark Streaming 实时数据分析框架

三、数据分析处理

数据分析一定基于时段

批处理：时段跨度相对来说比较大

一年，一季度，一月，一星期，一天，一小时，一分钟，一秒钟

实时处理：时间跨度偏小的批处理

单位时间（秒）数据量非常大GB TB

四、Storm SparkStreaming的区别

Storm真正的实时处理框架，针对数据，来一条记录就处理一次，流式数据处理技术框架。

SparkStreaming微批数据处理框架，秒级

并不是hadoop生态系统的一个框架

1. 环境搭建

1）下载

http://storm.apache.org/

2）安装要求、前提

zookeeper集群

python 2.6.6以上

python --version

3）解压安装

apache-storm-0.9.6

4）修改配置

strom_env.ini

storm.yarn：

nimubs.host: "nibus"

storm.local.dir: "/mnt/storm"

指定supervisor节点启动一些工作进程worker所使用的默认端口

supervisor storm的节点

supervisor.slots.ports:

2. Storm架构

1）nimbus主节点：

接收客户端提交的任务，任务由nimbus进行分配

2）zookeeper集群：

（1）在zookeeper响应的znode节点上写入任务分配信息，由supervisor查看这些znode上的任务分配信息，获取分配到的任务。

（2）监控整个集群的状态

从zookeepe集群的znode上读取supervisor、worker进程的状态信息数据

（3）容错：

当任务在某些supervisor节点上运行的时候，由于supervisor进程失效，重新将这些任务分配给其他supervisor运行。

3）supervisor：

（1）需要定时讲自己的运行状态信息（心跳信息）汇报给zookeeper（在zookeeper相应的znode节点上写入心跳信息）

（2）接收nimbus分配给它的任务，负责启动、停止工作进程worker，其本身并不是执行任务的工作进程，worker的容错由supervisor进程负责

4）worker：

并不是常驻进程，不能通过手动启动，真正执行任务的进程。

worker进程启动后，也会定时将状态信息汇报给zookeeper

executor线程：worker进程来启动，executor负责执行客户提交到storm集群上任务中的task。

task：(spout/bolt)

五、启动

1. 启动nimbus

nohup bin/storm nimbus >~/storm-nimbus-start.log 2>&1 &

jps

config_value 表示正在启动并读取配置文件

nimbus

ps -ef | grep daemon.nimbus

2. 启动supervisor

nohup bin/storm supervisor >~/storm-supervisor-start.log 2>&1 &

ps -ef | grep daemon.supervisor

3. 启动ui

nohup bin/storm ui >~/storm-ui-start.log 2>&1 &

ps -ef | grep ui.core

netstat -tlnup | grep 8081

4. 启动logviewer日志收集进程

一定要在每个supervisor节点上启动

nohup bin/storm logviewer >~/storm-logviewer-start.log 2>&1 &

bin/storm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount

六、Storm的任务

1. kill 任务

bin/storm kill wordcount

2. topology 提交到storm集群上的任务

拓扑图有向无环图 DAG

比较Storm与MapReduce：

1）Topology

提交到Storm集群上运行，除非手动执行kill命令，否则将一直永远运行下去。

MapReduce任务把数据处理完就终止。

2）实时处理批处理

地铁站：自动扶梯，普通电梯

Topology：

spout：数据采集器

bolt：数据处理器，在bolt里面实现数据的处理逻辑。

stream： Tuple格式。keyvalue对的集合

{"name" : "", }

随机语句->SentenceSpout->SplitBolt -> CountBolt -> 存储Bolt

"Hello Storm" ->

　　Tuple : {"sentence" : "Hello Storm"}

　　　　　　　-> SplitBolt

　　　　　　　-> Tuple {"word" : "Hello"}, {"word" : "Storm"}

　　　　　　　-> key : 单词, value : 单词次数

七、zookeeper在Storm中的作用

/storm

　　/workerbeats worker工作进程的状态信息

　　/errors topology在运行过程中出现异常的task信息，方便Nimbus讲运行出错任务进行重新分配

　　/supervisors supervisor

　　/storms Toplogy的基本配置信息

　　/assignments Topology任务的分配信息

http://blog.sina.com.cn/s/blog_62bb28cc0101j4h6.html

八、实现Topology

Storm编程模型

数据源： kafka

词频统计

kafka： topic "logs"

topology：数据采集器(KafkaSpout)

SentenceSpout extends RickSpout

+ open()

+ close()

+ nextTuple() 实现如何从数据源上获取数据的逻辑，以及向后面的bolt组件发射数据

+ ack() Topology启用了消息可靠性保障机器，当某个tuple在Topology上处理成功后，调用ack方法执行一些消息处理成功后代码。

+ fail() Topology启用了消息可靠性保障机器，当某个tuple在Topology上处理失败后，调用ack方法执行一些消息处理成功后代码。比如重试，重试达到可执行次数

+ declareOutputFields () 声明向后面组件发射的Tuple keyy一次是什么

+ getComponentConfiguration() //设置该组件Spout一些专用的参数

在Topology中使用的一些类，最好都要实现序列化接口。java.io.Serializable

IRichBolt

+prepare() bolt初始化方法

+execute() 类似于spout的nextTuple()方法

+cleanup()

+declareOutputFields()

+getComponentConfiguration()

数据流分组方式

shuffleGrouping 随机分配

fieldsGrouping

globalGrouping

《OD学HBase》20160821的更多相关文章

《OD学HBase》20160820
一.案例微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户查看关注用户的微博内容微博数据存储: 响应时间秒级无延迟 (1)mysql分布式 (2)hbase数据库使用HBase数 ...
《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
《OD学Sqoop》数据转换工具Sqoop
一. 第二阶段课程回顾 hadoop 2.x HDFS YARN MapReduce Zookeeper Hive 二.大数据协作框架对日志类型的海量数据进行分析 hdfs mapreduce/hi ...
《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
一起学HBase——总结HBase中的PUT、GET、DELETE操作
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作.本文对HBase中常用的Scan.GET.PUT.DELETE操作的用法做个总结. Put操作 Put相当于传统 ...
一起学HBase——简单介绍HBase各种组件
HBase是谷歌BigTble的开源实现.谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈.而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase ...

随机推荐

javascript遍历子元素
最近写代码时需要获取符合某些条件的节点子元素,用firstChild之类的方法会包含文本节点,所以包装了一个简单的类: //子元素遍历器 function ElementWalker(node) { ...
mvc从xheditor编辑器中获取内容时存在潜在危险
xmfdsh在使用xheditor提交要发布的文章等内容的时候出现了如下的错误: 从客户端(Content="<p style="text-align...")中检 ...
magic_quotes_runtime 与 magic_quotes_gpc
magic_quotes_runtime 与 magic_quotes_gpc 这两个函数都是管理是否对数据进行特殊符号转义,但是他们针对的处理对象不同: magic_quotes_gpc的设定值将会 ...
Codeforces Round #250 (Div. 2)
感觉不会再爱了,呜呜! A题原来HACK这么多!很多人跟我一样掉坑了! If there is some choice whose description at least twice shorter ...
Linux关于watch的用法
Linux关于watch的用法 2011-07-20 0个评论收藏我要投稿 watch 是一个非常实用的命令,基本所有的 Linux 发行版都带有这个小工具,如同名字一 ...
React Native 简介：用 JavaScript 搭建 iOS 应用(2)
[编者按]本篇文章的作者是 Joyce Echessa--渥合数位服务创办人,毕业于台湾大学,近年来专注于协助客户进行 App 软体以及网站开发.本篇文章中,作者介绍通过 React Native 框 ...
CAP定理与RDBMS的ACID
一.分布式领域CAP理论 CAP定理指在设计分布式系统时,一致性(Consistent).可用性(Availability).可靠性(分区容忍性Partition Tolerance)三个属性不可能同 ...
使用git整体流程
一.git提交代码走meger请求的整体流程工作中使用git推代码时,如果走merge请求,那么也就是说拉代码时拉公共代码库的代码,但是提交时需要先提交到自己的代码库,然后在gitlab上提交mer ...
李洪强iOS面试总结之- FMDB
n什么是FMDB pFMDB是iOS平台的SQLite数据库框架 pFMDB以OC的方式封装了SQLite的C语言API p nFMDB的优点 p使用起来更加面向对象,省去了很多麻烦.冗余的C语言代码 ...
李洪强iOS开发之OC语言基础知识
OC语言基础知识一.面向对象 OC语言是面向对象的,c语言是面向过程的,面向对象和面向过程只是解决问题的两种思考方式,面向过程关注的是解决问题涉及的步骤,面向对象关注的是设计能够实现解决问题所需功能 ...

《OD学HBase》20160821

《OD学HBase》20160821的更多相关文章

随机推荐

热门专题