一脸懵逼学习Hdfs---动态增加节点和副本数量管理（Hdfs动态扩容）

1:按照上篇博客写的,将各个进程都启动起来: 集群规划: 主机名 IP 安装的软件运行的进程 master 192.168.3.129 jdk.hadoop NameNode.DFSZKFailoverController(zkfc) slaver1 192.168.3.130 jdk.hadoop …

5 weekend01、02、03、04、05、06、07的分布式集群的HA测试 + hdfs--动态增加节点和副本数量管理 + HA的java api访问要点

weekend01.02.03.04.05.06.07的分布式集群的HA测试 1) weekend01.02的hdfs的HA测试 2) weekend03.04的yarn的HA测试 1) weekend01.02的hdfs的HA测试首先,分布式集群都是正常的,且工作的然后呢, 以上是,weekend01(active).weekend02(standby) 当weekend01给kill, 变成weekend01(standby).weekend02(active) 模拟weekend…

Hyperledger fablic 1.0 在centos7环境下的安装与部署和动态增加节点

Hyperledger fablic 1.0 在centos7环境下的安装与部署和动态增加节点一.安装docker 执行代码如下: curl -sSL https://get.daocloud.io/docker | sh 1 安装完成后,查看安装情况: docker -v 1 二.安装docker-compose 先安装python-pip,具体安装步奏如下: 1.首先安装epel扩展源: sudo yum -y install epel-release 1 2.然后安装python-pip…

ZooKeeper动态增加Server（动态增加节点）的研究（待实践）

说明:是动态增加Server,不是动态增加连接到ZK Server的Client. 场景如下(转自外文): 1.在t=t_1->[peer-1(Leader),peer-2],peer-1是主节点,所有客户端连接到该节点. 2.在t=t_2->[peer-1(Leader),peer-2,peer-3],稍后的时候,同行3加入了该组.是否可以“动态地”将动态列表添加到zookeeper服务器列表(即,在对等体1上不重新启动ZooKeeper)? 3.在t=t_3->[peer-3(Lea…

（二）Kafka动态增加Topic的副本(Replication)

(二)Kafka动态增加Topic的副本(Replication) 1. 查看topic的原来的副本分布 [hadoop@sdf-nimbus-perf ~]$ le-kafka-topics.sh --describe --topic http_zhixin_line1 Topic:http_zhixin_line1 PartitionCount:3 ReplicationFactor:1 Configs: Topic: http_zhixin_line1 Partition: 0 Leade…

一脸懵逼学习hadoop之HDFS的java客户端编写

1:eclipse创建一个项目,然后导入对应的jar包: 鼠标右击项目,点击properties或者alt+enter快捷键--->java build path--->libraries--->add library--->user library--->next--->user libraries--->new--->hdfsLib(根据自己的需要填写)--->add external jars(添加自己的需求包): 2:开始添加自己的需求包,路径…

一脸懵逼学习Hadoop中的序列化机制——流量求和统计MapReduce的程序开发案例——流量求和统计排序

一:序列化概念序列化(Serialization)是指把结构化对象转化为字节流.反序列化(Deserialization)是序列化的逆过程.即把字节流转回结构化对象.Java序列化(java.io.Serializable) 二:Hadoop序列化的特点 (1):序列化格式特点: 紧凑:高效使用存储空间. 快速:读写数据的额外开销小. 可扩展:可透明地读取老格式的数据. 互操作:支持多语言的交互. (2):Hadoop的序列化格式:Writable接口三:Hadoop序列化的作用: (1):…

一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）

1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop NameNode.DFSZKFailoverController(zkfc)slaver1 192.168.199.131 jdk.hadoop NameNode.DFSZKFailoverController(…

Hadoop2.6.0 动态增加节点

本文主要从基础准备,添加DataNode和添加NodeManager三个部分详细说明在Hadoop2.6.0环境下,如何动态新增节点到集群中. 基础准备在基础准备部分,主要是设置hadoop运行的系统环境修改系统hostname(通过hostname和/etc/sysconfig/network进行修改) 修改hosts文件,将集群所有节点hosts配置进去(集群所有节点保持hosts文件统一) 设置NameNode(两台HA均需要)到DataNode的免密码登录(ssh-copy-id命令…

Hadoop动态增加节点与删除节点

Hadoop的全分布式安装网上也很多教程,踩过很多坑,整理不出来了……赶紧把增加删除节点留住. 均衡数据 (1)设置数据传输带宽为64M(默认值比较低) hdfs dfsadmin -setBalancerBandwidth 67108864 (2)平衡数据,默认balancer的threshold为10%,即各个节点存储使用率偏差不超过10%,我们可将其设置为1%(1~100) ./sbin/start-balancer.sh -threshold 1 或者hdfs balancer -thr…

一脸懵逼学习KafKa集群的安装搭建--（一种高吞吐量的分布式发布订阅消息系统）

kafka的前言知识: :Kafka是什么? 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算.kafka是一个生产-消费模型. Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中. 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode) % numPartitions Broker:当前服务器上的Kafka进程,俗称拉皮条.只管数…

Kafka动态增加Topic的副本

一.kafka的副本机制由于Producer和Consumer都只会与Leader角色的分区副本相连,所以kafka需要以集群的组织形式提供主题下的消息高可用.kafka支持主备复制,所以消息具备高可用和持久性. 一个分区可以有多个副本,这些副本保存在不同的broker上.每个分区的副本中都会有一个作为Leader.当一个broker失败时,Leader在这台broker上的分区都会变得不可用,kafka会自动移除Leader,再其他副本中选一个作为新的Leader. 在通常情况下,增加分区可…

一脸懵逼学习HBase---基于HDFS实现的。（Hadoop的数据库，分布式的，大数据量的，随机的，实时的，非关系型数据库）

1:HBase官网网址:http://hbase.apache.org/ 2:HBase表结构:建表时,不需要指定表中的字段,只需要指定若干个列族,插入数据时,列族中可以存储任意多个列(即KEY-VALUE,列名称-列值);一个value可以有多个版本,通过版本号来区分(时间戳) 3:要查询某一个具体的字段,需要指定坐标:表名---->行健---->列族(ColumnFamily):列名(Qualifier)---->版本; 4:HBase简介: HBase – Hadoop Datab…

一脸懵逼学习Storm---（一个开源的分布式实时计算系统）

Storm的官方网址:http://storm.apache.org/index.html 1:什么是Storm? Storm是一个开源的分布式实时计算系统,可以简单.可靠的处理大量的数据流.被称作“实时的hadoop”.Storm有很多使用场景:如实时分析,在线机器学习,持续计算, 分布式RPC,ETL等等.Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息).Storm的部署和运维都很便捷,而且更为重要的是…

一脸懵逼学习Nginx及其安装，Tomcat的安装

1:Nginx的相关概念知识: 1.1:反向代理: 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个服务器. 1.2:负载均衡: 负载均衡,英文名称为Load Balance,是指建立在现有网络结构之上,并提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽.增加吞吐量.加强网络数据处理能力.提高网络的灵活性和可用性.…

一脸懵逼学习HBase的搭建（注意HBase的版本）

1:Hdfs分布式文件系统存的文件,文件存储. 2:Hbase是存储的数据,海量数据存储,作用是缓存的数据,将缓存的数据满后写入到Hdfs中. 3:hbase集群中的角色: ().一个或者多个主节点,Hmaster: ().多个从节点,HregionServer:4.hbase集群的配置是一主多从或者多主多从(一定注意区分和hive之间的关系,切记),一主多从可以动态添加主节点,配置成多主多从.5.如何配置HMaster主备: a.添加主节点: 在任意的安装了hbase的机器上启动hmaster…

一脸懵逼学习Hive的使用以及常用语法（Hive语法即Hql语法）

Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManual Hive的数据存储 1.Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2.只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据. 3.Hive 中包含以下数据模型:DB.Table,Ext…

一脸懵逼学习Hive的元数据库Mysql方式安装配置

1:要想学习Hive必须将Hadoop启动起来,因为Hive本身没有自己的数据管理功能,全是依赖外部系统,包括分析也是依赖MapReduce: 2:七个节点跑HA集群模式的: 第一步:必须先将Zookeeper启动起来(HA里面好多组件都依赖Zookeeper): 切换目录,启动Zookeeper(master节点,slaver1节点,slaver2节点):./zkServer.sh start 第二步:启动HDFS(千万不要格式化了,不然肯定报错给你): 直接在slaver3节点启动:star…

一脸懵逼学习Hive的安装（将sql语句翻译成MapReduce程序的一个工具）

Hive只在一个节点上安装即可: 1.上传tar包:这个上传就不贴图了,贴一下上传后的,看一下虚拟机吧: 2.解压操作: [root@slaver3 hadoop]# tar -zxvf hive-0.12.0.tar.gz 解压后贴一下图: 3:解压缩以后启动一下hive: 4:开始操作sql: 好吧,开始没有启动集群,输入mysql创建数据库命令,直接不屌我,我也是苦苦等待啊: 5:启动我的集群,如下所示,这里最后帖一遍部署以后集群关了,重新开启集群的步骤,不能按照部署集群的时候进行格式化一…

一脸懵逼学习Zookeeper（动物园管理员）---》高度可靠的分布式协调服务

1:Zookeeper是一个分布式协调服务:就是为用户的分布式应用程序提供协调服务 A.zookeeper是为别的分布式程序服务的 B.Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,Zookeeper就能正常服务) C.Zookeeper所提供的服务涵盖:主从协调.服务器节点动态上下线.统一配置管理.分布式共享锁.统一名称服务…… D.虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个功能: 管理(存储,读取)用户程序提交的数据: 并为用户程序提供数据节点监…

一脸懵逼学习基于CentOs的Hadoop集群安装与配置

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构. Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据结点 ( DataNode )组成,每个结点均是一台普通的计算机.在使用上同我们熟悉的单机上的文件系统非常类似,一样可以建目录,创建,复制,删除文…

一脸懵逼学习Storm的搭建--（一个开源的分布式实时计算系统）

Storm的官方网址:http://storm.apache.org/index.html :集群部署的基本流程(基本套路): 集群部署的流程:下载安装包.解压安装包.修改配置文件.分发安装包.启动集群; 1:安装一个zookeeper集群,之前已经部署过,这里省略,贴一下步骤: 安装配置zooekeeper集群: 1.1:解压 tar -zxvf zookeeper-3.4.5.tar.gz 1.2:修改配置 cd /ho…

一脸懵逼学习Hive（数据仓库基础构架）

Hive是什么?其体系结构简介*Hive的安装与管理*HiveQL数据类型,表以及表的操作*HiveQL查询数据***Hive的Java客户端** Hive的自定义函数UDF* 1:什么是Hive(一): (1)Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询…

一脸懵逼学习基于CentOs的Hadoop集群安装与配置（三台机器跑集群）

1:Hadoop分布式计算平台是由Apache软件基金会开发的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构. 注意:HADOOP的核心组件有: 1)HDFS(分布式文件系统) 2)YARN(运算资源调度系统) 3)MAPREDUCE(分布式运算编程框架) Hadoop 中的分布式文件系统 HDFS 由一个管理结点 ( NameNode )和N个数据…

一脸懵逼学习MapReduce的原理和编程（Map局部处理，Reduce汇总）和MapReduce几种运行方式

1:MapReduce的概述: (1):MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. (2):MapReduce由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单. (3):这两个函数的形参是key.value对,表示函数的输入信息. 2:MapReduce执行步骤: (1): map任务处理 (a):读取输入文件内容,解析成key.value对.对输入文件的每一行,解析…

一脸懵逼学习keepalived（对Nginx进行热备）

1:Keepalived的官方网址:http://www.keepalived.org/ 2:Keepalived:可以实现高可靠: 高可靠的概念: HA(High Available), 高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点. 3:高可靠软件:keepalived: keepalive是一款可以实现高可靠的软件,通常部署在2台服务器上,分为一主一备.Keepalived可以对本机上的进程进行检测,一旦Master检测出某个进程出现问…

一脸懵逼学习Linux的Shell编程

1:什么是Shell??? (1)Shell是用户与内核进行交互操作的一种接口,目前最流行的Shell称为bash Shell(2)Shell也是一门编程语言<解释型的编程语言>,即shell脚本(3)一个系统可以存在多个shell,可以通过cat /etc/shells命令查看系统中安装的shell,不同的shell可能支持的命令语法是不相同的 2:Shell脚本的执行方式: (1)第一种:输入脚本的绝对路径或相对路径首先要赋予+x权限:[root@slaver7 test]# chmod…

一脸懵逼学习Hadoop-HA机制（以及HA机制的配置文件，测试）

1:能否让两个NameNode都正常影响客户端请求? 应该让两个NameNode节点在某个时间只能有一个节点正常影响客户端请求,相应请求的必须为Active状态的那一台. 2:standBy状态的节点必须能够快速无缝的切换为active状态: 意味着两个NameNode必须时刻保持元数据的一致: 3:HA机制,元数据共享存储,数据同步的问题: 分布式应用:管理edits(同步数据) qjoural:依赖zookeeper实现 4:如何避免状态切换时候发生brain split现象: fen…

一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现

1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toString(),hashCode(),equals()方法 package com.areapartition; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apach…

一脸懵逼学习Struts数据校验以及数据回显，模型驱动，防止表单重复提交的应用。

1:Struts2表单数据校验: (1)前台校验,也称之为客户端校验,主要是通过Javascript编程的方式进行数据的验证. (2)后台校验,也称之为服务器校验,这里指的是使用Struts2通过xml配置的方式进行表单数据的校验. (3)代码方式验证Action中所有的方法:代码方式验证Action中指定的方法:xml方式验证Action中所有的方法:xml方式验证Action中指定的方法: 2:代码方式验证Action中所有的方法(自己记得导jar包和我配置web.xml文件,自己脑补吧):…

【一脸懵逼学习Hdfs---动态增加节点和副本数量管理（Hdfs动态扩容）】的更多相关文章