Hadoop常用命令 启动HDFS集群 [hadoop@hadoop1 ~]$ start-dfs.sh Starting namenodes on [hadoop1] hadoop1: starting namenode, logging to /home/hadoop/apps/hadoop-/logs/hadoop-hadoop-namenode-hadoop1.out hadoop2: starting datanode, logging to /home/hadoop/apps/had…
一.集群检查常用命令 查询集群状态命令: curl -XGET "http://ip:port/_cluster/health?pretty" 查询Es全局状态: curl -XGET "http://ip:port/_cluster/stats?pretty" 查询集群设置 curl -XGET "http://ip:port/_cluster/settings?pretty" 查看集群文档总数 curl -XGET "http://…
集群概念 计算机集群是一种计算机系统,通过一组松散继承的计算机软件或硬件连接连接起来高度紧密地协作完成计算工作. 集群系统中的单个计算机通常称为节点,通过局域网连接. 集群特点: 1.效率高,通过多态计算机完成同一个工作. 2.高容错,两台或多台机内容.工作过程等完全一样,宕机一台其他机器继续工作. Hadoop集群部署 搭建步骤 1.跟伪分布模式环境相同 更改主机名 设置Hosts 关闭防火墙 安装jdk 设置环境变量 设置SSH密钥登陆 2.安装配置Hadoop namenode配置: 配置…
        服务器集群就是指将很多服务器集中起来一起进行同一种服务,在客户端看来就像是只有一个服务器.集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能正常运行. 集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能.可靠性.灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术.集群是一组相互独立的.通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理…
一.HDFS相关 1.启动NameNode sbin/hadoop-daemon.sh start namenode 2.启动DataNode sbin/hadoop-<span style="color:#ff0000;">daemon</span>.sh start datanode <code class="language-plain">3.启动多个DataNode</code> sbin/hadoop-<…
系列目录 我们把集群管理命令分为两个部分,第一部分介绍一些简单的,但是可能是非常常用的命令以及一些平时可能没有碰到的技巧.第二部分将综合前面介绍的工具通过示例来讲解一些更为复杂的命令. 列出集群中所有pod 使用kubectl get pods获取的一般是默认名称空间的信息(可以在配置文件中指定默认全称空间,如果没有指定则默认为default).如果想要获取获取非默认名称空间的pod,则需要指定-n(或者--namespace)参数.但是有些时候我们想要查看整个集群中所有名称空间的pod,则可以…
一.集群部署-查询集群状态 ①查询k8s master各组件健康状态: kubectl get componentstatus ②查询k8s node健康状态: kubectl get node 二.kubectl-管理工具 ①创建 kubectl run nginx --replicas=3 --labels="app=example" --image=nginx:1.10 --port=80 ②查看 kubectl get deploy kubectl get pods --sho…
目录 一.系统环境 二.前言 三.kubectl 3.1 kubectl语法 3.2 kubectl格式化输出 四.kubectl常用命令 五.查看kubernetes集群node节点和pod负载 5.1 安装metric-server 5.2 查看node负载 5.3 查看pod负载 六.命名空间namespace的管理 6.1 何为命名空间namespace 6.2 管理命名空间namespace 6.2 使用kubens管理命名空间namespace 一.系统环境 服务器版本 docker…
1.以admin身份登录yqtrack_gather01库: mongo 127.0.0.1:27017/yqtrack_gather01 -u username -p password --authenticationDatabase admin 2.以admin身份登录yqtrack_gather01库,并执行db命令: mongo 127.0.0.1:27017/yqtrack_gather01 -u username -p password --authenticationDatabas…
常用命令: ls:列出文件或目录 pwd:展示当前所在的目录 mkdir:创建目录 mkdir -p :创建连续的目录 cd:切换目录 vi:编辑内容,点i开始编辑,输入::wq保存 cat 显示文件内容 cp 复制文件或目录 mv 移动文件或目录,把b下的c移动到b那一级 rm 删除文件或目录, -f,确认,即不需要确认 echo 显示变量内容,类似于python里面的print grep 搜索文本文件,用于过滤内容,筛选 grep -v排除内容 find 目录 -name 文件名:查找文件…
一.高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所以它的实现也更加复杂,故下面先进行讲解: 1.1 高可用整体架构 HDFS 高可用架构如下: 图片引用自:https://www.edureka.co/blog/how-to-set-up-hadoop-cluster-with-hdfs-hig…
(实践机器:blog-bench) 本文用作博文<Hadoop学习之路>实践过程中遇到的问题记录. 本文所学习的博文为博主“扎心了,老铁” 博文记录.参考链接https://www.cnblogs.com/qingyunzong/category/1169344.html 问题一: <Hadoop学习之路(四)Hadoop集群搭建和简单应用>执行start-dfs.sh时,报错3个: 1. 报错现象: 原因:hadoop默认ssh采用的是22端口号,但是我们公司内部机器为了安全已修…
1.安装配置步骤 # wget http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.rpm # rpm -ivh jdk-8u91-linux-x64.rpm # wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.4/hadoop-2.6.4.tar.gz # tar -zxvf hadoop-2.6.4.tar.gz # mv…
阿里封神谈hadoop学习之路   封神 2016-04-14 16:03:51 浏览3283 评论3 发表于: 阿里云E-MapReduce >> 开源大数据周刊 hadoop 学生 spark 摘要: 在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop.hive.spark等.笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1.ODPS等项目,目前base在E-Mapreduce.在这,笔者尽可能梳理下hadoop的学习之路. 引言 当前,越来越多的同…
一般我们采用win开发+linux hadoop集群的方式进行开发,使用插件:hadoop-***-eclipse-plugin. 运行程序的时候,我们一般采用run as application或者选择run as hadoop.按照这个字面理解,我们可以认为第一种是运行在本地,第二种是运行在hadoop集群上.但是实际情况是一般如果不进行配置的话,全部是在本地进行运行的.如果需要将job提交到集群上,那么需要进行必要的设置和添加部分代码. 1.copy mapred-site.xml &&am…
阅读目录(Content) 一.Hadoop客户端配置 二.Java访问HDFS集群 2.1.HDFS的Java访问接口 2.2.Java访问HDFS主要编程步骤 2.3.使用FileSystem API读取数据文件 三.实战Java访问HDFS集群 3.1.环境介绍 3.2.查询HDFS集群文件系统的一个文件将它文件内容打印出来 3.3.我们在IEDA中执行来获取文件系统的内容并打印在控制台和相应的本地文件中 3.4.获取HDFS集群文件系统中的文件到本地文件系统 3.5.通过设置命令行参数变…
MapReduce是什么 首先让我们来重温一下 hadoop 的四大组件: HDFS:分布式存储系统 MapReduce:分布式计算系统 YARN:hadoop 的资源调度系统 Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用” 的核心框架 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布 式运算程序,并发运行在一个 Hadoo…
Hadoop及HBase集群部署 一. 集群环境 系统版本 虚拟机:内存 16G CPU 双核心 系统: CentOS-7 64位 系统下载地址: http://124.202.164.6/files/417500000AB646E7/mirrors.163.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso 软件版本 hadoop-2.8.1.tar.gz hbase-1.3.1-bin.tar.gz zookeeper-3.4.10.t…
文章目录 1.环境准备 1.1下载zooKeeper 1.3安装zooKeeper 1.4配置zooKeeper环境变量 1.5 修改zookeeper集群配置文件 1.6 创建myid文件 1.7 修改myid目录权限 2.复制zookeeper 3.修改node2和node3节点zookeeper的相关目录权限 4.修改node2和node3的myid文件内容 5.配置node2和node3的zookeeper环境变量 5.1 使得node2和node3的环境变量生效 6.启动zookeep…
目录 集群配置 集群部署规划 配置文件说明 配置集群 群起集群 1 配置workers 2 启动集群 总结 3 集群基本测试 上传文件到集群 查看数据真实存储路径 下载 执行wordcount程序 配置历史服务器 1 配置mapred-site.xml 2 分发mapred-site.xml 3 在hadoop102启动历史服务器 4 测试 配置日志的聚集 1 配置yarn-site.xml 2 分发yarn-site.xml 3 重启yarn对应的服务 4 测试 集群配置 现在各个服务器的准备…
Hadoop生态系统的特点 1)源代码开源 2)社区活跃,参与者多 3)涉及分布式存储和计算的各方面 4)已得到企业界的验证 Hadoop构成 1) 分布式文件系统HDFS(Hadoop Distributed File System) ------------提供了高可靠性.高扩展性和高吞吐率的数据存储服务 2)资源管理系统YARN(Yet Another Resource Negotiator) -----------负责集群资源的统一管理和调度 3)分布式计算框架(MapReduce) -…
Hadoop学习总结之五:Hadoop的运行痕迹   Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门 Hadoop学习总结之四:Map-Reduce的过程解析 在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运行机制比较复杂,因而出现了问题的时候比较难于发现问题. 本文欲通过某种方式跟踪Hadoop的运行痕迹,方便出现问题的时候可以通过这些痕迹来解决问题. 一.环境的搭建 为了能…
Redis详解(七)--集群 ​Redis3.0版本之前,可以通过Redis Sentinel(哨兵)来实现高可用 ( HA ),从3.0版本之后,官方推出了Redis Cluster,它的主要用途是实现数据分片(Data Sharding),不过同样可以实现HA,是官方当前推荐的方案. 在Redis Sentinel模式中,每个节点需要保存全量数据,冗余比较多,而在Redis Cluster模式中,每个分片只需要保存一部分的数据,对于内存数据库来说,还是要尽量的减少冗余.在数据量太大的情况下,…
Join nodes to a swarm添加节点到集群 当你第一次创建集群时,你将单个Docker引擎置于集群模式中.为了充分利用群体模式,可以在集群中添加节点: 添加工作节点可以增加容量.当你将服务部署到集群中时,引擎会在可用节点上调度任务,无论这些节点是工作节点还是管理节点.当你向你的群中添加工作者时,你就增加了群的规模来处理任务而不影响管理者的raft共识. 管理器节点增加了容错性.Manager节点为集群执行编配和集群管理功能.在manager节点中,单个leader节点执行编排任务.…
Linux学习之CentOS(二)--初识linux的一些常用命令 在VM上安装完了CentOS6.4以后,看着linux系统成功跑起来,心里小激动了一把......但是前方学习的道路还很遥远... 初次学习linux系统,首先也得会一些linux的基本命令. linux命令是对Linux系统进行管理的命令.对于Linux系统来说,无论是中央处理器.内存.磁盘驱动器.键盘.鼠标,还是用户等都是文件,Linux系统管理的命令是它正常运行的核心,与之前的DOS命令类似.linux命令在系统中有两种类…
NameNode 学习目标 理解 namenode 的工作机制尤其是元数据管理机制,以增强对 HDFS 工作原理的 理解,及培养 hadoop 集群运营中“性能调优”.“namenode”故障问题的分析解决能力 问题场景 1.Namenode 服务器的磁盘故障导致 namenode 宕机,如何挽救集群及数据? 2.Namenode 是否可以有多个?namenode 内存要配置多大?namenode 跟集群数据存储能 力有关系吗? 3.文件的 blocksize 究竟调大好还是调小好?结合 map…
分布式集群的通用问题 当前的HDFS和YARN都是一主多从的分布式架构,主从节点---管理者和工作者 问题:如果主节点或是管理者宕机了.会出现什么问题? 群龙无首,整个集群不可用.所以在一主多从的架构中都会有一个通用的问题: 当集群中的主节点宕机之后,整个集群不可用.这个现象叫做:单点故障.SPOF 单点故障讲述的概念有两点 1.如果说宕机的那个节点是从节点,那么整个集群能够继续运行,并且对外提供正常的服务. 2.如果说宕机的那个节点是主节点,那么整个集群就处于宕机状态. 通用的解决方案:高可用…
概念了解 主从结构:在一个集群中,会有部分节点充当主服务器的角色,其他服务器都是从服务器的角色,当前这种架构模式叫做主从结构. 主从结构分类: 1.一主多从 2.多主多从 Hadoop中的HDFS和YARN都是主从结构,主从结构中的主节点和从节点有多重概念方式: 1.主节点 从节点 2.master slave 3.管理者 工作者 4.leader follower Hadoop集群中各个角色的名称: 服务 主节点 从节点 HDFS NameNode DataNode YARN Resource…
一.集群规划 这里搭建一个3节点的Hadoop集群,其中三台主机均部署DataNode和NodeManager服务,但只有hadoop001上部署NameNode和ResourceManager服务. 二.前置条件 Hadoop的运行依赖JDK,需要预先安装.其安装步骤单独整理至: Linux下JDK的安装 三.配置免密登录 3.1 生成密匙 在每台主机上使用ssh-keygen命令生成公钥私钥对: ssh-keygen 3.2 免密登录 将hadoop001的公钥写到本机和远程机器的~/ .s…
一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的集群资源管理系统.用户可以将各种服务框架部署在YARN上,由YARN进行统一地管理和资源分配. 二.YARN架构 1. ResourceManager ResourceManager通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者.ResourceManager负责给用户提交的所有应用程序分配资源,它根据应用程序优…