十八、Hadoop学记笔记————Hbase架构

Hbase结构图: Client,Zookeeper,Hmaster和HRegionServer相互交互协调,各个组件作用如下: 这几个组件在实际使用过程中操作如下所示: Region定位,先读取zookeeper中的文件,得到root表信息,然后得到meta表的信息,从而操作用户表,0.98之后hbase直接存储mate表, 后面详解一下Hbase的数据存储: 数据进入Hbase之后,先通过zookeeper找到对用的regionserver,如上述region server定位图所示,下图省…

十九、Hadoop学记笔记————Hbase和MapReduce

概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问Hbase的jar包: 参考官网可解决: 运行后解决: 导入数据运行指令: tsv是指以制表符为分隔符的文件先创建测试数据,创建user文件: 上传至hdfs,并且启动hbase shell: 创建表: 之后导入数据: 还有一些其他的方法,比如rowcounter统计行数: 接下来演示用sqoop…

二十、Hadoop学记笔记————Hive On Hbase

Hive架构图: 一般用户接口采用命令行操作, hive与hbase整合之后架构图: 使用场景场景一:通过insert语句,将文件或者table中的内容加入到hive中,由于hive和hbase已经整合,因此也会加入到hbase当中场景二:hbase不支持join或者gruop等,可以通过这种方式,让hbase支持sql语句等场景三,使用Hbase加载数据,然后用Hive查询数据,这样既有了Hbase的高速读写数据,也有了Hive的sql语句方便查询: 部署hive整合hbase环境: 先…

十七、Hadoop学记笔记————Hbase入门

简而言之,Hbase就是一个建立在Hdfs文件系统上的数据库(mysql,orecle等),不同的是Hbase是针对列的数据库 Hbase和普通的关系型数据库区别如下: Hbase有一些基本的术语,主键,列族,时间戳和存储单元: 一个行健有多个列族,每个列族下有不同的存储单元,可用看成类似键值对的方式,每一个版本都有一个时间戳, Hbase下载之后,tar命令解压(解压前需先部署hadoop环境和java环境,本例子中使用的hadoop也是伪分布式) 之后找到hbase-env.sh文件,加上j…

二十四、Hadoop学记笔记————Spark的架构

master为主节点一个集群中可能运行多个application,因此也可能会有多个driver DAG Scheduler就是讲RDD Graph拆分成一个个stage 一个Task对应一个SparkEnv 客户端提交请求,然后master生成driver,生成对应的SparkContext,然后将任务拆分为多个RDD,对应上述流程用户自定义Spark程序并且提交后,生成Driver Program,然后生成多个Job,每个JOB根据RDD的宽依赖关系来生成多个stage,一个stage对…

二十五、Hadoop学记笔记————Hive复习与深入

Hive主要为了简化MapReduce流程,使非编程人员也能进行数据的梳理,即直接使用sql语句代替MapReduce程序 Hive建表的时候元数据(表明,字段信息等)存于关系型数据库中,数据存于HDFS中. 此元数据与HDFS中的元数据需要区分清楚,HDFS中元数据(文件名,文件长度等)存于Namenode中,数据存于Datanode中. 本次使用的是hive1.2.2版本下载完毕之后解压: 将default文件复制一份成site文件,然后打开site文件,清空其内容,然后配置如下参数: h…

二十二、Hadoop学记笔记————Kafka 基础实战：消费者和生产者实例

kafka的客户端也支持其他语言,这里主要介绍python和java的实现,这两门语言比较主流和热门图中有四个分区,每个图形对应一个consumer,任意一对一即可获取topic的分区数,每个分区创建一个进程消费分区中的数据. 每个进程的实例中,先要创建连接kafka的实例,然后指定连接到哪个topic(主图),哪个分区之后要设置kafka的偏移量,kafka中每条消息都有偏移量,如果消费者突然宕机了,则可以从上个偏移量继续消费提交偏移量的工作客户端都会默认操作,因此提交偏移量可选后续…

二十三、Hadoop学记笔记————Spark简介与计算模型

spark优势在于基于内存计算,速度很快,计算的中间结果也缓存在内存,同时spark也支持streaming流运算和sql运算 Mesos是资源管理框架,作为资源管理和任务调度,类似Hadoop中的Yran Tachyon是分布式内存文件系统 Spark是核心计算引擎,能够将数据并行大规模计算 Spark Streaming是流式计算引擎,将每个数据切分成小块采用spark运算范式进行运算 Spark SQL是Spark的SQL ON Hadoop,能够用sql来对数据进行查询等功能 Graph…

二十一、Hadoop学记笔记————kafka的初识

这些场景的共同点就是数据由上层框架产生,需要由下层框架计算,其中间层就需要有一个消息队列传输系统 Apache flume系统,用于日志收集 Apache storm系统,用于实时数据处理 Spark系统,用于内存数据处理 elasticsearch系统,用于全文检索 broker中每个partition都会有备份,可自行设置,前端程序和读取数据的程序都可以是自己写的程序或者是各类框架,例如hadoop,flume 搭建集群: kafka的包需要事先下载好,zookeeper环境搭建之前已经做过…

项目十八-Hadoop+Hbase分布式集群架构“完全篇”

本文收录在Linux运维企业架构实战系列前言:本篇博客是博主踩过无数坑,反复查阅资料,一步步搭建,操作完成后整理的个人心得,分享给大家~~~ 1.认识Hadoop和Hbase 1.1 hadoop简单介绍 Hadoop是一个使用java编写的Apache开放源代码框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.Hadoop框架工作的应用程序可以在跨计算机群集提供分布式存储和计算的环境中工作.Hadoop旨在从单一服务器扩展到数千台机器,每台机器都提供本地计算和存储. 1.…

学记笔记 $\times$ 巩固 · 期望泛做$Junior$

最近泛做了期望的相关题目,大概$Luogu$上提供的比较简单的题都做了吧$233$ 好吧其实是好几天之前做的了,不过因为太颓废一直没有整理-- $Task1$ 期望的定义在概率论和统计学中,数学期望($mean$)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一.它反映随机变量平均取值的大小. 需要注意的是,期望值并不一定等同于常识中的"期望"--"期望值"也许与每一个结果都不相等.期望值是该变量输出值的平均…

燕十八MySQL优化学习笔记

观察 show status; 里面的这三个参数;Queries Threads_connected Threads_running判断周期性变化 ------------------------------------------------------------mysql -uroot -e 'show processlist'1.show processlist 获取sql语句 2.show profiles 检查sql语句set profiling=1; 开启关闭 Query Prof…

HTML学记笔记

<!DOCTYPE html><html lang="zh-CN"><head> <meta charset="UTF-8"> <title>显示在网页头上</title></head><body>任何标签都有三个属性<br>1.id<br>2.style<br>3.class 样式<br><h1>1.h标签标题…

二十八、软设笔记【数据库】-分布式数据库、特点、数据存储、DBMS组成

分布式数据库一.分布式数据库分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统.每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用. 二.分布式数据库系统的特点 1.数据独立性 2.集中与自治相结合的控制结构 3.适当增加数据冗余度 4.全局的一致性.可串行性和可恢复性三.分布式数据存储分布式数据存储可以从数据分配和数据分片两…

python 学记笔记 SQLalchemy

数据库表是一个二维表,包含多行多列.把一个表的内容用Python的数据结构表示出来的话,可以用一个list表示多行,list的每一个元素是tuple,表示一行记录,比如,包含id和name的user表: [ ('1', 'Michael'), ('2', 'Bob'), ('3', 'Adam') ] Python的DB-API返回的数据结构就是像上面这样表示的. 但是用tuple表示一行很难看出表的结构.如果把一个tuple用class实例来表示,就可以更容易地看出表的结构来: class U…

php学记笔记之函数用途

echo '<pre>';//格式化输出字符 isset();//判断变量是否存在 array_key_exists('key',$arr);//判断数组下标是否存在 in_array('val',$arr);//检查值是否存在数组数组游标 $arr=array('a','b''c'); echo current($arr); //获取当前的游标 next($arr);//向下移动一位 echo current($arr); //获取当前的游标 prev($arr);//返加上一位 echo…

python学记笔记 2 异步IO

在IO编程中,我们知道CPU的速度远远快于磁盘,网络IO,在一个线程中,CPU执行速度的代码非常快,然而遇到IO操作就需要阻塞需要等待IO操作完成才能继续下一步的动作.这种情况叫做同步IO 在IO操作的过程中,当前线程被挂起,而其他需要CPU执行的代码就无法被当前线程执行. 因为一个IO阻塞了当前线程,导致后边的代码无法运行,我们必须使用多线程或者多进程来并发执行代码,为多个用户服务, 每个用户分配一个线程,如果遇到IO导致线程被挂起,其他用户的县城不受影响多线程和多进程模型确实解决了并发问…

前端学习(三十八）vue（笔记）

Angular+Vue+React Vue性能最好,Vue最轻=======================================================Angular 入门难,学习成本高Vue 简单=======================================================Vue 官网:http://vuejs.org/ 中文:http://cn.vuejs.org/ Vue.js的发展 1.x …

学习笔记：CentOS7学习之十八：Linux系统启动原理及故障排除

目录学习笔记:CentOS7学习之十八:Linux系统启动原理及故障排除 18.1 centos6系统启动过程及相关配置文件 18.1.1 centos6系统启动过程 18.1.2 centos6启动相关的配置文件 18.2 centos7系统启动过程及相关配置文件 18.2.1 centos7系统启动过程 18.2.2 Systemd运行原理-了解一下 18.2.3 管理系统服务 18.2.4 运行级别 18.2.5 运行级别的切换 18.2.6 grub2和grub区别-了解 18.3 实…

菜鸟玩云计算之十八：Hadoop 2.5.0 HA 集群安装第1章

菜鸟玩云计算之十八:Hadoop 2.5.0 HA 集群安装第1章 cheungmine, 2014-10-25 0 引言在生产环境上安装Hadoop高可用集群一直是一个需要极度耐心和体力的细致工作.尽管有很多文档教会大家怎么一步一步去完成这样的工作,但是百密也有一疏.现成的工具不是没有,但是对于我这个喜欢了解细节的人来说,用别人的东西,写的好还可以,写的不好,出了问题,查找错误难之又难.手工安装Hadoop集群需要对Linux有一定的使用经验.对于完全没有接触Linux的人来说,肯定是望而生…

Java框架spring 学习笔记（十八）：事务管理（xml配置文件管理）

在Java框架spring 学习笔记(十八):事务操作中,有一个问题: package cn.service; import cn.dao.OrderDao; public class OrderService { private OrderDao orderDao; public void setOrderDao(OrderDao orderDao) { this.orderDao = orderDao; } //调用dao的方法 //业务逻辑层,写转账业务 public void accou…

深度学习课程笔记（十八）Deep Reinforcement Learning - Part 1 (17/11/27) Lectured by Yun-Nung Chen @ NTU CSIE

深度学习课程笔记(十八)Deep Reinforcement Learning - Part 1 (17/11/27) Lectured by Yun-Nung Chen @ NTU CSIE 2018-08-11 13:42:23 This video can be found from: https://www.youtube.com/watch?v=yQdD_R_I6vc Slides: https://www.csie.ntu.edu.tw/~yvchen/f106-adl/doc/1…

python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置

python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www.jetbrains.com/pycharm/download/ PyCharm首页.文档和下载 - Python集成开发环境 - 开源中国社区http://www.oschina.net/p/pycharm=============================================修改…

了解Kubernetes主体架构（二十八）

前言 Kubernetes的教程一直在编写,目前已经初步完成了以下内容: 1)基础理论 2)使用Minikube部署本地Kubernetes集群 3)使用Kubeadm创建集群接下来还会逐步完善本教程,比如Helm.ELK.Windows Server容器等等. 目录 Kubernetes主体架构 1.1.主要核心组件 1.1.1. Master组件 1.1.2. 节点(Node)组件 1.1.3. 插件 1.2. 基本概念 1.2.1. 容器组(Pod) 1.2.2. 服务(Service)…

netty源码分析(十八)Netty底层架构系统总结与应用实践

一个EventLoopGroup当中会包含一个或多个EventLoop. 一个EventLoop在它的整个生命周期当中都只会与唯一一个Thread进行绑定. 所有由EventLoop所处理的各种I/O事件都将在它所关联的那个Thread上进行处理. 一个Channel在它的整个生命周期中只会注册在一个EventLoop上. 一个EventLoop在运行过程中,会被分配给一个或多个Channel. 同一个Channel提交的任务执行顺序和提交顺序是一样的(先进去的先出来,任务队列). 重要结论:在…