01 我们一起学大数据 大家好,今天分享的是大数据YRAN的核心知识点,老刘尽量用通俗易懂的话来讲述YARN知识点,争取做到大家看完后能够用口语化的形式将它们表达出来,做到真正的看完就会!(如果觉得老刘写的不错,给老刘点个赞) 02 YARN核心知识点 第1点:什么是YARN? YARN是Hadoop架构中的资源调度引擎模块,从这个模块名字就可以看出来,YARN是用来为应用提供资源管理和调度的. 类似于HDFS,YARN也是经典的主从架构.架构的内容放在第2点讲,如果面试介绍YARN的话,老刘建…
老刘目前为明年校招而努力,写文章主要是想用大白话把自己复习的大数据知识点详细解释出来,拒绝资料上的生搬硬套,做到有自己的理解! 01 HBase知识点(3) 第13点:HBase表的热点问题 什么是热点问题? 就是我们检索hbase的数据首先要通过rowkey来定位数据行,但是呢这里面就有一个问题,由于rowkey设计的问题,就会导致表的数据可能只分布在hbase集群中的一个或少数节点. 当大量客户端访问hbase集群这些数据时,就会造成少数RegionServer的读写请求过多,负载过大,而其…
前言:老刘目前为明年校招而努力,写文章主要是想用大白话把自己复习的大数据知识点详细解释出来,拒绝资料上的生搬硬套,做到有自己的理解! 01 HBase知识点 第6点:HRegionServer架构 为什么要了解HRegionServer的架构呢?因为HBase集群中数据的存储和HRegionServer有着非常大的关系,只有搞清楚了它的架构,才能理清楚数据存储的逻辑. 那就让老刘好好介绍下HRegionServer架构. StoreFile 在HRegionServer架构图中,StoreFil…
TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能.其中一些场景还用到了机器学习算法(聚类.线性回归等).为了更好地了解被测试的系统的性能,需要对TPCx-BB整个测试流程深入了解.本文详细分析了整个TPCx-BB测试工具的源码,希望能够对大家理解TPCx-BB有所帮助. 代码结构 主目录($BENCH_MARK_HOME)下有: bin conf data-generator engines tools…
01 我们一起学大数据 老刘继续分享出Hadoop中的HDFS模块的一些高级知识点,也算是对今天复习的HDFS内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点! 02 知识点 第10点:HDFS机制之心跳机制 根据这个图,咱们说说心跳机制工作原理,首先master启动的时候,会开一个ipc server在那里:接着slave启动后,会向master注册连接,每隔3秒钟向master发送一个心跳,携带状态信息:最后master就会通过这个心跳的返回值,向sla…
01 我们一起学大数据 老刘今天开始了大数据Hadoop知识点的复习,Hadoop包含三个模块,这次先分享出Hadoop中的HDFS模块的基础知识点,也算是对今天复习的内容进行一次总结,希望能够给想学大数据的同学一点帮助,也希望能够得到大佬们的批评和指点!(每个点都很重要,都不能忽视) 02 需谨记的知识点 第1点:Hadoop是什么? Hadoop,它是Apache开发的一个分布式系统基础架构,由三个模块组成:分布式存储的HDFS.分布式计算的MapReduce.资源调度引擎Yarn. 第2点…
将这段时间的一些基于大数据方案的BI知识点暂时做些规整,可能还存在较多问题,后续逐步完善修改. 数据模型: 1.星型模型和雪花模型,同样是将业务表拆分成事实表和纬度表:例如一个员工数据表,可以拆分为员工事实表和职位维度表.时间维度表等: 上面这个例子实时上不恰当,事实表更多的应该是记录一类事务,比如客户订单.操作记录等. 2.星型模型与雪花模型的区别在于,例如时间维度表,前者设计为年.月.日为一条记录,后者是年.月.日分别为三张表,再次用外键关联: 3.我们可以在维度表中添加额外信息诸如分类,比…
一.ping基本使用详解 在网络中ping是一个十分强大的TCP/IP工具.它的作用主要为: 1.用来检测网络的连通情况和分析网络速度 2.根据域名得到服务器IP 3.根据ping返回的TTL值来判断对方所使用的操作系统及数据包经过路由器数量. 我们通常会用它来直接ping ip地址,来测试网络的连通情况. 类如这种,直接ping ip地址或网关,ping通会显示出以上数据,有朋友可能会问,bytes=32:time<1ms:TTL=128 这些是什么意思. bytes值:数据包大小,也就是字节…
一.Flink 简介 Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere .2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目.2019 年 1 年,阿里巴巴收购了 Flink 的母公司 Data Artisans,并宣布开源内部的 Blink,Blink 是阿里巴巴基于 Flink 优化后的版本,增加了大量的新功能,并在性能和稳定性上进行了各种优化,经历过阿里内部多种复杂业…
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验.求职心得和成长感悟,以及作为程序员的思考和见解.(关注公众号后回复”资料“即可领取 3T 免费技术学习资源) ​       纯干货:Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解. 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS.MapReduce.…