一.HDFS概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失[通过副本机制实现]. 分布式文件管理…
函数的重载 返回值不一样会报错 java中,如果自己定义了构造函数的话,它就不会给你默认一个无参函数 如果一个属性,只进行定义,不初始化,自动补0,如果是一个布尔属性,默认是false但是如果一个局部变量只定义不进行初始化,它就是个垃圾值,报错! Java把内存划分为4个部分 1. 代码区 1.栈区 3.堆区 4.静态区域1.栈区(stacksegment)—由编译器自动分配释放,存放函数的参数值,局部变量的值等,具体方法执行结束之后,系统自动释放JVM内存资源2.堆区(heapsegment)…
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…
HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS 上的文件. 创建 Maven工程,引入 pom依赖: <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</art…
大数据,微服务,分布式,Java,Python,Web前端,产品运营,交互 领取方式在篇尾!!! 基础篇.互联网架构,高级程序员必备视频,Linux系统.JVM.大型分布式电商项目实战视频......等等 最近闲着没事,整理了一下网盘,不知不觉也有了1.7G的学习资料,珍藏多年的资源分享给各位小伙伴们. 领取方式:扫描下方二维码,关注公众号,点击精选专题>领取资料,就能免费领取了!!! 里面会分享很多JAVA技术.新知识.新技术.面试宝典等,希望大家多多支持. 喜欢的小伙伴们可以搜索我们个人的微…
昨天我们看了有关大数据Hadoop的一些知识点,但是要在学习大数据之前,我们还是要为大数据的环境做一些的部署. 那么,今天我们就来讲讲开启我们大数据之路的Linux,跟上我们的脚步yo~ Linux介绍 Linux是我们当前各大系统中一种自由和开源的OS,虽然市面上有各种各样的版本,但是他们拥有同一个内核.我们在这个内核上面,自己添加一些程序后,就是我们之后称之的开发版本. 其中包括了两大阵营,它们分别是:Redhat系列和Debian系列.我们看到的红帽,centos就是第一个阵营的,而ubu…
大数据火了几年了,但是今年好像进入了全民大数据时代,本着对科学的钻(zhun)研(bei)精(tiao)神(cao),我在17年年初开始自学大数据,后经过系统全面学习,于这个月跳槽到现任公司. 现在已经从之前的java后端开发正式转大数据开发,项目数据50T,日均数据增长20G左右,大概是需求问题吧,工资待遇较上一份翻了一倍(这是重点). 当然,我的分享不是能让各位升职加薪跳槽,只是对于技术人来说,技多不压身,以下为个人经验分享,不喜勿喷. 以上为背景,下面我要开始我的表(ZHUANG)演(B)…
1.Java代码操作HDFS需要用到Jar包和Java类 Jar包: hadoop-common-2.6.0.jar和hadoop-hdfs-2.6.0.jar Java类: java.net.URLorg.apache.hadoop.fs.FsUrlStreamHandlerFactoryjava.net.URIorg.apache.hadoop.conf.Configurationorg.apache.hadoop.fs.FileSystemorg.apache.hadoop.fs.Path…
小结: 1.如果要浏览项目的历史更新摘要,Git 不用跑到外面的服务器上去取数据回来 2.注意 git clone  应指定版本,它复制的这个版本的全部历史信息: 各个分支  git init 数据库 master分支 git 数据库 "分布式 地位平等的 "  "git 区别与svn,没有 c/s 主从的概念""""c/s" 大家都往这个分支提交,这个分支就是"c/s"中的"s"? m…
(一)编程实现以下功能,并利用 Hadoop 提供的 Shell 命令完成相同任务: (1)     向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件: 开启Hadoop: 创建两个文件以供实验使用: 上传本地文件到hdfs系统的指令: hadoop fs -put text.txt 文件存在,追加到文件末尾的指令: hadoop fs -appendToFile local.txt text.txt 文件存在,覆盖文…