哎,怎么感觉自己变得懒了起来,更新博客的频率变得慢了起来,可能是因为最近得知识开始变得杂变得难了起来,之前在上课的时候,也没有好好听这一方面的知识,所以,现在可以说是在学的新的知识,要先去把新的知识思路屡了一遍,自己实现了代码,把整个过程以及规则搞懂了,我才会来总结博客. 说个有关这节知识的相关内容, 在学习网络编程之前,我们一定要先把I/O输入输出流给先学了,为什么这么说呢?仔细想想,我们学习网络编程,说到底还是数据之间的传输,文字,图片,音乐,视频等等也好,它们有的传输以及接收的方式不同,如…
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房屋就算盖起来,风一吹就倒. 好了,废话不多说,进入正题:在学习I/O流之前,我们先掌握什么是异常和File 1.先看看异常的分类: 图1 异常的分类 从上图我们不难看出来,异常主要分为三大类:Error    Exception    RuntimeException 有朋友就要问了,上来就给我搞这…
经过我个人的调查,发现,在今后的大数据道路上,集合.线程.网络编程变得尤为重要,为什么? 因为大数据大数据,我们必然要对数据进行处理,而这些数据往往是以集合形式存放,掌握对集合的操作非常重要. 在学习集合前,我们先看对象数组: 这是对象数组在创建到赋值到遍历的过程,其中我们遇到了一个数组的硬性问题:数组的大小是不可变的,而且数据类型也是不可变的,那么如果我们要插入一个新的元素该怎么办?很显然数组已经满足不了我们的需求. 此时我们将接触一个新的内容,集合. 集合 一.数组和集合的比较 数组不是面向…
hadoop 的计算特点:将计算任务向数据靠拢,而不是将数据向计算靠拢. 特点:数据本地化,减少网络io. 首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征.      通常输入的数据首先将会分片split,每个分片上构建一个map任务,由该任务执行执行用户自定义的map函数,从而处理分片中的每条记录.      那么切片的大小一般是趋向一个HDFS的block块的大小.为什么最佳的分片大小是趋向HDFS块的大小呢?是因为这样能够确保单节点上最大输入块…
引言: 大数据不是海市蜃楼,万丈高楼平地起只是意淫,大数据发展还要从点滴做起,基于大数据构建国家级.行业级数据中心的项目会越来越多,大数据只是技术,而非解决方案,同样面临数据组织模式,数据逻辑模式的问题.它山之石可以攻玉,本文就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进行介绍,旨在抛砖引玉,希望能够给大家以启迪.参与交流请加群: 一.概述 (1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求而定义的数据仓库模型解决方案,它是指导数据仓库进行数据存放.数据组织.以…
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文:  The NoSQL Ecosystem 目录 The NoSQL Ecosystem... 1 13.1. What's in a Name?. 5 13.1.1. SQL and the Relational Model 6 13.1.2. NoSQL Inspirations. 8 13.1.3. Characteristics and Considerations…
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,几张是红桃,然后把这两组数目汇报给你 3.你把所有玩家告诉你的两组数字分别加起来,得到最后的结论 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个…
Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况下如何构建一个解决方案? 在大数据领域提出了两个概念 (1)分布式文件系统   用于存储大量的数据 (2)分布式计算框架MapReduce高效的分析数据 以上的两个概念组成一个名词 Hadoop 二.Hadoop的起源 谷歌发布了三篇论文 : GFS 分布式存储系统  ,  MapReduce  分…
好了,从今天开始就开始正式的进入大数据道路的轨道上了,当然了,Java 也是需要不断地在日后进行反复地学习,熟练掌握.(这里我要说一下,Java种还有一些I/O流.Lambda表达式和一些常用工具类有关的博客没有更新.在后面的学习中,我会抽空进行补充.) 在此之前,希望每个学习大数据的童鞋们,电脑的内存一定要在8G以上!!!!! 废话不多说,上干货!! 一.VMware的下载与安装 我这里安装的是Vmware14 根据经验,会有一小部分人的电脑可能会装不上14的版本,这里我给出(Vmware15…
1. CentOS6.5mini安装 文件>>新建虚拟机 选择自定义,下一步 默认,下一步 选择稍后安装操作系统,下一步 选择CentOS版本,下一步 给虚拟机命名,这个是在VMWare中显示的名称,下一步 处理器配置,默认,下一步 根据电脑配置选择虚拟内存,不能小于1024M,下一步 网络类型选择NAT,下一步 I/O类型和磁盘类型,默认,下一步 磁盘大小,默认20G,一般情况下20G用不完,但是大数据可能会有大文件导入,所以我们选择100G.100G比我们当前所在的D盘都大,但是没关系,它…