学习大数据是必须掌握一定Linux知识的,工欲善其事,必先利其器.在学习之前,首先需要搭建Linux系统,本节将讲解VMware Workstation的安装和CentOS 7系统的安装. 1.2.1 VMware Workstation安装 (1)在VMware 官网地址(https://www.vmware.com/cn.html)处下载虚拟机安装包(VMware-workstation-full-14.1.1.28517.exe),双击该安装包,进入安装向导界面,如图1.1所示. 图1.1…
引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用介绍.本文主要讲解如何搭建Hadoop+Hive的环境. 一.环境准备 1,服务器选择 本地虚拟机 操作系统:linux CentOS 7 Cpu:2核 内存:2G 硬盘:40G 说明:因为使用阿里云服务器每次都要重新配置,而且还要考虑网络传输问题,于是自己在本地便搭建了一个虚拟机,方便文件的传输以…
一.Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜索服务器,实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面. 推荐一个大数据学习群 142974151每天晚上20:10都有一节[免费的]大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享, 二.Hadoop HDFS: 分布式存储系统,包含NameNode,DataNode.NameNode:元数据,DataNode.Data…
引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合HBase,并且测试成功了.在之前的大数据学习系列之一 ----- Hadoop环境搭建(单机) : http://www.panchengming.com/2017/11/26/pancm55/ 中成功的搭建了Hadoop的环境,本文主要讲的是Hadoop+Spark 的环境.虽然搭建的是单机版,…
部署规划 HBase全称叫Hadoop Database,它的数据存储在HDFS上.我们的实验环境依然基于上个主题Hive的配置,参考大数据学习(11)-- Hive元数据服务模式搭建. 在此基础上,增加HBase的部署规划.我感觉这8G的内存马上要跑不动了. 主机 RegionServer Master server01  •   server02  •   server03  • • 安装HBase 把HBase解压到/usr目录下,版本是2.26. [root@server01 home]…
文章目录 一.Linux入门概述 1.1 概述 1.2 下载地址 1.3 Linux特点 1.4 Linux和Windows区别 二.VM安装相关 2.1 安装VMWare虚拟机 2.2 安装CentOS 2.3 安装VMTools工具 2.4 虚拟机屏幕保护设置 2.5 IVT虚拟化支持 三.Linux目录结构 3.1 概览 3.2 树状目录结构 四.VI/VIM编辑器 4.1 概述 4.2 测试数据准备 4.3 一般模式 4.4 编辑模式 4.5 指令模式 五.系统管理操作 5.1 查看网络…
一.hadoop视频学习(入门到精通) 二.数据挖掘(入门到精通) 三.Hadoop学习路线 1.开发前期准备 首先,如果你没有Java和Linux基础,建议你先简单学一下这两门课程,此宝贝里面都为你准备好了. 2.云计算前期了解 当你初步掌握了Java和Linux基础后,你就可以进入大数据的学习了,我们可以先对云计算有一个前期的了解,在前期了解云计算这个文件夹中,包含了6套云计算相关的视频,你不用全部听完,建议听前两个. 4.storm学习 本宝贝为大家准备3套Storm的学习视频,第一套是传…
大数据技术的学习,逐渐成为很多程序员的必修课,因为趋势也是因为自己的职业生涯.在各个技术社区分享交流成为很多人学习的方式,今天很荣幸给我们分享一些大数据基础知识,大家可以一起学习! 1.集群机器监控 这通常用于那种对集群中机器状态,机器在线率有较高要求的场景,能够快速对集群中机器变化作出响应.这样的场景中,往往有一个监控系统,实时检测集群机器是否存活.过去的做法通常是:监控系统通过某种手段(比如ping)定时检测每个机器,或者每个机器自己定时向监控系统汇报“我还活着”. 这种做法可行,但是存在两…
Java / 计算机基础知识整理 在进行知识梳理同时也是个人的第一篇技术博客之前,首先祝贺一下,经历了一年左右的学习,从完完全全的计算机小白,现在终于可以做一些产出了!可以说也是颇为感慨,个人认为,学习本身就应该是有方法论的,前人总结了不少比较好的学习方法(比如说费曼学习法,金字塔原理),我们在进行好方法借鉴的同时,也不要忘了让整个学习过程形成一个闭环,我认为,向他人教学,或是定期将已有的知识进行一些梳理,总结,就是闭环的一种,这种方式在向他人传授知识的同时,更是对自己已有知识体系的一次查漏补缺…
IDEA是一个优秀的Java IDE工具,它同样支持其他语言.Spark是用Scala语言编写的,用Scala开发Spark是最舒畅的.当然,Spark也提供Java和Python的API. Java是一门热度很高的开发语言,也是一个高龄语言.Java本身很牛逼,但它最牛逼的地方是--成就了JVM. 基于JVM的语言非常多,常用的除了Java还有Scala.Groovy.Kotlin.Clojure.能编译成字节码的语言,都能在JVM上运行. Scala Scala 是一门多范式(multi-p…