自己安装服务器还是麻烦了些,现在一般都推荐大家使用云服务器,比较方便,价格也不贵. 腾讯云 以下几款性价比非常高,有几款是需要抢购的,大家看好时间基本能拿到. 1.1核2G 99/年,可以用来学习,Linux 知识对技术人员的成才非常重要. 2.2核4G 488/年. 每个时间点都有不同的配置跟价格,具体信息 另外企业用户还有更高配置的,价格也很实惠: 阿里云 具体信息,可以点击下面的图片. 注意:阿里云突发性能型的服务器真的只能自己学习用,如果要用对外提供服务要慎重选择,因为它性能瓶颈限制很大…
Linux 的安装,安装步骤比较繁琐,现在其实云服务器挺普遍的,价格也便宜,如果直接不想搭建,也可以直接买一台学习用用,参考各大云服务器比较:https://www.runoob.com/linux/linux-cloud-server.html centos6.4 为例. centos 下载地址: 可以去官网下载最新版本:https://www.centos.org/download/ 以下针对各个版本的ISO镜像文件,进行一一说明: CentOS-7.0-x86_64-DVD-1503-01…
实验目的 熟悉hive和hbase的操作 熟悉hadoop.hbase.hive.zookeeper的关系 熟练大数据环境的搭建 学会分析日志排除问题 实验原理 1.hive整合hbase原理 前面大家已经了解了Hive和Hbase,Hive是一个mapreduce的客户端,把sql语句转化为mapreduce程序执行,同时提供了数据仓库技术.Hbase是一个非关系型数据库,数据存储的时候面向列,方便横向扩展,但是不方便进行关系查询和二级索引.有时候为了方便操作,需要用hive操作hbase进行…
Matplotlib 是 Python 的绘图库. 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案. 它也可以和图形工具包一起使用,如 PyQt 和 wxPython. Windows 系统安装 Matplotlib 进入到 cmd 窗口下,执行以下命令: python -m pip install -U pip setuptools python -m pip install matplotlib Linux 系统安装 Matplotlib 可以使用 Linux 包…
实验目的 熟悉hadoop生态系统 初步了解大数据点击流分析业务 学会使用hadoop进行数据分析统计 实验原理 hadoop主要有三部分,hdfs做数据存储.mapreduce做数据计算.yarn做资源调度.在企业生产环境下,对数据做统计需要结合hadoop三个部分综合运用,中间还要使用kafka.storm.hive.hbase.flume.sqoop.mahout等其它工具.架构一般都会很复杂,接下来几个实验我们主要是针对mapreduce的运用,熟悉企业数据处理的一般步骤. 1.数据ET…
实验目的 熟悉hbase表格设计的方法 熟悉hbase的javaAPI 通过API理解掌握hbase的数据的逻辑视图 了解MVC的服务端设计方式 实验原理 上次我们已经初步设计了学生选课案例的,具体功能还不完善,但是实现方式都是在已经设计好的表格之上,调用hbase已有的API,本次我们将会实现一个稍微复杂的业务逻辑,类似新浪微博的项目.实际上新浪微博是一个特别庞大的系统,光内存数据库Redis就有几千台集群,每天的访问量和流量几乎是全国最高的网站,这样一个复杂的集群架构也特别复杂,我们只是实现…
实验目的 复习hbase的shell操作和javaAPI操作 了解javaWeb项目的MVC设计 学会dao(数据库访问对象)和service层的代码编写规范 学会设计hbase表格 实验原理 前面我们已经了解hbase的shell操作.javaAPI操作,并且能够使用hive操作hbase表格(实际上是转化为mapreduce操作),本次实验我们就是利用hbase实现一个简单的学生选课案例.实现学生选课首先是要学会设计表格,然后根据设计的表格进行各种逻辑实现. 1.设计表格 hbase表格设计…
实验目的 进一步了解hbase的操作 熟悉使用IDEA进行java开发 熟悉hbase的javaAPI 实验原理 前面已经了解通过hbase的shell操作hbase,确实比较难以使用,另外通过hive也可以操作hbase,今天我们学习通过javaAPI操作hbase. 1.创建连接 我们以前在hbase简介的时候讲过,客户端操作hbase,实际上不需要和master打交道,因为寻址地址都保存在zookeeper里面,所以只需要知道zookeeper的地址就可以了.hbase创建连接的API为:…
HRegion 当表的大小超过设置值的时候,HBase会自动地将表划分为不同的区域,每个区域包含所有行的一个子集.对用户来说,每个表是一堆数据的集合,靠主键来区分.从物理上来说,一张表被拆分成了多块,每一块就是一个HRegion.我们用表名+开始/结束主键来区分每一个HRegion,一个HRegion会保存一个表里某段连续的数据,从开始主键到结束主键,一张完整的表是保存在多个HRegion上面的. HMaster 管理HRegionServer,实现其负载均衡. 管理和分配HRegion,比如在…
实验目的 了解hive DDL的基本格式 了解hive和hdfs的关系 学习hive在hdfs中的保存方式 学习一些典型常用的hiveDDL 实验原理 有关hive的安装和原理我们已经了解,这次实验我们通过使用hive进行简单的测试进一步了解hive.hive DDL的意思是Hive Data Definition Language,hive数据定义语言,操作和关系型数据库的DDL类似,但是也有很多新功能.我们学习的方式就是通过打开官方网站的文档,进行操作. 1.电脑语言 数据库模式定义语言并非…