步骤概览 1.打开所要挂载磁盘的虚拟机的设置(此时必须关机) 2.打开硬盘设置 3.添加设备 4.选择新硬盘 5.设置如下图 6.将虚拟机开机,输入 df-lh ,查看当前虚拟机磁盘 7.输入 fdisk -l 查看所挂载的磁盘 8.输入 fdisk /dev/sdb,开始格式化磁盘,并创建分区.写入分区 9.输入fdisk -l 再次查看系统挂载磁盘详情,可以看到/dev/sdb成功挂载 10.输入 mkfs -t ext4 -c /dev/sdb1 ,格式化分区 11. mkdir /dat…
百度网盘链接:链接: https://pan.baidu.com/s/1o8BAsrg 安装教程网上很多的,首先要下载一个window 10或其他版本的iso镜像文件,然后很好安装的.…
目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安装部署 安装环境准备 下载impala的所有依赖包 挂载磁盘 上传压缩包并解压 制作本地yum源 开始安装impala 所有节点配置impala impala的简单介绍 概述 有两个关于impala介绍的网址: https://docs.cloudera.com/documentation/ente…
目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue与Impala集成 Hue与Mysql集成 Hue与oozie集成 Hue的简单介绍 概述 CDH Hue官方帮助文档:http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0/user-guide/introducing.html Hue…
今天手贱把 VMware Fusion 虚拟机中的 Windows 10 搞挂了,原因是磁盘清理了下,然后重启就蓝屏了,Windows 10 自动修复.手动还原.手动重置系统,试过都不行,恢复系统是没办法了. 然后开始想恢复 Windows 10 系统中的文件,因为没有备份,所有的开发文件都在虚拟机中(以后不能这样干了,应该放在 Mac 中,然后用文件共享的方式,在虚拟机里面访问操作),虚拟机的所有文件都在 Mac 中,并且用 vmdk 文件格式存储,Windows 10 系统存储文件: 所以,…
目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包到libext目录 5.拷贝mysql的驱动包到libext目录下 6.上传ext-2.2.zip压缩包到libext目录下 7.修改oozie-site.xml 8.创建mysql数据库 9.上传oozie依赖的jar包到hdfs上面去 10.创建oozie的数据库表 11.打包项目,生成war包…
目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分析 关键路径转化率分析(漏斗模型) 级联求和 流量日志分析网站整体架构模块的整体步骤为下图 关于数据采集模块和数据预处理的开发在[Hadoop离线基础总结]网站流量日志数据分析系统末尾已经写了,想了解可以点击查看. 数据仓库设计 维度建模概述 维度建模 (dimensional modeling)…
目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--export codegen create-hive-table job merge 配合[Hadoop离线基础总结]Sqoop数据迁移一起阅读更佳 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导…
Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不必使用MapReduce计算.在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台.(原则就是能不用MapReduce就不用MapReduce) 比如以下这几种情况: SELECT * FROM score; SELECT s_score FROM s…
一.背景 本文简单记录一下,在mac arm 架构下使用 Vmware Fusion虚拟机下Centos7下如何配置静态ip地址.如果使用dhcp静态ip地址的动态分配,那么可能ip地址会发生变化,因此需要使用静态ip地址. 二.实现功能 虚拟机内部使用静态ip地址. 虚拟机可以访问到外部网络. 三.实现步骤 1.设置虚拟机的网络为nat 2.修改虚拟机的网络适配器网络 3.配置静态ip 配置静态ip我们知道一般需要配置如下3个参数. ip地址:IPADDR.子网掩码:NETMASK和网关:GA…
1.准备好安装用的东西(准备好正确的东西,安装路上就成功了一半)(1)VMware Fusion 附带注册机生成注册码,链接: https://pan.baidu.com/s/13Qm9zPOFjFtcrccspNzKWg 提取码: iiaz (2)Windows7 64位 iOS文件,文件名cn_windows_7_ultimate_with_sp1_x64_dvd_u_677408.iso,链接: https://pan.baidu.com/s/1gz30bQUHLVxMD1vT1iyjsA…
题记:这几天在做SDN方面研究,需要装mininet,https://github.com/mininet/mininet/wiki/Introduction-to-Mininet,按照这个教程装好,由于镜像是OVF格式的,不能装在我之前的虚拟机Parallerls上,只能先用的MAC版virulbox虚拟机,实在不好用,桌面分辨率和shi一样,不能复制黏贴.....总之用不习惯,果断删了重来,换成VMWare,淘宝买了一个序列号,装好以后发现好一点,不过也不能在MAC和虚拟机之间复制黏贴,查阅…
有了Mac机,还是需在Mac上用Windows怎么办?, VMware Fusion 是运行在Mac机上的虚拟机软件, 类似于VMware workstation. 这样就可以在Mac上运行Windows 系统, 实现了Windows 和 Mac OS X平台的完美结合. 用Mac机的人,肯定会希望Mac机上也运行Windows系统. 因为很多软件只有Windows上有,而Mac没有. 特别是在国内,大家都习惯了Windows.大部分的网银, 游戏只有Windows上有, 有了Fusion, 用…
一.创建虚拟机(准备工作) 1.使用VMWare Fusion 创建第一台虚拟机 2.选择操作系统(本次使用的是使用cent os 6.5 64bit 系统) 3.选择磁盘大小(楼主mac上的磁盘大小很是金贵的256GB,选择推荐的20GB) (3)更改在VMWare中虚拟机的名称和安装位置 (4)选择CD/DVD去指定我们的镜像位置 (5)选择完毕 2.安装Cent OS 6.5 (1)配置此虚拟机的名称 此处选择自定义方案 (1)配置boot分区用以引导系统启动 (2)配置swap分区用于保…
1.下载VMware fusion 11 https://www.vmware.com/cn/products/fusion/fusion-evaluation.html 2.安装后启用输入注册码 VMware Fusion 11序列号7HYY8-Z8WWY-F1MAN-ECKNY-LUXYX…
前言: 高高兴兴的在vmware9.0中安装了mac10.8系统,然后学习iphone开发,但是发现下载的pdf都是基于xcode3.2.5的,又在10.8上面安装3.2.5,出现“五国”无法解决,最终放弃了10.8的系统,转向了10.7,终于把xcode3.2.5装上了,并装上了xcode4.2. 很高兴,但是问题又来了,两个软件装上后,在windows中我看到的我的虚拟机硬盘:Mac OS X 10.7 64-bit.vmdk大小已经从10多个G变为35G了,这个也没什么奇怪,因为xcode…
前言: 虚拟机里一般我们用的虚拟磁盘,在电脑上是一个或多个文件,随着软件和数据的增多,有时也会提示磁盘空间不足. 那么,虚拟机磁盘空间不足如何处理呢?   一:调整磁盘分区大小; 若只是提示相应磁盘分区空间不足,而其它磁盘分区还有足够的磁盘空间,如系统盘空间不足: 我们可以通过调整分区大小来解决: 建议下载安装DiskGenius调整磁盘分区大小: 参阅百度经验:磁盘空间不足怎么办:调整磁盘分区 END 二:扩大虚拟磁盘容量: 1 如何扩大虚拟磁盘容量? 首先,要打开相应虚拟机: 单击“虚拟机”…
目录 点击流数据模型 概述 点击流模型 网站流量分析 网站流量模型分析 网站流量来源 网站流量多维度细分 网站内容及导航分析 网站转化及漏斗分析 流量常见分析角度和指标分类 指标概述 指标分类 分析角度 流量日志分析网站整体架构模块 步骤 模块开发之数据采集 模块开发之数据预处理 点击流模型PageViews表 点击流模型visit信息表 点击流数据模型 概述 点击流(Click Stream)是指用户在网站上持续访问的轨迹.点击流数据(Click Stream Data)代表了用户浏览网站的整…
linux基础增强 查找命令 grep命令  (print lines matching a pattern) 概述: grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来 格式: grep [option] pattern [file] 使用实例: ps -ef | grep sshd ->查找指定ssh服务进程 ps - report a snapshot of the current processes. 显示当前进程 -ef To see every p…
MapReduce增强(下) MapTask运行机制详解以及MapTask的并行度 MapTask运行流程 第一步:读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法,对输入目录中的文件(输入目录也就是TextInputFormat的Path)进行逻辑切片得到splits.     ps. getSplits方法属于FileInputFormat,该方法返回的就是一个文件有多少个切片,一个切片对应一个maptask的任务.        切片大小…
MapReduce增强 MapReduce的分区与reduceTask的数量 概述 MapReduce当中的分区:物以类聚,人以群分.相同key的数据,去往同一个reduce. ReduceTask的数量默认为一个,可以自己设定数量  job.setNumRudeceTasks(3) 分区决定了我们的数据该去往哪一个ReduceTask里面去 用代码实现 注意:分区的案例,只能打成jar包发布到集群上面去运行,本地模式已经不能正常运行了 定义一个map类 package cn.itcast.mr…
目录 简单介绍 Hadoop HA 概述 集群搭建规划 集群搭建 第一步:停止服务 第二步:启动所有节点的ZooKeeper 第三步:更改配置文件 第四步:启动服务 简单介绍 Hadoop HA 概述 HA(High Available) -- 高可用,是保证业务连续性的有效解决方案.一般有两个或两个以上的节点,分为活动节点(Active)及备用节点(Standby).通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点.当活动节点出现问题,导致正在运行的业务(任务)不能正…
Hive的安装部署以及使用方式 安装部署 Derby版hive直接使用 cd /export/softwares 将上传的hive软件包解压:tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ cd /export/servers/hive-1.1.0-cdh5.14.0/ 启动:bin/hive 缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库.表就不统一: 使用mysql共享hive元数据 1.国内下载mysq…
MapReduce案例之自定义groupingComparator 求取Top 1的数据 需求 求出每一个订单中成交金额最大的一笔交易 订单id 商品id 成交金额 Order_0000005 Pdt_01 222.8 Order_0000005 Pdt_05 25.8 Order_0000002 Pdt_03 322.8 Order_0000002 Pdt_04 522.4 Order_0000002 Pdt_05 822.4 Order_0000003 Pdt_01 222.8 代码实现 自…
MapReduce自定义InputFormat和OutputFormat案例 自定义InputFormat 合并小文件 需求 无论hdfs还是mapreduce,存放小文件会占用元数据信息,白白浪费内存,实践中,又难免面临处理大量小文件的场景 优化小文件的三种方式 1.在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS 2.在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并 3.在mapreduce处理时,可采用combineInputFormat提高效率 用代码…
MapReduce倒排索引建立 求某些单词在文章中出现多少次 有三个文档的内容,求hello,tom,jerry三个单词在其中各出现多少次 hello tom hello jerry hello tom hello jerry hello jerry tom jerry hello jerry hello tom java代码实现 定义一个Mapper类 package cn.itcast.demo2; import org.apache.hadoop.io.IntWritable; impor…
MapReduce 社交粉丝数据分析 求出哪些人两两之间有共同好友,及他俩的共同好友都有谁? 用户及好友数据 A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J java代码 需要两步完成需求 首先先创建第一步的package 在package中定义main.Mapp…
MapReduce入门 Mapreduce思想 概述 MapReduce的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景). 最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样. 最主要有两个阶段:一个map阶段,负责拆分:一个是reduce阶段,负责聚合. 思想模型 一个文件切块(Split)对应一个mapTask mapreduce没有block的概念,默认一个切块(Split)对应block块的大小(128M)…
HDFS的API操作 创建maven工程并导入jar包 注意 由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载. 要用CDH的jar包,要先添加一个repository:https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh…
1 桥接模式网络连接:选择以太网 2 在虚拟机操作系统里设置好ip,手动设置,将虚拟机当成一台存在的物理机设置 3 在宿主MAC偏好设置-网络-以太网-高级-硬件, 配置:自动改为 手工, 速度:选择100BaseTX 默认的百兆网 双工:半双工 流控制 MTU:标准(1500) 4 打开terminal ,运行合令 sudo ifconfig en0 down再sudo ifconfig en0 up ,也就是相当于windows里禁用启用网卡…