目录 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导出到关系表--export codegen create-hive-table job merge 配合[Hadoop离线基础总结]Sqoop数据迁移一起阅读更佳 常用命令 常用公用参数 公用参数:数据库连接 公用参数:import 公用参数:export 公用参数:hive 常用命令&参数 从关系表导入--import 导…
目录 Hue的简单介绍 概述 核心功能 安装部署 下载Hue的压缩包并上传到linux解压 编译安装启动 启动Hue进程 hue与其他框架的集成 Hue与Hadoop集成 Hue与Hive集成 Hue与Impala集成 Hue与Mysql集成 Hue与oozie集成 Hue的简单介绍 概述 CDH Hue官方帮助文档:http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.0/user-guide/introducing.html Hue…
sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统. 导出数据:从Hadoop的文件系统中导出数据到关系数据库. 2 工作机制 将导入或导出命令翻译成mapreduce程序来实现. 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制. 3 sqoop 安装 安装sqoop的前提是已经…
目录 impala的简单介绍 概述 优点 缺点 impala和Hive的关系 impala如何和CDH一起工作 impala的架构及查询计划 impala/hive/spark 对比 impala的安装部署 安装环境准备 下载impala的所有依赖包 挂载磁盘 上传压缩包并解压 制作本地yum源 开始安装impala 所有节点配置impala impala的简单介绍 概述 有两个关于impala介绍的网址: https://docs.cloudera.com/documentation/ente…
目录 数据仓库设计 维度建模概述 维度建模的三种模式 本项目中数据仓库的设计 ETL开发 创建ODS层数据表 导入ODS层数据 生成ODS层明细宽表 统计分析开发 流量分析 受访分析 访客visit分析 关键路径转化率分析(漏斗模型) 级联求和 流量日志分析网站整体架构模块的整体步骤为下图 关于数据采集模块和数据预处理的开发在[Hadoop离线基础总结]网站流量日志数据分析系统末尾已经写了,想了解可以点击查看. 数据仓库设计 维度建模概述 维度建模 (dimensional modeling)…
Hive调优手段 最常用的调优手段 Fetch抓取 MapJoin 分区裁剪 列裁剪 控制map个数以及reduce个数 JVM重用 数据压缩 Fetch的抓取 出现原因 Hive中对某些情况的查询不必使用MapReduce计算.在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台.(原则就是能不用MapReduce就不用MapReduce) 比如以下这几种情况: SELECT * FROM score; SELECT s_score FROM s…
目录 简单介绍 概述 架构 安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包到libext目录 5.拷贝mysql的驱动包到libext目录下 6.上传ext-2.2.zip压缩包到libext目录下 7.修改oozie-site.xml 8.创建mysql数据库 9.上传oozie依赖的jar包到hdfs上面去 10.创建oozie的数据库表 11.打包项目,生成war包…
目录 Sqoop介绍 概述 版本 Sqoop安装及使用 Sqoop安装 Sqoop数据导入 导入关系表到Hive已有表中 导入关系表到Hive(自动创建Hive表) 将关系表子集导入到HDFS中 sql语句查找导入到HDFS 两种增量导入方式 Sqoop的数据导出 Sqoop介绍 概述 Sqoop是Apache开源提供过的一款Hadoop和关系数据库服务器之间传送数据的工具.从关系数据库到Hadoop的数据库存储系统(HDFS,HIVE,HBASE等)称为导入,从Hadoop的数据库存储系统到关…
1:sqoop的概述: (1):sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具.(2):导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统:(3):导出数据:从Hadoop的文件系统中导出数据到关系数据库 (4):工作机制: 将导入或导出命令翻译成mapreduce程序来实现: 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制: (5):Sqoop的原理: Sq…
3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统: 导出数据:从Hadoop的文件系统中导出数据到关系数据库 3.2 工作机制 将导入或导出命令翻译成mapreduce程序来实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 3.3 sqoop实战及原理 3.3.1 sqoop安装 安装sqo…