前言 本文主要介绍Hive 的基础概念,以及Handoop的大体架构,组件依赖,对于大数据有个总体的认识 Hive 基础概念 官网:https://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be…
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别 实际上,Hive是构建在hadoop HDFS上的一个数据仓库. 什么又是数据仓库? 而数据仓库是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理 面向主题,那么什么又是主题呢?主题就是指用户使用数据仓库决策时所关心的重点的方面,比如商品的推荐系统,那么这里我们所关心的主题就是商品的信息 数据仓库是个集成的数据库,也就…
查看企业公认的最新稳定版本:       https://archive.apache.org/dist/  Hive和HBase都很重要,当然啦,各自也有自己的替代品. 在公司里,SQL有局限,大部分时候,不需写mr程序的,用hive这个工具. 公司里的懂java开发员工不一定每个公司都有,但懂SQL开发员工很多. Hive的替代品:impala.spark shark.spark sql… Hive.impala .spark shark.spark sql l….相比,Hive是最慢的,因…
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是derby数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等 ○ HQL的执行过程 解释器.编译器.优化器完成HQL查询语句从词法分析.语法分析.编译.优化以及查询计划(Plan)的生成.生成的查询计划存储在HDFS中,并在随后有MapRed…
Sqoop与HDFS结合 下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出. Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示. 我们来分析一下 Sqoop 数据导入流程,首先用户输入一个 Sqoop import 命令,Sqoop 会从关系型数据库中获取元数据信息,比如要操作数据库表的 schema是什么样子,这个表有哪些字段,这些字段都是什么数据类型等.它获取这些信息之后,会将输入命令转化为基于 Map 的 MapReduce作…
大数据时代,一大技术特征是对海量数据采集.存储和分析的多组件解决方案.而其中对来自于传感器.APP的SDK和各类互联网应用的原生日志数据的采集存储则是基本中的基本.本系列文章将从0到1,概述一下搭建基于Kafka.Flume.Zookeeper.HDFS.Hive的海量数据分析系统的框架.核心应用和关键模块. 项目源代码存储于GitHub:源码 系统架构概述 本系列文章所介绍的数据分析系统,定位于一种通用的大数据分析系统,可用于电商.互联网和物联网的实际解决方案中.该应用主要解决从多种多样的互联…
Hive入门学习随笔(一) ===什么是Hive? 它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别. Hive跟传统方式是不一样的,Hive是建立在Hadoop HDFS基础之上的数据仓库基础框架.也就是说 --Hive这个数据仓库中的数据是保存在HDFS上. --Hive可以用ETL的方式来进行数据提取转化加载. --Hive定义了简单的类似SQL查询语言,称为HQL. --Hive允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理內建的…
数据.模型.IT系统认知 量化投资定义 量化投资主要是指通过数理模型来实现投资理念,由计算机产生交易策略的一种投资方法. 量化投资是一种方法论,而不是具体的交易策略. 通常与基本面.技术面分析相结合. 并以定量方法进行投资的各种技术综合 量化投资的发展历程 初期1950 现代资产组合理论出现,金融投资开始部分转变为数学问题. 发展1980 量化主动管理方法出现,开始依靠量化方法进行投资. 黄金期2000 市场几乎有量化投资接管,并出现Q-quant 风云突变2008 量化史上最大的滑铁卢,随后开…
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1) 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上手)…
其他章节请看: 前端学习 node 快速入门 系列 报名系统 - [express] 最简单的报名系统: 只有两个页面 人员信息列表页:展示已报名的人员信息列表.里面有一个报名按钮,点击按钮则会跳转到报名页 报名页:用于报名.里面是一个表单,可以输入姓名和年龄,点击保存,成功后会跳转到人员信息列表页 本文主要分 3 部分: 使用 node 实现这个项目 介绍 express 相关知识 使用 express 重写这个项目 Tip: 有将本文分成两篇的打算,因为篇幅有点长:但最后还是决定写在一起,因…