一. Meta Store 使用mysql客户端登录hadoop100的mysql,可以看到库中多了一个metastore 现在尤其要关注这三个表 DBS表,存储的是Hive的数据库 TBLS表,存储的是Hive中的表,使用DB_ID和DBS表关联 COLUMNS_V2存储的是每个表中的字段信息 Meta Store并不存储真实的数据,只是存储数据库的元数据信息,数据是存储在HDFS上的 二. HDFS 浏览器打开 http://hadoop100:50070/explorer.html#/ …
HDFS详解大纲 Hadoop HDFS 分布式文件系统DFS简介 HDFS的系统组成介绍 HDFS的组成部分详解 副本存放策略及路由规则 命令行接口 Java接口 客户端与HDFS的数据流讲解 目标: 掌握hdfs的shell操作 掌握hdfs的java api操作 理解hdfs的工作原理 ******HDFS基本概念篇****** 1. HDFS前言 l  设计思想 分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l  在大数据系统…
1:安装 由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的 >pip install hdfs 2:Client——创建集群连接 > from hdfs import * > client = Client("http://s100:50070") 其他参数说明: classhdfs.client.Client(url, root=None, proxy=None, timeout=None, sessi…
1.概述 提高网络性能优化,很重要的一点就是降低延迟和提升响应速度. 通常我们在浏览器中发起请求的时候header部分往往是这样的 keep-alive 就是浏览器和服务端之间保持长连接,这个连接是可以复用的.在HTTP1.1中是默认开启的. 连接的复用为什么会提高性能呢? 通常我们在发起http请求的时候首先要完成tcp的三次握手,然后传输数据,最后再释放连接.三次握手的过程可以参考这里 TCP三次握手详解及释放连接过程 一次响应的过程 在高并发的请求连接情况下或者同个客户端多次频繁的请求操作…
hive是大数据技术簇中进行数据仓库应用的基础组件,是其它类似数据仓库应用的对比基准.基础的数据操作我们可以通过脚本方式以hive-client进行处理.若需要开发应用程序,则需要使用hive的jdbc驱动进行连接.本文以hive wiki上示例为基础,详细讲解了如何使用jdbc连接hive数据库.hive wiki原文地址: https://cwiki.apache.org/confluence/display/Hive/HiveClient https://cwiki.apache.org/…
1. null值处理,子串,拼接,类型转换 (1) 空字段赋值(null值处理) 当表中的某个字段为null时,比如奖金,当你要统计一个人的总工资时,字段为null的值就无法处理,这个时候就可以使用NVL函数 NVL:给值为NULL的数据赋值,它的格式是NVL( string1, replace_with).它的功能是如果string1为NULL,则NVL函数返回replace_with的值,否则返回string1的值,如果两个参数都为NULL ,则返回NULL. 例: 创建dept表,并导入数…
从上一篇对Hive metastore表结构的简要分析中,我再根据数据设计的实体对象,再进行整个代码结构的总结.那么我们先打开metadata的目录,其目录结构: 可以看到,整个hivemeta的目录包含metastore(客户端与服务端调用逻辑).events(事件目录包含table生命周期中的检查.权限认证等listener实现).hooks(这里的hooks仅包含了jdo connection的相关接口).parser(对于表达树的解析).spec(partition的相关代理类).too…
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项?…
HTML下head中的http-equiv="X-UA-Compatible"详解: X-UA-Compatible是针对IE8新加的一个设置,对于IE8之外的浏览器是不识别的,这个区别与 content="IE=7"在无论页面是否包含<!DOCTYPE>指令,都像是使用了 Windows Internet Explorer 7的标准模式.而content="IE=EmulateIE7"模式遵循<!DOCTYPE>指令.对…
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容 问题导读: 1.hive输出格式的配置项是哪个? 2.hive被各种语言调用如何配置? 3.hive提交作业是在hive中还是hadoop中? 4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项? 5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项? 6.每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起1…
一.hive函数 1.内置运算符与内置函数 函数分类: 查看函数信息: DESC FUNCTION concat; 常用的分析函数之rank() row_number(),参考:https://www.cnblogs.com/wujin/p/6051768.html 常用20个内置函数: https://www.cnblogs.com/kimbo/p/6288516.html 常用函数:https://www.iteblog.com/archives/2258.html 完整参考官方手册:htt…
一.ACID介绍 ACID就是常见数据库事务的四大特性:Atomicity(原子性).Consistency(一致性).Isolation(隔离性).Durability(持久性). 在Hive 0.13之前,Hive支持分区级别上原子性.一致性.持久性,隔离性可以通过hive提供的锁机制来实现(通过zookeeper锁或者内存锁来锁住一个分区的数据).从Hive 0.13开始,Hive可以支持行级别上面的ACID语义了.因此我们可以在有其他程序读取一个分区数据时往这个分区插入新的数据. 二.使…
本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理.第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理. Hive Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据. Hive直接访问存储在 HDFS 中或者 HBase 中的文件,通过…
jdbc连接时报如下错误: Error connecting to database [k] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to connect to the database Error connecting to database: (using class org.apache.hive.jdbc.HiveDriver) Failed to open…
日志: Could not establish connection to jdbc:hive2://192.168.0.51:10000: Required field 'serverProtocolVersion' is unset! Struct:TOpenSessionResp(status:TStatus(statusCode:ERROR_STATUS, infoMessages:[*org.apache.hive.service.cli.HiveSQLException:Failed…
一.依赖 pom <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <jdk.version>1.8</jdk.version></properties> <dependencies> <dependency> <groupId>org.apache.hive</groupId>…
最近一段时间,处理过一个问题,那就是hive jdbc的连接问题,其实也不是大问题,就是url写的不对,导致无法连接.问题在于HiveServer2增加了别的安全验证,导致正常的情况下,传递的参数无法使用,hive连接返回用户为空的错误,具体错误不再详谈,今天就说说jdbc的url书写问题. 正常情况下的url: jdbc:hive2://node1:10000/default 这种情况下,都是默认的,没有权限限制.从这个示例而已看出,URL的基本格式为: jdbc:hive2://Host:P…
首先虚拟机上已经安装好hive. 下面是连接hive需要的操作. 一.配置. 1.查找虚拟机的ip 输入 ifconfig 2.配置文件 (1)配置hadoop目录下的core-site.xml和hdfs-site.xml 在core-site.xml中添加下面配置: <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> &…
一.概述 1.HDFS中的角色 Block数据: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,之前的版本中是64M 基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间:2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录:3)对数据块进行读写,减少建立网络的连接成本) 一个大文件会被拆分成…
1.HDFS的概念和特性 它是一个文件系统,其次是分布式的 重要特性: 1).HDFS中的文件在物理上是分块存储(block),新版默认128M 2).客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 3).目录结构及文件分块信息(元数据)的管理由namenode节点承担 4).文件的各个block的存储管理由datanode节点承担 5).HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改 (注:适合…
1. HDFS 介绍  • 什么是HDFS 首先,它是一个文件系统,用于存储文件,通过统一的命名空间--目录树来定位文件. 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色: • 设计思想 分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析:  • 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务.  • Hdfs整体架构如下 2. HDFS的特性 (…
在hive-0.8.0后引入了import/export命令. Export命令可以导出一张表或分区的数据和元数据信息到一个输出位置,并且导出数据可以被移动到另一个hadoop集群或hive实例,并且可以通过import命令导入数据. 当导出一个分区表,原始数据可能在hdfs的不同位置,export/import命令也支持导出分区表的不同子分区. 导出的元数据存储在目标目录,并且数据文件是存储在不同的子目录下. Export/import命令可以独立工作在使用存储元数据的rdbms中. 一.语法…
Meta http-equiv 语法标签格式:<meta http-equiv="参数" content="参数值"> 1."过期时间" 设定expires设定网页到期时间,一旦网页过期 ,必须到服务器重新传输(时间必须为GMT格式) <meta http-equiv="expires" content="Wed, 20 jun 2007 22;33:00 GMT "> 或者直接取值…
随着高端手机(Andriod,Iphone,Ipod,WinPhone等)的盛行,移动互联应用开发也越来越受到人们的重视,用html5开发移动应用是最好的选择.然而,每一款手机有不同的分辨率,不同屏幕大小,如何使我们开发出来的应用或页面大小能适合各种高端手机使用呢?学习html5 viewport的使用能帮你做到这一点…… viewport 语法介绍: 01 <!-- html document -->02 <meta name="viewport"03 conten…
本帖最后由 想吐就吐出来 于 2015-7-1 14:25 编辑 如果你一不小心买错了iOS软件,从App Store上下载了游戏或软件后悔了,那怎么办?可以退款吗?答案是可以的!苹果这点还是很人性化的,买了游戏或软件后,觉得划不来,可以进行退款,下面就教大家怎么退款.感觉很麻烦,但只有两步要做1.记录订单编号2.提交退款申请 注意:申请退款是有时间限制的,必须在购买了游戏或者应用后的90天内提出.苹果官网进行了改版,网上的大部分教程已经不适用了,特整理这篇帖子教大家怎么退款,希望本篇教程能帮助…
hive—UDF操作 udf的操作过程: 在HIVE会话中add 自定义函数的jar文件,然后创建function,继而使用函数. 下面就以下面课题为例: 课题:统计每个活动的PV和UV 一.Java通过正则表达式,截取标题名称. 以链接,截取标红的字符串. http://cms.yhd.com/sale/vtxqCLCzfto?tc=ad.0.0.17280-32881642.1&tp=1.1.36.9.1.LEffwdz-10-35RcM&ti=ZX8H 为例. 核心代码如下, imp…
Hadoop分布式文件系统即Hadoop Distributed FileSystem.        当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并存储到若干台单独的计算机上,管理网络中跨越多台计算机存储的文件系统成为分布式文件系统(Distributed FileSystem).    该系统架构与网络之上,势必引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂.例如:使文件系统能够容忍节点故障且不丢数据便是一个极大的挑战. …
Ext.data.Store的基本用法 在使用之前,首先要创建一个Ext.data.Store的实例,如下面的代码所示.       每个store最少需要两个组件的支持,分别是proxy和reader,proxy用于从某个途径读取原始数据,reader用于将原始数据转换成Record实例. 这里我们使用的是Ext.data.MemoryProxy和Ext.data.ArrayReader,将data数组中的数据转换成对应的几个PersonRecord实例,然后放入store中. store创建…
在开发reac单页面应用的时候,页面的展示逻辑跟数据状态的关系管理变得越来越复杂,redux很好的解决这个问题.废话不多说,直接先上官网api链接. http://cn.redux.js.org/index.html 官方文档跟你把概念性的东西讲解的很清楚的,怎么串联起来使用,就得多采坑才行.下面就是我踩的一个坑. react-redux非组件里面store.dispatch(action)页面不更新的问题.主要是关于store的: 在前面的章节中,我们学会了使用 action 来描述"发生了什…
meta标签的用处: 用来描述html文档的一个属性.列如作者.日期和时间,网页描述,关键字,页面刷新等. 是文档最基本的元数据 元数据(metadata): 用来概括描述数据的一些基本数据 meta 标签的使用:(name || http-equiv) 1,name (主要描述网页) 语法 <meta name=”参数” content=”具体的参数值”> (1)Keywords(关键字) 说明:Keywords 用来告诉搜索引擎你网页的关键字  举例:< meta name=&quo…