目录 行存储与列存储 行存储的特点 列存储的特点 常见的数据格式 TextFile SequenceFile RCfile ORCfile 格式 数据访问 Parquet 测试 准备测试数据 存储空间大小 测试SQL 执行效率 总结 Hive 压缩 Hive中间数据压缩 最终输出结果压缩 常见的压缩格式 Native Libraries Hive中的可用压缩编解码器 演示 总结 行存储与列存储 当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction pro…
Hive的数据存储(视图) Hive的数据存储(视图) 视图(view) 视图是一种虚表,是一个逻辑概念:可以跨越多张表 既然视图是一种虚表,那么也就是说用操作表的方式也可以操作视图 但是视图是建立在已有表的基础上,视图赖以建立的这些表称为基表 视图最大的好处就是可以简化复杂的查询 现在有两张表 ①部门表 ②员工表 而在关系性数据库中两张表的deptno部门号是外键的关系 现在来建立一张视图来查询员工数据 --查询员工信息:员工号.姓名.月薪.年薪.部门名称create view empinfo…
Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表 桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左边的数据存到桶里面来的时候可以把学生名字经过哈希运算,把相同哈希运算的值的列存放在同一个桶当中.比如Tom.Jerry.Scott经运算以后它们的哈希值是一样的,那么这三个人的信息就会存放在相同的一个桶里面. 有了桶表以后,就能够降低系统的文件块,从而提高查询速度 ○ 如何创建桶表?(用名字进行创建…
Hive的数据存储(外部表) Hive的数据存储(外部表) 外部表 指向已经在HDFS中存在的数据,可以创建Partition 它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异 外部表只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接.而删除一个外部表时,仅删除该链接 ○如何创建一个外部表? hdfs源文件查看 [root@hadooppseudo ~]# ls student0*student01.txt student02.txt…
Hive的数据存储(分区表) Hive的数据存储(分区表) 分区表 Partition对应于数据库的Partition列的密集索引 在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中 那么如果我们要查询男性的身高,那么只需要扫描gender='M'的分区就好了 ○如何建立一张基于性别的分区表 create table partition_table(sid int,sname string)partitioned by (gende…
Hive的数据存储(内部表) Hive的数据存储(内部表) 基于HDFS 可使用hadoop给我们提供的web管理工具查看数据.打开管理工具localhost:9000–>Utilities下的Browse the file system–>/user/hive/warehouse就能看到表目录–>打开表目录能看到表文件–>点击表文件,会询问是否需要下载文件–>点击download,可以用编辑器查看文件 没有专门的数据存储格式(因为来自不同的数据库) 存储结构主要包括:数据库…
1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还支持sequence file 创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据. 2.Hive的数据模型-数据库 类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后,不使用hive>use <数据库名>,系统默认的数…
欢迎关注公众号:bin的技术小屋,如果大家在看文章的时候发现图片加载不了,可以到公众号查看原文 本系列Netty源码解析文章基于 4.1.56.Final版本 在<Netty如何高效接收网络数据>一文中,我们介绍了 Netty 的 SubReactor 处理网络数据读取的完整过程,当 Netty 为我们读取了网络请求数据,并且我们在自己的业务线程中完成了业务处理后,就需要将业务处理结果返回给客户端了,那么本文我们就来介绍下 SubReactor 如何处理网络数据发送的整个过程. 我们都知道 N…
一文搞懂Java环境变量 记得刚接触Java,第一件事就是配环境变量,作为一个初学者,只知道环境变量怎样配,在加上各种IDE使我们能方便的开发,而忽略了其本质的东西,只知其然不知其所以然,随着不断的深入,终于明白了Java环境变量所代表的的含义. 首先我们来看一下Java中的环境变量,以我自己的为例 JAVA_HOME:C:\Program Files\Java\jdk1.8.0_144 PATH:%JAVA_HOME%\bin CLASSPATH:.(英文下的一个. 有的版本是.; 还有后面跟…
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 反向传播算法(Backpropagation Algorithm,简称BP算法)是深度学习的重要思想基础,对于初学者来说也是必须要掌握的基础知识!本文希望以一个清晰的脉络和详细的说明,来让读者彻底明白BP算法的原理和计算过程. 全文分为上下两篇,上篇主要介绍BP算法的原理(即公式的推导),介绍完原理之后,我们会将一些具体的数据带入一个简单的三层神经网络中,去完整的…
一个执着于技术的公众号 一.InnoDB逻辑存储结构 首先要先介绍一下InnoDB逻辑存储结构和区的概念,它的所有数据都被逻辑地存放在表空间,表空间又由段,区,页组成. 段 段就是上图的segment区域,常见的段有数据段.索引段.回滚段等,在InnoDB存储引擎中,对段的管理都是由引擎自身所完成的. 区 区就是上图的extent区域,区是由连续的页组成的空间,无论页的大小怎么变,区的大小默认总是为1MB. 为了保证区中的页的连续性,InnoDB存储引擎一次从磁盘申请4-5个区,InnoDB页的…
> 笔者文笔功力尚浅,如有不妥,请慷慨指出,必定感激不尽 Cookie 洛:大爷,楼上322住的是马冬梅家吧? 大爷:马都什么? 夏洛:马冬梅. 大爷:什么都没啊? 夏洛:马冬梅啊. 大爷:马什么没? 夏洛:行,大爷你先凉快着吧. 在了解这三个概念之前我们先要了解HTTP是无状态的Web服务器,什么是无状态呢?就像上面夏洛特烦恼中经典的一幕对话一样,一次对话完成后下一次对话完全不知道上一次对话发生了什么.如果在Web服务器中只是用来管理静态文件还好说,对方是谁并不重要,把文件从磁盘中读取出来发出…
这一篇主要讲一下 InnoDB 中的事务到底是如何实现 ACID 的: 原子性(atomicity) 一致性(consistency) 隔离性(isolation) 持久性(durability) 隔离性 隔离性的实现原理就是锁,因而隔离性也可以称为并发控制.锁等.事务的隔离性要求每个读写事务的对象对其他事务的操作对象能互相分离. 再者,比如操作缓冲池中的 LRU 列表,删除,添加.移动 LRU 列表中的元素,为了保证一致性那么就要锁的介入. InnoDB 使用锁为了支持对共享资源进行并发访问,…
概念: Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式(官网地址:https://vuex.vuejs.org/zh/).它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化. 换成我们大白话来说:Vuex就是一个状态管理模式,可以简单的理解为一个全局对象,然后我们可以修改这个全局对象里面的属性或者添加方法,但是我们不能像传统JS的那种直接赋值形势来修改,我们必须得按照Vuex给我们提供的规则来修改: Vuex的存在就是应用于解决各个组件之间…
本文导读: 前言 如何保障线程安全 CAS原理剖析 CPU如何保证原子操作 解密CAS底层指令 小结 朋友,文章优先发布公众号,如果你愿意,可否扫文末二维码关注下? 前言 日常编码过程中,基本不会直接用到 CAS 操作,都是通过一些JDK 封装好的并发工具类来使用的,在 java.util.concurrent 包下. 但是面试时 CAS 还是个高频考点,所以呀,你还不得不硬着头皮去死磕一下这块的技能点,总比一问三不知强吧? 一般都是先针对一些简单的并发知识问起,还有的面试官,比较直接: 面试官…
原创文章出自公众号:「码农富哥」,欢迎收藏和关注,如转载请注明出处! TCP 协议简述 TCP 提供面向有连接的通信传输,面向有连接是指在传送数据之前必须先建立连接,数据传送完成后要释放连接. 无论哪一方向另一方发送数据之前,都必须先在双方之间建立一条连接.在TCP/IP协议中,TCP协议提供可靠的连接服务,连接是通过三次握手进行初始化的. 同时由于TCP协议是一种面向连接的.可靠的.基于字节流的运输层通信协议,TCP是全双工模式,所以需要四次挥手关闭连接. TCP包首部 网络中传输的数据包由两…
码文不易,转载请带上本文链接,感谢~ https://www.cnblogs.com/echoyya/p/14577243.html 目录 码文不易,转载请带上本文链接,感谢~ https://www.cnblogs.com/echoyya/p/14577243.html Script 标签 CommonJS规范(同步加载模块) 创建模块 加载模块 导出模块 CommonJS 特点 AMD(Asynchronous Module Definition) 创建模块 加载规范模块 加载非规范的模块…
前言 近两年公司端侧发现的漏洞很大一部分都出在WebView白名单上,针对这类漏洞安全编码团队也组织过多次培训,但是这种漏洞还是屡见不鲜.下面本人就结合产品中容易出现问题的地方,用实例的方式来总结一下如何正确使用WebView白名单,给开发的兄弟们作为参考. 在Android SDK中封装了一个可以很方便的加载.显示网页的控件,叫做WebView,全限定名为:android.webkit.WebView.WebView是SDK层的一个封装,底层实现是Chromium(Android 4.4之前是…
今天早上由于zookeeper和redis集群不在同一虚拟机导致出了点很小错误(人为),所以这里总结一下redis集群的搭建以便日后所需同时也希望能对你有所帮助. 笔主这里使用的是Centos7.如果你碰到任何问题都可以来问我,留言或者加我微信:bwcx9393. 关于Linux的一些资料 链接:https://pan.baidu.com/s/1Opgu6kQe_b1IRJbxTGD6XA 密码:8yk4 一 redis的安装 Redis是c语言开发的. 安装redis需要c语言的编译环境.如果…
转载:https://juejin.im/post/5ad54d76f265da23970759d3 作者:SnailClimb 这里总结一下redis集群的搭建以便日后所需同时也希望能对你有所帮助. 笔主这里使用的是Centos7 一 redis的安装 Redis是c语言开发的. 安装redis需要c语言的编译环境.如果没有gcc需要在线安装:yum install gcc-c++ 第一步:获取源码包:wget http://download.redis.io/releases/redis-3…
大家好,我是沉默王二,今天在逛 programcreek 的时候,我发现了一些专注细节但价值连城的主题.比如说:Java 的 Comparable 和 Comparator 是兄弟俩吗?像这类灵魂拷问的主题,非常值得深入地研究一下. Comparable 和 Comparator 是 Java 的两个接口,从名字上我们就能够读出来它们俩的相似性:以某种方式来比较两个对象.但它们之间到底有什么区别呢?请随我来,打怪进阶喽! 01.Comparable Comparable 接口的定义非常简单,源码…
没事的时候,我并不喜欢逛 P 站,而喜欢逛 programcreek 这些技术型网站,于是那天晚上,在夜深人静的时候,我就发现了一个专注基础但不容忽视的主题.比如说:Java 中的 null 到底是什么鬼?像这类灵魂拷问的主题,非常值得深入地研究一下. null 在 Java 中是一个特殊的存在,因为它和大名鼎鼎的 NullPointerException(NPE)如影随形.NPE 的发明人 Tony Hoare 曾在 2009 年承认:"Null References 是一个荒唐的设计,就好像…
文章目录 1.背景 2.ROC曲线 2.1 ROC名称溯源(选看) 2.2 ROC曲线的绘制 3.AUC(Area Under ROC Curve) 3.1 AUC来历 3.2 AUC几何意义 3.3 AUC计算 3.4 理解AUC的意义 3.4.1 从Mann-Whitney U test角度理解 3.4.2 从AUC计算公式角度理解 3.4.3 一句话介绍AUC 3.5 为什么用AUC 3.6 AUC的一般判断标准 1.背景 很多学习器是为测试样本产生一个实值或概率预测(比如比较简单的逻辑回…
一.什么是BERT? 没错下图中的小黄人就是文本的主角Bert ,而红色的小红人你应该也听过,他就是ELMo.2018年发布的BERT 是一个 NLP 任务的里程碑式模型,它的发布势必会带来一个 NLP 的新时代.BERT 是一个算法模型,它的出现打破了大量的自然语言处理任务的记录.在 BERT 的论文发布不久后,Google 的研发团队还开放了该模型的代码,并提供了一些在大量数据集上预训练好的算法模型下载方式.Goole 开源这个模型,并提供预训练好的模型,这使得所有人都可以通过它来构建一个涉…
prototype初步认识 在学习JavaScript中,遇到了prototype,经过一番了解,知道它是可以进行动态扩展的 function Func(){}; var func1 = new Func; console.log(func1.var1) //undefined Func.prototype.var1 = "Func进行了扩展" console.log(func1.var1) //Func进行了扩展 即最开始创建的函数Func并没有var1变量,但是我们可以进行扩展,并…
首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据. 其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket. 1)表table:一个表就是hdfs中的一个目录 2)区Partition:表内的一个区就是表的目录下的一个子目录 3)桶Bucket:如果有分…
HiveQL 是 Hive 查询语言,它不完全遵守任一种 ANSI SQL 标准的修订版,但它与 MySQL 最接近,但还有显著的差异,Hive 不支持行级插入,更新和删除的操作,也不支持事务,但 Hive 增加了在 Hadoop 背景下的可以提供更高性能的扩展,以前个性化的扩展,还有一些外部程序:   4.1 Hive 中的数据库 Hive 数据库本质上就是表的一个目录或命名空间:如果用户没有显示式的指定库那么将会使用默认的数据库 default hive> cretae database i…
前言 在之前的文章<一文彻底搞懂面试中常问的各种“锁”>中介绍了Java中的各种“锁”,可能对于不是很了解这些概念的同学来说会觉得有点绕,所以我决定拆分出来,逐步详细的介绍一下这些锁的来龙去脉,那么这篇文章就先来会一会“自旋锁”. 正文 出现原因 在我们的程序中,如果存在着大量的互斥同步代码,当出现高并发的时候,系统内核态就需要不断的去挂起线程和恢复线程,频繁的此类操作会对我们系统的并发性能有一定影响.同时聪明的JVM开发团队也发现,在程序的执行过程中锁定“共享资源“的时间片是极短的,如果仅仅…
一.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能.还可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 HQL.使用hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive将元数据存储在数据库(RDBMS)中,比如MySQL.Derby中.…
SQLite数据存储 Android 集成了 SQLite 数据库.它存储在 /data/data/< 项目文件夹 >/databases/ 下.Android 开发中使用 SQLite 数据库 Activites 可以通过 Content Provider 或者 Service 访问一个数据库. Android数据库中主要涉及到的类有:SQLiteOpenHelper.SQLiteDatabase.Cursor.Context. (01)SQLiteOpenHelper:它是 SQLiteD…