hive执行更新和删除操作

Hive从0.14版本开始支持事务和行级更新，但缺省是不支持的，需要一些附加的配置。要想支持行级insert、update、delete，需要配置Hive支持事务。

一、Hive具有ACID语义事务的使用场景
1. 流式接收数据。
许多用户使用诸如Apache Flume、Apache Storm或Apache Kafka这样的工具将流数据灌入Hadoop集群。当这些工具以每秒数百行的频率写入时，Hive也许只能每15分钟到1小时添加一个分区，因为过于频繁地添加分区很快就会使一个表中的分区数量难以维护。而且这些工具还可能向已存在的分区中写数据，但是这样将会产生脏读（可能读到查询开始时间点以后写入的数据），还在这些分区的所在目录中遗留大量小文件，进而给NameNode造成压力。在这个使用场景下，事务支持可以获得数据的一致性视图同时避免产生过多的文件。

2. 缓慢变化维。
在一个典型的星型模式数据仓库中，维度表随时间的变化很缓慢。例如，一个零售商开了一家新商店，需要将新店数据加到商店表，或者一个已有商店的营业面积或其它需要跟踪的特性改变了。这些改变会导致插入或修改个别记录。从0.14版本开始，Hive支持行级更新。

3. 数据重述。
有时发现数据集合有错误并需要更正。或者当前数据只是个近似值（如只有全部数据的90%，得到全部数据会滞后）。或者业务业务规则可能需要根据后续事务重述特定事务（打个比方，一个客户购买了一些商品后又购买了一个会员资格，此时可以享受折扣价格，包括先前购买的商品）。或者一个客户可能按照合同在终止了合作关系后要求删除他们的客户数据。从Hive 0.14开始，这些使用场景可以通过INSERT、UPDATE和DELETE支持。

二、配置Hive支持事务（Hive 2.0版）

<property>

    <name>hive.support.concurrency</name>

    <value>true</value>

</property>

<property>

    <name>hive.exec.dynamic.partition.mode</name>

    <value>nonstrict</value>

</property>

<property>

    <name>hive.txn.manager</name>

    <value>org.apache.hadoop.hive.ql.lockmgr.DbTxnManager</value>

</property>

<property>

    <name>hive.compactor.initiator.on</name>

    <value>true</value>

</property>

<property>

    <name>hive.compactor.worker.threads</name>

    <value></value>

</property>

-- 建立非分区表并加载数据

CREATE TABLE t1 (id INT, name STRING, cty STRING, st STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

LOAD DATA LOCAL INPATH '/home/grid/a.txt' INTO TABLE t1;

SELECT * FROM t1;

-- 建立外部分区事务表并加载数据

CREATE EXTERNAL TABLE t2 (id INT, name STRING) PARTITIONED BY (country STRING, state STRING)

CLUSTERED BY (id) INTO  BUCKETS

STORED AS ORC TBLPROPERTIES ('transactional'='true');

INSERT INTO T2 PARTITION (country, state) SELECT * FROM T1;

SELECT * FROM t2;

-- 修改数据

INSERT INTO TABLE t2 PARTITION (country, state) VALUES (,'刘','DD','DD');

UPDATE t2 SET name='张' WHERE id=;

DELETE FROM t2 WHERE name='李四';

SELECT * FROM t2;

在hdfs上可以看到这些分桶之后的文件但是文件直接查看会乱码,需要借助命令,参考https://orc.apache.org/docs/hive-ddl.html

To get information about an ORC file, use the orcfiledump command.

% hive --orcfiledump <path_to_file>

As of Hive 1.1, to display the data in the ORC file, use:

% hive --orcfiledump -d <path_to_file>

下面是遇到的两个问题,解决办法是修改配置文件支持事务,第二重新建表修改表的存储格式和添加表属性STORED AS ORC TBLPROPERTIES ('transactional'='true');

Attempt to do update or delete using transaction manager that does not support these operations.

 Attempt to do update or delete on table mydb.stu_p that does not use an AcidOutputFormat or is not bucketed

总结,如果需要使用hive那么需要在创建表的时候声明STORED AS ORC TBLPROPERTIES ('transactional'='true'); ,我们使用的默认的TEXTFILE格式是不支持的,

ORC格式文件的数据也不是直接导入的,而是从已经有的额表中查询并插入的

参考博客:http://blog.csdn.net/wzy0623/article/details/51483674

hive执行更新和删除操作的更多相关文章

Entity Framework 6 Recipes 2nd Edition（10-10）译 - > 为TPH继承的插入、更新、删除操作映射到存储过程
10-10. 为TPH继承的插入.更新.删除操作映射到存储过程问题 TPH继承模型,想把它的插入.修改.删除操作映射到存储过程 Solution 假设数据库有一个描述不同种类的产品表(Product ...
GridView中的编辑和删除按钮，执行更新和删除代码之前的更新提示或删除提示
在GridView中,可以通过设计界面GridViewr任务->编辑列->CommandField,很简单的添加的编辑和删除按钮在前台源码中,可以看到GridView自动生成了两个列. ...
ASP入门（二十三）- 数据库插入、更新和删除操作
我们这里介绍如何使用 Recordset 对象进行插入.更新和删除操作,顺便和 SQL 语句对比. 插入记录 AddNew 方法用于插入一条记录,首先打开一个记录集,并且这个记录具备可写特性,而后调用 ...
MySQL快速回顾：更新和删除操作
前提要述:参考书籍<MySQL必知必会> 6.1 更新数据为了更新(修改)表中的数据,可使用UPDATE语句.可采用两种方式使用UPDATE: 更新表中特定的行: 更新表中所有的行. U ...
mysql---级联更新和删除操作
我们通常有这样的需求:删除表Table 1中记录,需要同时删除其它表中与Table 1有关的若干记录. 对于这种,我们有两种解决方法: 一,使用innodb表的外键约束 ALTER TABLE `sc ...
Django记录数据库创建、更新、删除操作开源插件推荐
github: django-simple-history - 安装 $ pip install django-simple-history - 配置在Settings中添加 INSTALLED_A ...
MySQL从删库到跑路（六）——SQL插入、更新、删除操作
作者:天山老妖S 链接:http://blog.51cto.com/9291927 一.插入数据 1.为表的所有字段插入数据使用基本的INSERT语句插入数据要求指定表名称和插入到新记录的值. IN ...
shell脚本操作mysql数据库—创建数据库，在该数据库中创建表(插入，查询，更新，删除操作也可以做)
#!/bin/bash HOSTNAME="192.168.1.224" #数据库Server信 ...
使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据
将数据存储在Amazon S3中可带来很多好处,包括规模.可靠性.成本效率等方面.最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分 ...

随机推荐

xss测试用例小结
<script>alert("跨站")</script> (最常用) <img scr=javascript:alert("跨站" ...
Mac 快捷键整理（不定期更新）
刚用Mac, 感到有点困难,记录几个快捷键: 1) 在全屏间切换: ctrl + command + F 2)向后删: Fn + delete
Android跟踪NDK崩溃信息
1.NDK编译jni时增加调试信息: $NDK_ROOT/ndk-build -B NDK_DEBUG=1 2.发生崩溃时,logcat中收集日志: - ::): Added shared lib / ...
常用HTML标签的全称及描述
常用HTML标签的英文全称及简单描述 HTML标签英文全称中文释义 a Anchor 锚 abbr Abbreviation 缩写词 acronym Acronym 取首字母的缩写词 addr ...
vue - .babelrc
描述:bable-es2015以及babel本身组件在新版本要求的外部配置文件. { "presets": [ ["env", { "modules& ...
python求pi的方法
来自 #_*_ coding=utf-8 *_* ## {{{ http://code.activestate.com/recipes/578130/ (r5) def pi(places=10): ...
java集成jpush实现客户端推送
代码地址如下:http://www.demodashi.com/demo/13700.html 前言 java 集成jpush 实现客户端推送一.准备工作开发环境: jdk1.6 Eclipse ...
【LeetCode】- Search Insert Position（查找插入的位置）
[ 问题: ] Given a sorted array and a target value, return the index if the target is found. If not, re ...
c# webbrowser 清除cookie和缓存
由于缓存文件是特殊的文件,以及WebBrowser与IE版本有关因此删除缓存绝对不可能用一些IO函数就总可以解决的因此我的这些函数在IO操作的基础上,又针对环境进行相应的清理. static clas ...
linux ps查看进程命令详解
http://linux.net527.cn/Linuxwendang/xitongguanliyuan/39094.htmlLinux操作系统PS命令详细解析要对系统中进程进行监测控制,用 ps ...

hive执行更新和删除操作

hive执行更新和删除操作的更多相关文章

随机推荐

热门专题