Hive - 表相关】的更多相关文章

1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle:thin:@192.168.13.1:1521/test" --username root --password 12345 --table test --hive-table myhive5 --hive-partition-key partition_time --map-column-hive…
Hive 表分区 Hive表的分区就是一个目录,分区字段不和表的字段重复 创建分区表: create table tb_partition(id string, name string) PARTITIONED BY (month string) row format delimited fields terminated by '\t'; 加载数据到hive分区表中 方法一:通过load方式加载 load data local inpath '/home/hadoop/files/namein…
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hive表的数据,主要包括直接sql读取hive表:通过hdfs文件读取hive表,以及hive分区表的读取. 通过jupyter上的cell来初始化sparksession. 文末还有通过spark提取hdfs文件的完整示例 jupyter配置文件 我们可以在jupyter的cell框里面,对spar…
1. hive 桶相关概念     桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作.     抽样( sampling )可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据.而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量.     2. 桶作用 1)数据抽样 2)提升某些查询操作效率,如:mapside join  3. 桶的使用    --场景一.场景二使用此表说…
shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d -d "-1 day") LAST_FROM=$(date +%Y-%m-%d -d "$THIS_FROM -1 year") LAST_TO=$(date +%Y-%m-%d -d "$THIS_TO -1 year") echo $THIS_FR…
本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate. 1.先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键. <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version…
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果是map输出传给reduce,所以应该使用低cpu开销和高压缩效率,一般最好使用snappy. ------------------------------------------------------------------------------ hive表的存储格式有(参见http://bl…
知识点1:Spark访问HIVE上面的数据 配置注意点:. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中(spark2.0之后是${spark_home}/jars下),不清楚就全部拷贝过去 2.将Hive的配置文件hive-site.xml拷贝到${spark_home}/conf目录下 3.因为使用ThriftJDBC/ODBC Server访问spark SQL,所以要修改hive-site.xml文…
Hive 表类型简述   表类型一.管理表或内部表Table Type:  MANAGED_TABLE example: create table  Inner(id int,name string,description string) //用来指定原文件的列分隔符row  format delimited fields terminated by '\t'; 表类型二.外部表(原始数据表多建于外部表) example: create external table extertab(nobo…
hive表增量抽取到oracle数据库的通用程序(二) sqoop在export的时候 只能通过--export-dir参数来指定hdfs的路径.而目前的需求是需要将hive中某个表中的多个分区记录一次性导出到oracle数据库中,由于不支持通配符,又不想设置多个workflow.为了替代蹩脚的sqoop,准备使用java来开发通用包来替代这个导出功能. 通过给java程序提供具体的参数,完成数据的拉取. 为了与sqoop传参方式一致,使用了--开头(在java程序中其实是将--过滤掉了),相关…