hadoop记录-hive常见设置】的更多相关文章

分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create table test.test28_partition(id string, name string)PARTITIONED BY (inc_day string)STORED AS PARQUETlocation 'hdfs://xxx/user/hive/warehouse/test/test27_pa…
1. Map输入合并小文件对应参数:set mapred.max.split.size=256000000;  #每个Map最大输入大小set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小 set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小set hive.input.format=org.apache.hadoop.hive.ql.io.Com…
set mapred.job.queue.name=pms;   //设置队列set hive.exec.reducers.max=8;  //设置最大的reducersset mapred.reduce.tasks=8;   //设置最大的redue tasksset hive.exec.parallel=true;    //开启任务并行执行set hive.exec.parallel.thread.number=8;  // 同一个sql允许并行任务的最大线程数…
Hadoop 存档 每个文件均按块存储,每个块的元数据存储在namenode的内存中,因此hadoop存储小文件会非常低效.因为大量的小文件会耗尽namenode中的大部分内存.但注意,存储小文件所需要的磁盘容量和存储这些文件原始内容所需要的磁盘空间相比也不会增多.例如,一个1MB的文件以大小为128MB的块存储,使用的是1MB的磁盘空间,而不是128MB. Hadoop存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的同时,允许对文件进行…
Hadoop生态圈-Hive快速入门篇之HQL的基础语法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作以及常用的查询操作.如果你没有hive的安装环境的话,可以参考我之前分析搭建hive的笔记:https://www.cnblogs.com/yinzhengjie/p/9154324.html 一.Hive常见的属性配置 1>.Hive数据仓库位置配置 >.Default数据仓库的最原始位置在“h…
前提 笔者目前需要搭建数据平台,发现了Windows系统下,Hadoop和Hive等组件的安装和运行存在大量的坑,而本着有坑必填的目标,笔者还是花了几个晚上的下班时候在多个互联网参考资料的帮助下完成了Windows10系统下Hadoop和Hive开发环境的搭建.这篇文章记录了整个搭建过程中的具体步骤.遇到的问题和对应的解决方案. 环境准备 基于笔者的软件版本洁癖,所有选用的组件都会使用当前(2020-10-30)最高的版本. 软件 版本 备注 Windows 10 操作系统 JDK 8 暂时不要…
<Programming Hive>读书笔记(一)Hadoop和Hive环境搭建             先把主要的技术和工具学好,才干更高效地思考和工作.   Chapter 1.Introduction 简单介绍 Chapter 2.Getting Started 环境配置 Hadoop版本号会更新,以官方安装教程为准 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.…
想了解Hadoop整体结构及各框架角色建议飞入这篇文章,写的很好:http://www.open-open.com/lib/view/open1385685943484.html .以下文章是本人参考各牛人文章总结出,主要是Hive的使用.参考自:http://www.blogjava.net/hengheng123456789/archive/2011/01/05/342354.html 1. Hive是什么 Hive是一个基于hadoop的数据仓库.Hive 是建立在 Hadoop 上的数据…
hadoop 集群常见错误解决办法 hadoop 集群常见错误解决办法: (一)启动Hadoop集群时易出现的错误: 1.   错误现象:Java.NET.NoRouteToHostException: No route to host.    原因:master服务器上的防火墙没有关闭.    解决方法: 在master上关闭防火墙: chkconfig iptables off. 2.    错误现象:org.apache.hadoop.ipc.RPC: Server at JMN/10.2…
1.什么是Hive hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表 并提供类sql查询功能 2.为什么要用Hive 1.直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 2.为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力. 避免了去写MapReduce,减少开发人员的学习成本. 扩展功能很方便. 3.Hive的特点:可扩展,延展性,容错 4.Hive的数据存储 1.Hi…
Hadoop.Hive.Spark 之间关系 https://www.cnblogs.com/jins-note/p/9513426.html 很的很诙谐有趣. 作者:Xiaoyu Ma ,大数据工程师 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能…
Hive常见文件存储格式 背景:列式存储和行式存储 首先来看一下一张表的存储格式: 字段A 字段B 字段C A1 B1 C1 A2 B2 C2 A3 B3 C3 A4 B4 C4 A5 B5 C5 行式存储 A1B1C1 A2B2C2 A3B3C3 A4B4C4 A5B5C5 列式存储 A1A2A3A4A5 B1B2B3B4B5 C1C2C3C4C5 优缺点比较: 行式存储 优点: 相关的数据是保存在一起,比较符合面向对象的思维,因为一行数据就是一条记录 这种存储格式比较方便进行INSERT/U…
2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版本的提测,每次到了晚上就感觉很疲惫,另一方面确实是自己对自己最近有些放松,没有持续地学习.很庆幸今天能在一个忙碌的工作日后,开始着手这篇文章. 来到大数据前,我对大数据可以说是一无所知.诸如Hadoop.Hive等名词仅仅处于"听过"的阶段,完全不知道其作用.大数据的概念真的很多,想真正理…
本人,苦心多时,历经磨难和心血,与大家共同攻克问题难关! 问题一: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient 参考:http://blog.csdn.net/l1028…
遇到个情况,跑hive级联insert数据报错,可以尝试换个hive计算引擎 hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误 .配置mapreduce计算引擎 set hive.execution.engine=mr; .配置spark计算引擎 set hive.execution.engine=spark; .配置tez 计算引擎 set hive.…
Hadoop生态圈-Hive快速入门篇之Hive环境搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. 为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控制. 2>.数据仓库的特点 第一:数…
一.Hive数据仓库位置配置 1. # Hive数据仓库位置配置: 默认位置(hive根目录): /user/hive/warehouse 注意事项: *在仓库目录下,没有对默认的数据库default创建文件夹 *如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹,而且default数据库的目录不显示: 2.在hive命令行执行hdfs命令: #删除一个文件 hive (default)> dfs -rm -R /user/hive/warehouse/bf_log; #删除…
本主题将从3个角度进行对比 常见设置(CentOS 6 vs CentOS 7) 服务管理(Sysvinit vs Upstart vs Systemd) 性能测试(cpu/mem/io/oltp) 本文为第一部分:常见设置的对比 1. 字符集 CentOS 6 方法: /etc/sysconfig/i18n CentOS 7 方法1: localectl set-locale LANG=en_GB.utf8 方法2: /etc/locale.conf中的LANG= 2. 主机名 CentOS…
gitlab 安装.备份与还原及常见设置 安装 安装过程比较简单,跑在 docker 上,执行命令即可 -v参数后面的值为卷的名称,自动创建数据卷(如果数据卷不存在) https://docs.gitlab.com/omnibus/docker/ docker run \ --hostname gitlab.example.com \ --restart always \ --name 'gitlab' \ -d \ -p 443:443 \ -p 80:80 \ -p 22:22 \ -v g…
HTTPD之二----HTTPD服务详解----httpd的配置文件常见设置 HTTP服务器应用 http服务器程序 httpd apache nginx lighttpd 应用程序服务器 IIS,asp tomcat,jsp jetty 开源的servlet容器,基于java的web容器 Resin CAUCHO公司,支持servlets和jsp的引擎 webshpere(IBM),weblogic(BEA),jboss,oc4j(oracle) 市场占有率统计 www.netcraft.co…
Hadoop科普文——常见的45个问题解答 1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式 2.  单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上.这里同样没有DFS,使用的是本地文件系统.单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式. 3.  伪分布模式中的注意点? 伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上运行…
Apache日志不记录图片文件设置方法 <FilesMatch "\.(ico|gif|jpg|swf)">SetEnv IMAG 1</FilesMatch>CustomLog logs/access_log combined env=!IMAG Apache日志,如果记录所有访问请求,文件会很大:如果使用日志分析软件,分析结果不一定准确.而且如果不安装cronolog工具来截断日志,会在一个整文件中,这样访问量一高,日志文件所占空间是可观的. 通过在http…
Eclipse中常见设置: 1.Eclipse在保存时设置自动去掉多余的import和格式化代码 路径: window --> preferences --> java --> Editor --> Save Actions 选中 Perform the selected actions on save 选中 Format source code 选中 organize imports 这样,在保存时就能够执行 SHIFT+CTRL+O 和 CTRL+SHIFT+F 2.Eclip…
body { font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;…
 云计算之hadoop.hive.hue.oozie.sqoop.hbase.zookeeper环境搭建及配置文件已经托管到githubhttps://github.com/sxyx2008/cloud   附录: 1.Hadoop源码下载http://svn.apache.org/repos/asf/hadoop/common/tags/ 2.Hadoop jar下载 https://archive.apache.org/dist/hadoop/…
[摘要] 知乎上一篇很不错的科普文章,介绍大数据技术生态圈(Hadoop.Hive.Spark )的关系. 链接地址:https://www.zhihu.com/question/27974418 [问题] 如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系? [答案1] 学习很重要的是能将纷繁复杂的信息进行归类和抽象. 对应到大数据技术体系,虽然各种技术百花齐放,层出不穷,但大数据技术本质上无非解决4个核心问题. 1.存储,海量的数据怎样有效的存储?主要包…
以下配置文件涵盖了hadoop.hive.hbase开发支持库的配置. 仅需针对maven工程pom.xml文件做相应更改就可以自动生成hadoop开发支持库. <properties>   <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>   <hadoop.version>2.5.0</hadoop.version>   <hive.version>…
UILabel的常见设置 @property(nonatomic,copy) NSString *text; 显示的文字 @property(nonatomic,retain) UIFont *font; 字体 @property(nonatomic,retain) UIColor *textColor; 文字颜色 @property(nonatomic) NSTextAlignment textAlignment; 对齐模式(比如左对齐.居中对齐.右对齐) UIFont的常见设置 + (UIF…
Hadoop生态圈-hive优化手段-作业和查询优化 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…