Hive记录-单机impala配置】的更多相关文章

1.先决条件配置了hadoop.hive等 2.官网查看版本信息下载相应的安装包 http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/5.10/RPMS/x86_64/ 3.安装一些依赖包:mysql-connector-java.bigtop-jscv.bigtop-utils.libevent.libevent-devel.redhat-lsb.python-setuptools.cyrus-sasl.x86_64.sentry等 4.依…
1.修改配置hive-site.xml    hadoop core-site.xml限制---参考Hive记录-部署Hive环境 2.启动hadoop #sh /usr/app/hadoop/sbin/start-all.sh 3.jps查看五大进程是否齐全:NameNode  DataNode NodeManager ResourceManager SecondaryNameNode 4.启动hiveserver2服务 #hive --service hiveserver2 #netstat…
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hi…
配置基本操作 hive> set; 查看所有配置hive> set key: 查看某个配置hive> set key value: 设置某个配置 我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置 三种参数配置方式 1. 配置文件 默认配置文件:hive-default.xml 自定义配置文件:hive-site.xml 自定义配置文件会覆盖默认配置文件 2. 命令行参数 加上  -hiveconf key=value 仅对本次启动有效 3. 启动后通…
Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢 介绍 Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统术语: •Kafka将消息以topic为单位进行归纳.•将向Kafka topic发布消息的程序成为producers.•将预订topics并消费消息的程序成为consumer.•Kafka以集群的…
哈哈,几天连续收到百度两次电话,均是利好消息,于是乎不知不觉的自己的工作效率也提高了,几天折腾了好久终于在单机上配置好了hadoop,然后也成功的运行了一个用例,耶耶耶耶耶耶. 转自:http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ Running Hadoop on Ubuntu Linux (Single-Node Cluster) Table of Conten…
此文是基于上一篇文章:Hive环境搭建及测试 因为Hive默认的数据库是derby,不支持同时开启两个./hive的命令终端: 而将Hive的默认数据库修改成mysql后,可以解决该问题. 仅在安装Hive的CloudDeskTop上配置 一.root用户下:上传mysql安装包(mysql-5.5.32.tar.gz)到/install目录下,并解压安装; 二.hadoop用户下:上传mysql驱动包(mysql-connector-java-3.0.17-ga-bin.jar )到/soft…
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark.由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多. 默认情况下,Hive on Spark 在YARN模式下支持Spark. 2.前提条件:安装JDK-1.8/hadoop-2.7.2等,参考之前的博文 3.下载hi…
一.系统环境 os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 hadoop : 2.6.4mysql : 5.7.21 hive : 2.1.0 在配置hive之前,要先配置hadoop. 二.安装步骤 1.hive的安装与配置 1.1 hive的安装 下载hive2.1.0,使用以下命令安装到/usr/local 最后一条 sudo chown -R hadoop hive 中的hadoop是我的用户名,要更改成自己的用户名. 1.2 配置环境变量 添加…
Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计.这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统术语: •Kafka将消息以topic为单位进行归纳.•将向Kafka topic发布消息的程序成为producers.•将预订topics并消费消息的程序成为consumer.•Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker. producers通过网络将消息发送到Kafka集群,集群向消费者提供…
title: Hive的安装及配置 summary: 关键词:Hive ubuntu 安装和配置 Derby MySQL PostgreSQL 数据库连接 date: 2019-5-19 13:25 urlname: 2019051903 author: foochane img: /medias/featureimages/19.jpg categories: 大数据 tags: hive 大数据 本文作者:foochane  本文链接:https://foochane.cn/article/…
Hive安装部署与配置 1.1 Hive安装地址 1)Hive官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github地址: https://github.com/apache/hive 1.2 Hive安装部署 1)Hive安装及配置 (1…
一.前言 在项目的开发维护阶段,有时候我们关注的问题不仅仅在于功能的实现,甚至需要关注系统发布上线后遇到的问题能否及时的查找并解决.所以我们需要有一个好的解决方案来及时的定位错误的根源并做出正确及时的修复,这样才能不影响系统正常的运行状态. 这个时候我们发现,其实在asp.net core中已经内置了日志系统,并提供了各种内置和第三方日志记录提供程序的日志记录接口,在进行应用开发中,可以进行统一配置,并且利用第三方日志框架相结合,更加有效的实现日志记录.所以在这个系列中,主要是对内置日志记录系统…
概要 Spark 单机环境配置 JDK 环境配置 Spark 环境配置 python 环境配置 Spark 使用示例 示例代码 (order_stat.py) 测试用的 csv 文件内容 (orders.csv) 运行结果 概要 大数据和人工智能已经宣传了好多年, Hadoop 和 Spark 也已经发布了很长时间, 一直想试试, 但是工作也遇不到使用的场景, 就一直拖着. 这次在极客时间上选了蔡元楠老师的<大规模数据处理实战>的课. 其中介绍了很多 Spark 的内容, 就此机会, 也在虚拟…
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads/connectors/impala/jdbc/2-5-5.html 3.源代码参考 /* * 1.配置好hive+sentry+impala * 2.hive配置sentry-site.xml加入属性/值:sentry.hive.testing.mode/true * 3.部署客户端配置,重启组件…
1.impala是什么 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性.相比之下,Impala的最大特点也是最大卖点就是它的快速. 2.impala优点 Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销. 省掉了MapReduce作业启动的开销.MapRe…
1.cdh添加组件-sentry-选择主机-配置数据库 2.配置数据库 1)mysql -uroot -p 2) create database sentry DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 3) grant all privileges on sentry.* to root@'%' identified by '123' with grant option; 4)flush privileges; 5)exit; 选择mysql数据…
配置客户端远程连接(方便可视化工具操作)-不需要在hive服务器上敲命令了 1.安装DBeaver工具:https://dbeaver.com/download/ 2.准备相关驱动文件(服务器上hive/lib下拷贝) 3.打开DBeaver,新建连接->Hadoop->Apache hive->Next->Edit Driver Settings-配置url.添加驱动文件->OK->输入用户名和密码(Linux服务器操作的用户名和密码)…
<property> <name>hive.support.concurrency</name> <value>true</value> </property> <property> <name>hive.exec.dynamic.partition.mode</name> <value>nonstrict</value> </property> <prop…
Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的.通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等.      Hue在数据库方面,默认使用的是SQLite数据库来管理自身的数…
一:执行SQL的方式 1.配置的键值 2.minimal下运行fetch 3.设定hive.fetch.task.conversion=more 4.在more下运行fetch 二:虚拟列 一共三个虚拟咧 INPUT__FILE__NAME:数据的来源 BLOCK__OFFSET__INSIDE__FILE:记录在块中的偏移量 ROW__OFFSET__INSIDE__BLOCK:行的偏移量 三:严格模式 1.概述 对分区表进行查询,在where子句中没有加分区过滤的话,将禁止提交任务,默认hi…
环境: hadoop 2.7.6 hive 2.3.4 Hive 的 thirft 启动: hadoop 单机或者集群需要: 启动 webhdfs 修改 hadoop 的代理用户 <property> <name>hadoop.proxyuser.hadoop.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.…
前言 已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作 补充说明 Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式Local方式Remote方式 [一].内嵌Derby方式 这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库.配置文件 hive-site.xml 中jdbc URL.驱动.用户名.密码等的配置信息执行初始化命令:s…
http://blog.csdn.net/reesun/article/details/8556078 Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储.远端存储比较适合生产环境.Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore. 一.本地derby 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml version="1.0"?> <?xml-stylesheet t…
这问题遇到很多次,每次重装系统就遇到一次,却总是搞半天才搞定. 今天再次花费几个小时解决,终于有一个清晰的认识必须记录一下. 一.下载解压,不建任何目录,直接复制tnsname.ora过来.(当然也可以建network/admin, 后面配置写对就行 二.配置pl/sql 1.添加环境变量Path加入解压目录, 2.添加TNS_ADMIN"="D:\\fox\\instantclient"             "NLS_LANG"="AMER…
应用场景和使用目的 很多时候,我们在访问页面的时候,由于程序异常.系统崩溃会导致出现黄页.在通常的情况下,黄页对于我们来说,帮助是极大的,因为它可以帮助我们知道问题根源,甚至是哪一行代码出现了错误.但这对于用户是非常可怕的,因为用户不知道发生了什么,也无法了解黄页给出的内容.甚至,如果我们遇到一些不友好的人,他们会拿这些内容大做文章,对我们网站产生威胁. 那我们如何在程序异常.系统崩溃时,不会出现黄页,并且还可以给出一些更加友好的提示呢?甚至在我们需要的时候,可以收集这些异常信息,并加以分析,能…
首先和之前一样下载solr-5.3.1.tgz,然后执行下面命令释放文件并放置在/usr/目录下: $ .tgz $ /usr/ $ cd /usr/solr- 这个时候先不用启动solr,因为单机模式下为了和之前保持通用仍然使用外部zookeeper,只是zookeeper也是以单机模式运行,此时和之前一样下载zookeeper,然后释放到指定目录,操作如下: $ mkdir /usr/zookeeper $ .tar.gz $ /usr/zookeeper $ cd /usr/zookeep…
一:执行SQL的方式 1.配置的键值 2.minimal下运行fetch 3.设定hive.fetch.task.conversion=more 4.在more下运行fetch 二:虚拟列 一共三个虚拟咧 INPUT__FILE__NAME: BLOCK__OFFSET__INSIDE__FILE: ROW__OFFSET__INSIDE__BLOCK: 三:严格模式 1.概述 对分区表进行查询,在where子句中没有加分区过滤的话,将禁止提交任务,默认hive.mapred.mode=nons…
原文来自:  http://blog.csdn.net/zhumin726/article/details/8027802 1 HIVE概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE的设计,可以轻松实现数据汇总,ad-hoc查询和分析大量的数据.它提供了一种称为HIVE QL的查询语言,基于sql的语法,使用户熟悉HIVE QL的语法容易做ad-hoc查询,汇总和数据分析,同时,HIVE QL也使传统的map / reduce的程序员能够插…
hive 是JAVA写的的一个数据仓库,依赖hadoop.没有安装hadoop的,请参考http://blog.csdn.net/lovemelovemycode/article/details/9154121(hadoop集群安装配置). 下面将一下hive集群的安装配置步骤: 1 下载  hive-0.10.0.tar.gz; 2 将 hive-0.10.0.tar.gz解压到 hadoop 目录(如/home/hadoop/hadoop-1.0.4/hive-0.10.0); 3 进入/h…