前言 已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作 补充说明 Hive中metastore(元数据存储)的三种方式: 内嵌Derby方式Local方式Remote方式 [一].内嵌Derby方式 这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个进程连接使用数据库.配置文件 hive-site.xml 中jdbc URL.驱动.用户名.密码等的配置信息执行初始化命令:s…
一:执行SQL的方式 1.配置的键值 2.minimal下运行fetch 3.设定hive.fetch.task.conversion=more 4.在more下运行fetch 二:虚拟列 一共三个虚拟咧 INPUT__FILE__NAME: BLOCK__OFFSET__INSIDE__FILE: ROW__OFFSET__INSIDE__BLOCK: 三:严格模式 1.概述 对分区表进行查询,在where子句中没有加分区过滤的话,将禁止提交任务,默认hive.mapred.mode=nons…
一:执行SQL的方式 1.配置的键值 2.minimal下运行fetch 3.设定hive.fetch.task.conversion=more 4.在more下运行fetch 二:虚拟列 一共三个虚拟咧 INPUT__FILE__NAME:数据的来源 BLOCK__OFFSET__INSIDE__FILE:记录在块中的偏移量 ROW__OFFSET__INSIDE__BLOCK:行的偏移量 三:严格模式 1.概述 对分区表进行查询,在where子句中没有加分区过滤的话,将禁止提交任务,默认hi…
为了将Hadoop和Spark的安装简单化,今日写下此帖. 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录. 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行,Spark同理,一般用于开发环境. 1.1 准备工作 系统准备:一台Ubuntu16.04机器,最好能够联网 准备好四个安装包:jdk-8u111-linux-x64.tar.gz,scala-2.1…
Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark.通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度.接下来就如何搭建Hive On Spark展开描述. 注:本人使用的是CDH5.9.1,使用的Spark版本是1.6.0,使用的集群配置为4个节点,每台内存32+G,…
Atlas集成Hive 在安装好Atlas以后,如果想要使用起来,还要让Atlas与其他组件建立联系. 其中最常用的就是Hive. 通过Atlas的架构,只要配置好Hive Hook ,那么每次Hive做任何操作就会写入Kafka从而被atlas接收. 并在Atlas中已图的形式展示出来. Hive Model 都会记录Hive哪些操作信息呢?Altas对Hive Model进行了定义. 包含以下内容: 1.实体类型: hive_db 类型: Asset 属性:qualifiedName, na…
不得不说微软的技术迭代还是很快的,上了微软的船就得跟着她走下去,前文一起学ASP.NET Core 2.0学习笔记(一): CentOS下 .net core2 sdk nginx.supervisor.mysql环境搭建搭建好了.net core linux的相关环境,今天就来说说ef core相关的配置及迁移: 简介: Entity Framework(以下简称EF) 是微软以 ADO.NET 为基础所发展出来的对象关系对应 (O/R Mapping) 解决方案,EF Core是Entity…
hive on spark真的很折腾人啊!!!!!!! 一.软件准备阶段 maven3.3.9 spark2.0.0 hive2.3.3 hadoop2.7.6 二.下载源码spark2.0.0,编译 下载地址:http://archive.apache.org/dist/spark/spark-2.0.0/ 编译: ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-pr…
1. 官网下载 wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.1-bin-hadoop2.7.tgz 2. 解压 tar -zxvf spark-2.0.1-bin-hadoop2.7.tgz ln -s spark-2.0.1-bin-hadoop2.7 spark2 3. 环境变量 vi /etc/profile #Spark 2.0.1export SPARK_HOME=/usr/local/spark2export PATH=$P…
一开始用hadoop2.2.0 + hbase 0.96 + hive 0.12 ,基本全部都配好了.只有在hive中查询hbase的表出错.以直报如下错误: java.io.IOException: java.lang.ClassCastException: org.apache.hadoop.hbase.client.Result cannot be cast to org.apache.hadoop.io.Writabl 后来发现hbase0.96和hive0.12不兼容,hive-hba…
传统的API文档编写存在以下几个痛点: 对API文档进行更新的时候,需要通知前端开发人员,导致文档更新交流不及时: API接口返回信息不明确 大公司中肯定会有专门文档服务器对接口文档进行更新. 缺乏在线接口测试,通常需要使用相应的API测试工具,比如postman.SoapUI等 接口文档太多,不便于管理 为了解决传统API接口文档维护的问题,为了方便进行测试后台Restful接口并实现动态的更新,因而引入Swagger接口工具. Swagger具有以下优点 1.功能丰富:支持多种注解,自动生成…
摘自:https://blog.csdn.net/liitdar/article/details/79891795     本文介绍source insight 4.0常见的问题以及相关的配置. 1. 中文注释乱码的问题 此问题可使用下列方法解决: a)对于单个文件,可以点击"File"->"Reload As Encoding...",打开"Reload As Encoding"窗口,然后将编码模式"Encoding"…
https://github.com/winghc/hadoop2x-eclipse-plugin 官网 http://kangfoo.github.io/article/2013/12/build-hadoop2x-eclipse-plugin/ 私人整理 hadoop 2.x eclipse 开发环境的相关配置(图解)http://blog.csdn.net/zythy/article/details/17397153…
内存计算平台spark在今年6月份的时候正式发布了spark2.0,相比上一版本的spark1.6版本,在内存优化,数据组织,流计算等方面都做出了较大的改变,同时更加注重基于DataFrame数据组织的MLlib,更加注重机器学习整个过程的管道化. 当然,作为使用者,特别是需要运用到线上的系统,大部分厂家还是会继续选择已经稳定的spark1.6版本,并且在spark2.0逐渐成熟之后才会开始考虑系统组件的升级.作为开发者,还是有必要先行一步,去了解spark2.0的一些特性和使用,及思考/借鉴一…
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hi…
1.准备安装 1.1 系统简介 CentOS 是什么? CentOS是一个基于Red Hat 企业级 Linux 提供的可自由使用的源代码企业级的 Linux 发行版本.每个版本的 CentOS 都会获得七年的支持(通过安全更新方式).新版本的 CentOS 每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支持新的硬件.这样,建立一个安全.低维护.稳定.高预测性.高重复性的 Linux 环境. CentOS(Community Enterprise Operati…
前言    持续集成这个概念已经成为软件开发的主流,可以更频繁的进行测试,尽早发现问题并提示.自动化部署就更不用说了,可以加快部署速度,并可以有效减少人为操作的失误.之前一直没有把这个做起来,最近的新项目正好有机会,费了一番功夫总算搞好了,特此记录. 1. 开发环境    我这边建立的标准开发环境如下:    1. Maven做项目管理:    2. Git做代码管理:    3. SpringMVC+Spring+Mybatis搭建的程序框架:    4. Mysql作为数据存储,Druid做…
Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点. 本文总结了Spark 2.0的三大主题:更简单.更快速.更智能,另有Spark 2.0内容的文章汇总介绍了更多细节. 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新…
wxWidgets的安装编译.相关配置.问题分析处理 一.介绍部分 (win7 下的 GUI 效果图见 本篇文章的最后部分截图2张) wxWidgets是一个开源的跨平台的C++构架库(framework),它可以提供GUI(图形用户界面)和其它工具.目前的2.x版本支持所有版本的Windows.带GTK+或Motif的Unix和MacOS.相当于大家熟悉的 VC++. 参考介绍: http://www.cnblogs.com/nokiaguy/archive/2009/01/27/138107…
SpringBoot2.0集成FastDFS 前两篇整体上介绍了通过 Nginx 和 FastDFS 的整合来实现文件服务器.但是,在实际开发中对图片或文件的操作都是通过应用程序来完成的,因此,本篇将介绍 Spring Boot 整合 FastDFS 客户端来实现对图片/文件服务器的访问. 如果有不了解 FastDFS 的读者可以先浏览<CentOS7 安装FastDFS分布式文件系统>或是另行查阅网上相关资料. 一.整合编码 项目整体的代码结构图如下: 添加依赖 <project xm…
1.Tomcat是什么       Apache Tomcat是由Apache Software Foundation(ASF)开发的一个开源Java WEB应用服务器. 类似功能的还有:Jetty.Resin.Websphere.weblogic.JBoss.Glassfish.GonAS等,它们的市场占有率如下,可以看到Tomcat是最受欢迎的Java WEB应用服务器. Tomcat在技术实现上所处的位置如下: 下面我们来了解下Tomcat与这些技术之间的关系. 1-1.Tomcat与Ja…
导语 Spark2.0于2016-07-27正式发布,伴随着更简单.更快速.更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准.本文主要以代码和绘图的方式结合,对运行架构.RDD 的实现.spark 作业原理.Sort-Based Shuffle 的存储原理. Standalone 模式 HA 机制进行解析. 1.运行架构 Spark支持多种运行模式.单机部署下,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行:当以分布式集群部署的…
最近开始接触PHP,而一般搭建PHP环境使用的都是xampp 这个集成环境,由于之前我的系统中已经安装了mysql服务,所以在启动mysql的时候出现一些列错误,我通过查询各种资料解决了这个问题,现在记录一下,方便日后遇到同样的问题时能够快速解决,也为遇到同样问题的朋友提供一种解决的思路. 启动 刚开始时我在点击启动mysql的时候发现它一直卡在尝试启动mysql这个位置,xampp提示内容如下: Attempting to start MySQL service... 它启动不成功但是也不提示…
原文Springboot2.0 集成shiro权限管理 一.关于停止使用外键. 原本集成shiro建立用户.角色.权限表的时候使用了外键,系统自动创建其中两个关联表,用@JoinTable.看起来省事,但是实际上删除以及取出数据转成json都很麻烦,折腾的心累,真不如取消外键自己来搞定,比较灵活,业务逻辑掌握好就可以. 所以,最后3个entity变成了5个. entity如下: @Entity public class User { @Id @GenericGenerator(name="gen…
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语法结构:where 查询.all 和 distinct 选项.基于 Partition 的查询.基于 HAVING 的查询. LIMIT 限制查询. GROUP BY 分组查询. ORDER  BY 排序查询.SORT BY 查询.DISTRIBUTE BY 排序查询.CLUSTER BY 查询 H…
一.Hbase集成hive https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 1.说明 Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,使用Hive读取Hbase中的数据. 我们可以使用HQL语句在HBase表上进行查询.插入操作:甚至是进行Join和Union等复杂查询. 整合后的目标: (1). 在hive中创建的表能直接创建保存到hba…
1. MapReduce 用MapReduce将数据从本地文件系统导入到HBase的表中, 比如从HBase中读取一些原始数据后使用MapReduce做数据分析. 结合计算型框架进行计算统计查看HBase的MapReduce任务的执行,把jar打印出来的就是需要添加到hadoop的CLASSPATH下的jar包 $ bin/hbase mapredcp 环境变量的导入(1)执行环境变量的导入(临时生效,在命令行执行下述操作) $ export HBASE_HOME=/opt/module/hba…
Tags: Hadoop Centos7.5安装分布式Hadoop2.6.0+Hbase+Hive(CDH5.14.2离线安装tar包) Centos7.5安装分布式Hadoop2.6.0+Hbase+Hive(CDH5.14.2离线安装tar包) 主机环境 软件环境 主机规划 主机安装前准备 安装jdk1.8 安装zookeeper 安装hadoop 配置HDFS 配置YARN 集群初始化 启动HDFS 启动YARN 整个集群启动顺序 启动 停止 Hbase安装 Hive安装 主机环境 基本配…
Apache Flink社区宣布Flink 1.10.0正式发布! 本次Release版本修复1.2K个问题,对Flink作业的整体性能和稳定性做了重大改进,同时增加了对K8S,Python的支持. 这个版本标志着与Blink集成的完成,并且强化了流式SQL与Hive的集成,本文将详细介绍新功能和主要的改进. 一.内存管理优化 原有TaskExecutor有一些缺点: 流处理和批处理用了不同的配置模型: 流处理的堆外配置RocksDB复杂,需要用户配置: 为了使内存管理更明确直观,Flink 1…
tomcat的相关配置 server.xml <Server port="8005" shutdown="SHUTDOWN"> <!-- 属性说明 port:指定一个端口,这个端口负责监听关闭Tomcat的请求 shutdown:向以上端口发送的关闭服务器的命令字符串 --> <Listener className="org.apache.catalina.core.AprLifecycleListener" /&g…