解决Spark读取Hive分区表出现Input path does not exist的问题

假设这里出错的表为test表。

现象

Hive读取正常，不会报错，Spark读取就会出现：

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://testcluster/user/hive/warehouse/....

在hive中执行desc formatted test;然后找到hdfs存储路径。然后hdfs dfs -ls <your table path>会发现，报错的路径确实不存在。

这也能说明为什么Spark读取会报错，确实找不到那个路径了。

问题分析

在hive中执行show partitions test，查看test表对应的所有分区。

看了下之前添加过的所有分区，发现有个分区对应的hdfs目录不存在了（被人为删除了，一般是清理历史数据）。但是这个分区并没有执行alter table test drop partition p=xxx这样删除掉，因为即便是不删除hive也能正常读取。

但是到Spark这就不行了，Spark加载hive分区表数据会根据show partitions中的分区去加载，发现目录缺失就会出错了。

解决方案

删除分区目录时，同时执行alter table test drop partition (p='xxx')把对应的分区也删除掉就可以了。

如果已经删除了分区目录，也需要执行上以上的命令。

解决Spark读取Hive分区表出现Input path does not exist的问题的更多相关文章

sc.textFile("file:///home/spark/data.txt") Input path does not exist解决方法——submit 加参数 --master local 即可解决
use this val data = sc.textFile("/home/spark/data.txt") this should work and set master as ...
Hadoop on Mac with IntelliJ IDEA - 1 解决input path does not exist问题
本文讲述使用IntelliJ IDEA时遇到Hadoop提示input path does not exist(输入路径不存在)的解决过程. 环境:Mac OS X 10.9.5, IntelliJ ...
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
hadoop机群运行wordcount出现 Input path does not exist: hdfs://ns1/user/root/a.txt
机群搭建好,执行自带wordcount时出现: Input path does not exist: hdfs://ns1/user/root/a.txt 此错误. [root@slave1 hado ...
wordcount报错：org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist:
Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: In ...
Hadoop问题：Input path does not exist: hdfs://Master:9000/user/hadoop/input
问题描述: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs:/ ...
Spark记录-本地Spark读取Hive数据简单例子
注意:将mysql的驱动包拷贝到spark/lib下,将hive-site.xml拷贝到项目resources下,远程调试不要使用主机名 import org.apache.spark._ impor ...
spark 读取hive 计算后写入hive
package com.grady import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, Row, Spa ...
org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/input
原我是这样写的 //输入数据所在的文件目录 FileInputFormat.addInputPath(job, new Path("/input/")); //mapreduce执 ...

随机推荐

Git 常见的一些小命令
Git 常见的一些命令关于一些参数比较多,比较复杂的都有单独进行介绍 1. git cherry-pick 挑拣命令,当我们不想合并分支,或者git pull 更新仓库,而是 ...
BI好比做菜
近日,珠海奥威软件宣布成功签约新世界中国地产(华南),成为该公司在商业智能项目上的坚实合作伙伴,共同打造基于以财务应用为主的决策分析平台. 公司简介新世界中国地产(港股代号:917)为香港上市公司新 ...
hadoop 性能调优与运维
hadoop 性能调优与运维 . 硬件选择 . 操作系统调优与jvm调优 . hadoop运维硬件选择 1) hadoop运行环境 2) 原则一: 主节点可靠性要好于从节点原则二:多路多核,高频 ...
RDIFramework.NET框架Web中datagrid与treegrid控件自动生成右键菜单与列标题右键菜单
在实际应用中常可以看到数据展示控件有右键菜单的功能,对应的列标题也可以右键弹出快捷菜单设置指定列的显示与隐藏等功能.在我们的RDIFramework.NET Web框架中,只要是使用了EasyUI的D ...
（转）SVN服务器搭建和使用（一）
Subversion是优秀的版本控制工具,其具体的的优点和详细介绍,这里就不再多说. 首先来下载和搭建SVN服务器. 现在Subversion已经迁移到apache网站上了,下载地址: http:// ...
C正则库做DNS域名验证时的性能对比
C正则库做DNS域名验证时的性能对比本文对C的正则库regex和pcre在做域名验证的场景下做评测. 验证DNS域名的正则表达式为: "^[0-9a-zA-Z_-]+(\\.[0-9a ...
ibatis输入多个参数
ibatis输入多个参数在ibatis中,会发现其输入参数只能有一个,于是当出现需要进行多个输入参数的时候,就要想点办法了,我看到的有以下两种比较好的方法能够解决这个问题1) 用String ...
Python 的安装与配置（Windows）
Python2.7安装配置 python的官网地址:https://www.python.org/ 我这里下载的是python2.7.12版本的下载后点击安装文件,直接点击下一步知道finally完 ...
there are no packages available for installation插件安装问题和如何配置浏览器的快捷键
sublime text3 在安装插件时,有时候会莫名其妙的弹出如下所示的弹窗(之前遇到了,但写的时候不知道为什么我的又可以了,这个只是出现了这个问题之后可以尝试的一个解决办法,图片就从网上找了一个) ...
用canvas画环形圆形图片
效果如图自动绘制不停歇代码如下 var canvas = document.getElementById('myCanvas'),width = canvas.width,height = canv ...

解决Spark读取Hive分区表出现Input path does not exist的问题

现象

问题分析

解决方案

解决Spark读取Hive分区表出现Input path does not exist的问题的更多相关文章

随机推荐

热门专题