Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题：

1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路径出了错，需要配置 --files 和 --conf。

2. pyspark.sql.utils.AnalysisException: 'Table or view not found —— 事实上在hive里面是存在这个表的，但是却显示找不到。

3. org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXXX' not found; —— 直接显示数据库找不到，是因为没有配置enableHiveSupport()，例如需要设置：spark = SparkSession.builder.master("local").appName("SparkOnHive").enableHiveSupport().getOrCreate()

出现这些问题的原因：

在我这里测试的是：hive配置以及spark-submit提交作业时，参数未设置造成。

# 以下测试通过

import os

# from pyspark import SparkContext, SparkConf

from pyspark.sql.session import SparkSession

from pyspark.sql import HiveContext

import sys

os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"

spark = SparkSession.builder.master("local").appName("SparkOnHive").enableHiveSupport().getOrCreate() #必须配置 enableHiveSupport

hive_text = HiveContext(spark)

print(sys.getdefaultencoding())

hive_text.sql('use default')  #选择数据库名

data_2 = hive_text.sql("select * from word_test") #执行查询语句

#data_2 = hive_text.sql("select * from test_table_words")

data_3 = data_2.select("first_column_name").collect() #选择表中的某一列，或某几列，需要输入列名

print(data_3[0][0])

print(data_2.collect()[0])

print(data_2.collect()[0][0])

print("------ finished ------")

以上代码保存为：test.py

在命令行或者shell执行时，需要使用：

spark-submit --files /opt/spark/spark-2.1.1-bin-hadoop2.7/conf/hive-site.xml --conf spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive=true test.py

其中：

--files：用于添加hive配置文件，首先注意的是：你的hadoop、spark、hive等都是安装配置好的，建议安装spark_with_hive之类已经编译好的spark。

--conf：一个关键配置，这个配置还在学习中

在上述方法执行成功后，第二次执行时发现：spark-submit --files /opt/spark/spark-2.1.1-bin-hadoop2.7/conf/hive-site.xml test.py 也可以直接执行了，有点懵，可能在hive-site.xml中设置了--conf，还在继续学习中。

注意：此时并不需要在代码里面设置spark.sql.warehouse.dir：config("spark.sql.warehouse.dir", some_path)

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found的更多相关文章

java.io.IOException: 您的主机中的软件中止了一个已建立的连接解决办法
问题现象和http://hi.baidu.com/cara_cloud/item/193a3ee327546d395a2d64be描述的一样,就是在eclipse的console栏中一直显示java. ...
myEclipse中改了项目名，出现的问题和错误java.io.IOException: tmpFile.renameTo(classFile) failed
今天遇到一个很头疼的问题,建的一个新项目,后来因为一些原因把项目名改了,之后就做了一些业务,但运行时总是没有反应,后来在myEclipse工作空间下的webapps文件中发现, 部署的文件名和项目名称 ...
运行基准测试hadoop集群中的问题：org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /benchmarks/TestDFSIO/io_data/test_
在master(即:host2)中执行 hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 10240 - ...
Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常
在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了以下的异常: java.io.IOException: Non-in ...
Android开发中与服务器交互时，遇到java.io.IOException: Target host must not be null的问题
当我遇到这个问题的时候,也在网上查找好半天.找到了一个和这个问题很类似的问题——java.lang.IllegalStateException: Target host must not be nul ...
java.io.IOException: 你的主机中的软件中止了一个已建立的连接。
1.异常表现:我在jsp文件中有一个<form>表单,里面有一个<button>保存事件按钮.<button onclick="addOrUPdate()&q ...
elasticsearch中的java.io.IOException: 远程主机强迫关闭了一个现有的连接
[2018-07-31T14:29:41,289][WARN ][o.e.x.s.t.n.SecurityNetty4HttpServerTransport] [9rTGh-y] caught exc ...
HBase中此类异常解决记录org.apache.hadoop.ipc.RemoteException(java.io.IOException):
ERROR: Can't get master address from ZooKeeper; znode data == null 一定注意这只是问题的第一层表象,真的问题是: File /hb ...
如何解决tomcat中的应用报java.io.IOException: 您的主机中的软件中止了一个已建立的连接
转载: 施勇: https://blog.csdn.net/shiyong1949/article/details/72845634 这两天突然看到日志文件中有“java.io.IOException ...

随机推荐

OCR（Optical Character Recognition）算法总结
https://zhuanlan.zhihu.com/p/84815144 最全OCR资料汇总,awesome-OCR
【DL基础】GridSearch网格搜索
前言参考 1. 调参必备---GridSearch网格搜索: 完
材质(Material)和几何体(Geometry)
1. 材质一个材质结合一个几何体可以组成一个mesh对象.材质就像物体的皮肤,决定了几何体的外表.例如:皮肤定义了一个几何体看起来是否像金属.透明与否,或者显示为线框. 基本的材质如下: 1. ...
一定要记住的14个JVM内存配置参数
jvm setting的参数确实比较多(Oracle官网Java HotSpot VM Options),但是作为一名java开发者,那几个最常用最基本的参数设置和意义一定要死记和理解.这里推荐一个网 ...
JAVA–利用Filter和session防止页面重复提交
JAVA–利用Filter和session防止页面重复提交解决思路:1 用户访问表单页面,先经过过滤器,过滤器设置一个随机id作为token令牌, 并将该token放入表单隐藏域中.2 表单响应到浏览 ...
Go语言【学习】defer和逃逸分析
defer 什么是defer? defer是Go语言的一中用于注册延迟调用的机制,使得函数活语句可以再当前函数执行完毕后执行为什么需要defer? Go语言提供的语法糖,减少资源泄漏的发生如何使用 ...
【数据结构】12.java源码关于ConcurrentHashMap
目录 1.ConcurrentMap的内部结构 2.ConcurrentMap构造函数 3.元素新增策略4.元素删除5.元素修改和查找6.特殊操作7.扩容8.总结 1.ConcurrentMap内部结 ...
AX 2012 Computed column IIF语句使用
涉及Dynamics ax 行业已经好几年了,准备总结一些有用的处理方法供大家来参考首先先介绍下Computed column技术,该技术是微软在AX2012版本中提供的新技术,可以让SQL语句在A ...
nacos初探--作为配置中心
什么是nacos Nacos 支持基于 DNS 和基于 RPC 的服务发现(可以作为springcloud的注册中心).动态配置服务(可以做配置中心).动态 DNS 服务. 官方介绍是这样的: Nac ...
Hive学习笔记（三）—— 数据类型
Hive的基本使用(一)--数据类型 1. Hive的基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2 ...

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found的更多相关文章

随机推荐

热门专题