方法一：使用pyhive库

如上图所示我们需要四个外部包

中间遇到很多报错。我都一一解决了

1.Connection Issue: thrift.transport.TTransport.TTransportException: TSocket read 0 bytes

2.安装sasl 遇到Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"

解决了点击

3.遇到

thrift.transport.TTransport.TTransportException: Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2'

处理

加上 auth="NOSAL"这个参数

4.我发现上面这个包有的安装不了我强行用pycharm alt+enter强行按安装的

最后附上测试代码

from pyhive import hive

import thrift

import sasl

import thrift_sasl

conn = hive.Connection(host='192.168.154.201', port=10000, database='default',auth='NOSASL')

cursor=conn.cursor()

cursor.execute('select * from a1 limit 10')

for result in cursor.fetchall():

    print (result)

方法二：使用impyla库

pip install thrift-sasl==0.2.

pip install sasl

pip install impyla

测试代码如下：

from impala.dbapi import connect

conn = connect(host='192.168.154.201', port=10000, database='default')

cursor = conn.cursor()

cursor.execute('select * from a1 limit 10')

for result in cursor.fetchall():

    print(result)

方法三：使用ibis库

# # 1.查询hdfs数据

from ibis import hdfs_connect

hdfs = hdfs_connect(host='xxx.xxx.xxx.xxx', port=50070)

hdfs.ls('/')

hdfs.ls('/apps/hive/warehouse/ai.db/tmp_ys_sku_season_tag')

hdfs.get('/apps/hive/warehouse/ai.db/tmp_ys_sku_season_tag/000000_0', 'parquet_dir')

# 2.查询数据到python dataframe

from ibis.impala.api import connect

ImpalaClient = connect('192.168.154.201',10000,database='default')

lists=ImpalaClient.list_databases()

print(lists)

isExist=ImpalaClient.exists_table('a1')

# # 执行SQL

# if(isExist):

#     sql='set mapreduce.job.queuename=A'

#     ImpalaClient.raw_sql(sql)

# 将SQL结果导出到python dataframe

requete = ImpalaClient.sql('select * from a1 limit 10')

df = requete.execute(limit=None)

print(type(df))

print(df)

结果：

官网API：https://docs.ibis-project.org/api.html#impala-client

变成df确实能用pandas和numpy两个包能做很多事情

python操作hive 安装和测试的更多相关文章

python操作Redis安装、支持存储类型、普通连接、连接池
一.python操作redis安装和支持存储类型安装redis模块 pip3 install redis 二.Python操作Redis之普通连接 redis-py提供两个类Redis和Strict ...
Linux 首先基本包安装(vim啊什么的),源,源优化,项目架构介绍, (LNMuWsgi)Django项目相关软件mysql,redies,python(相关模块)安装配置测试
内容补充: 查看已启动服务的端口 netstat -tulnp |grep (方式1) ss -tulnp|grep (方式2) 前期铺垫: . Linux要能上网 . 掌握Linux软件包安装方法 ...
python操作数据库-安装
首先是下载软件: 链接:http://pan.baidu.com/s/1nvp1imX 密码:6i0x 之后就是一系列设置. 安装教程:自行百度就行.需要注意的是设置my.ini时,需要加上这些东西( ...
python操作hive并且获取查询结果scheam
执行hive -e 命令并且获取对应的select查询出来的值及其对应的scheam字段需要在执行语句中前部添加 set hive.cli.print.header=true; 这个设置,如下语句: ...
python3 操作 hive 安装依赖包整理
安装依赖pip install saslpip install thriftpip install thrift-saslpip install PyHive windows安装sasl报错,解决方案 ...
Python操作Redis、Memcache、RabbitMQ、SQLAlchemy
Python操作 Redis.Memcache.RabbitMQ.SQLAlchemy redis介绍:redis是一个开源的,先进的KEY-VALUE存储,它通常被称为数据结构服务器,因为键可以包含 ...
Python之路【第十篇】Python操作Memcache、Redis、RabbitMQ、SQLAlchemy、
Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度 ...
文成小盆友python-num11－（2） python操作Memcache Redis
本部分主要内容: python操作memcache python操作redis 一.python 操作 memcache memcache是一套分布式的高速缓存系统,由LiveJournal的Brad ...
使用python操作Memcache、Redis、RabbitMQ、
Memcache 简述: Memcache是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但目前被许多网站使用以提升网站的访问速度,尤其对于一些大型的.需要 ...

随机推荐

mysql innodb索引原理
聚集索引(clustered index) innodb存储引擎表是索引组织表,表中数据按照主键顺序存放.其聚集索引就是按照每张表的主键顺序构造一颗B+树,其叶子结点中存放的就是整张表的行记录数据,这 ...
Design Log Storage System
You are given several logs that each log contains a unique id and timestamp. Timestamp is a string t ...
【转帖】比df命令更有用的磁盘信息工具
比df命令更有用的磁盘信息工具 http://embeddedlinux.org.cn/emb-linux/entry-level/201310/30-2666.html 除了df fdisk 还有这 ...
sql常用到的查询连接
一.内连接(Inner Join) select * from a inner join b on a.name=b.name; 此语句的结果为同时匹配表a和表b的记录集.即内连接取的是两个表的交集. ...
Oracle的查询-条件表达式
给emp表中员工起中文名 select e.ename from emp e; select e.ename, case e.ename when 'SMITH' then '曹贼' when 'AL ...
【LOJ】#3046. 「ZJOI2019」语言
LOJ#3046. 「ZJOI2019」语言先orz zsy吧有一个\(n\log^3n\)的做法是把树链剖分后,形成logn个区间,这些区间两两搭配可以获得一个矩形,求矩形面积并然后就是对于一 ...
题解 P3627 【[APIO2009]抢掠计划】
咕了四个小时整整一晚上 P3627 [APIO2009] 抢掠计划(https://www.luogu.org/problemnew/show/P3627) 不难看出答案即为该有向图的最长链长度(允许 ...
CentOS7-部署kubernetes
1 环境准备节点主机名 IP OS Master k8s-master 192.168.57.1 centos 7 Node1 k8s-nod ...
Mysql-Sqlalchemy-多表操作
import sqlalchemy from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declar ...
Java EE Servlet相关的两个包
Servlet in Java EE 在Java EE的规范API中(链接),Servlet相关联的最重要的两个Package为: 1.javax.servlet 包含了一系列接口和类,他们在一个Se ...

python操作hive 安装和测试

方法一：使用pyhive库

方法二：使用impyla库

方法三：使用ibis库

python操作hive 安装和测试的更多相关文章

随机推荐

热门专题