Python直接操作hdfs,包括追加数据文件到hdfs文件

#!coding:utf-8

import sys

from hdfs.client import Client

#设置utf-8模式

reload(sys)

sys.setdefaultencoding( "utf-8" )

#关于python操作hdfs的API可以查看官网:

#https://hdfscli.readthedocs.io/en/latest/api.html

#读取hdfs文件内容,将每行存入数组返回

def read_hdfs_file(client,filename):

    #with client.read('samples.csv', encoding='utf-8', delimiter='\n') as reader:

    #  for line in reader:

    #pass

    lines = []

    with client.read(filename, encoding='utf-8', delimiter='\n') as reader:

        for line in reader:

            #pass

            #print line.strip()

            lines.append(line.strip())

    return lines

#创建目录

def mkdirs(client,hdfs_path) :

    client.makedirs(hdfs_path)

#删除hdfs文件

def delete_hdfs_file(client,hdfs_path):

    client.delete(hdfs_path)

#上传文件到hdfs

def put_to_hdfs(client,local_path,hdfs_path):

    client.upload(hdfs_path, local_path,cleanup=True)

#从hdfs获取文件到本地

def get_from_hdfs(client,hdfs_path,local_path):

    download(hdfs_path, local_path, overwrite=False)

#追加数据到hdfs文件

def append_to_hdfs(client,hdfs_path,data):

    client.write(hdfs_path, data,overwrite=False,append=True)

#覆盖数据写到hdfs文件

def write_to_hdfs(client,hdfs_path,data):

    client.write(hdfs_path, data,overwrite=True,append=False)

#移动或者修改文件

def move_or_rename(client,hdfs_src_path, hdfs_dst_path):

    client.rename(hdfs_src_path, hdfs_dst_path)

#返回目录下的文件

def list(client,hdfs_path):

    return client.list(hdfs_path, status=False)

#client = Client(url, root=None, proxy=None, timeout=None, session=None)

#client = Client("http://hadoop:50070")

#move_or_rename(client,'/input/2.csv', '/input/emp.csv')

#read_hdfs_file(client,'/input/emp.csv')

#put_to_hdfs(client,'/home/shutong/hdfs/1.csv','/input/')

#append_to_hdfs(client,'/input/emp.csv','我爱你'+'\n')

#write_to_hdfs(client,'/input/emp.csv','我爱你'+'\n')

#read_hdfs_file(client,'/input/emp.csv')

#move_or_rename(client,'/input/emp.csv', '/input/2.csv')

#mkdirs(client,'/input/python')

#print list(client,'/input/')

#chown(client,'/input/1.csv', 'root')

Python操作hdfs的更多相关文章

使用python操作hdfs，并grep想要的数据
代码如下: import subprocess for day in range(24, 30): for h in range(0, 24): filename = "tls-metada ...
hadoop 》》 django 简单操作hdfs 语句
>> from django.shortcuts import render # Create your views here. from hdfs.client import Clien ...
使用Python访问HDFS
最近接触到大数据,对于Skpark和Hadoop的料及都停留在第一次听到这个名词时去搜一把看看大概介绍免得跟不上时代的层次. 在实际读了点别人的代码,又自己写了一些之后,虽然谈不上理解加深,至少对于大 ...
2.如何使用python连接hdfs
总所周知,python是一门很强大的语言,主要在于它有着丰富的第三方模块,当然连接hdfs的模块也不例外. 在python中有一个模块也叫hdfs,可以使用它连接hadoop的hdfs.直接pip i ...
【转】Python 访问 HDFS
1.前言 hdfs , Hadoop Distributed File System.Hadoop的分布式文件系统,安全行和扩展性没得说. 访问HDFS的方式有以下几种: 命令行方式:FS Shell ...
Python（九） Python 操作 MySQL 之 pysql 与 SQLAchemy
本文针对 Python 操作 MySQL 主要使用的两种方式讲解: 原生模块 pymsql ORM框架 SQLAchemy 本章内容: pymsql 执行 sql 增\删\改\查语句 pymsql ...
Python 【第六章】：Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy
Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度 ...
练习：python 操作Mysql 实现登录验证用户权限管理
python 操作Mysql 实现登录验证用户权限管理
Python操作MySQL
本篇对于Python操作MySQL主要使用两种方式: 原生模块 pymsql ORM框架 SQLAchemy pymsql pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb ...

随机推荐

Mac os JAVA 开发环境配置简述
本文原文来源:http://blog.csdn.NET/johnstrive/article/details/7791451 1.Mac 自带jdk1.6(本人的机器是这样至于新Mac自带的版本就不清 ...
SpringMVC总结四：拦截器简单介绍
首先要说一下HandlerExecutionChain: HandlerExecutionChain是一个执行链,当用户的请求到达DispatcherServlet的时候,DispatcherServ ...
使用DevStack安装openstack（单机环境）
DevStack是一系列可扩展的脚本,用于根据git master的最新版本快速启动完整的OpenStack环境.它以交互方式用作开发环境,并作为OpenStack项目功能测试的基础. 参考源码. 警 ...
codeforce469DIV2——C. Zebras
题意 0, 010, 01010 这一类的01交替且开头和结尾都为0的序列被称为zebra序列.给出一段01序列,尝试能否把他分为k个子序列使得每个子序列都是zebra序列. 分析这个题应该算是水题 ...
php析构方法关于栈的问题
<?php class test{ var $name; var $sex; var $age; function __construct( $name, $sex ,$age ) { $thi ...
cocos2d-x 初探helloWorld
cocos2d-x的main函数代码很少,把一些复杂的接口封装到AppDelegate类里了,“AppDelegate”从词意可以得出是app的代理类,而一些最早的场景都会在AppDelegate类里 ...
sql语句查询中exists中为什么要用select 1？
select * from call_cdr_xz_200609 a where and a.ori_charge<>0 and exists(select 1 from special ...
2-配置Andriod环境时的错误。。。Theme.AppCompat.Light
编译或运行时可能会出现错误: Error:Error retrieving parent for item: No resource found that matches the given name ...
基于Ubuntu16搭建Hadoop大数据完全分布式环境
[目的]:学习大数据在此记录搭建大数据的过程. [系统环境] 宿主机操作系统:Win7 64位虚拟机软件:Vmware workstation 12 虚拟机:Ubuntu 16 64位桌面版 [步 ...
29.MAX() 函数
MAX() 函数 MAX 函数返回一列中的最大值.NULL 值不包括在计算中. SQL MAX() 语法 SELECT MAX(column_name) FROM table_name 注释:MIN ...

Python操作hdfs

Python直接操作hdfs,包括追加数据文件到hdfs文件

Python操作hdfs的更多相关文章

随机推荐

热门专题