pyspark读取hdfs 二进制文件

程序如下：

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("My test App")

sc = SparkContext(conf=conf)

"""

lines = sc.textFile("/tmp/tmp.txt")

print lines.count()

print lines.first()

"""    

def load_model(sc, model_filename):

        rdd = sc.binaryFiles("/tmp/test.pkl")

        import pickle

        from io import BytesIO

        data_arr = rdd.values().map(lambda p: pickle.load(BytesIO(p))).collect()

        print(data_arr)

load_model(sc, None)

　　其中，test.pkl：

a = {'xx': 999, 'hi': 1223}

>>> f2=open("test.pkl", "wb")
>>> pk.dump(a, f)
>>> f.close()
>>> f2=open("test.pkl", "rb")
>>> pk.load(f2)
{'xx': 999, 'hi': 1223}
>>>

上传到hdfs:

dfs -put test.pkl /tmp/

然后pyspark里运行上述代码：

结果输出：

>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]
>>> load_model(sc, None)
[{'xx': 999, 'hi': 1223}]

pyspark读取hdfs 二进制文件的更多相关文章

python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊.从hdfs上使用python获取parquet格式数据的方法(当然也 ...
python读取hdfs并返回dataframe教程
不多说,直接上代码 from hdfs import Client import pandas as pd HDFSHOST = "http://xxx:50070" FILENA ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
Spark读取HDFS文件，文件格式为GB2312，转换为UTF-8
package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.hadoop.conf.Configur ...
通过java读取HDFS的数据 (转）
原文链接:通过java读取HDFS的数据通过JAVA直接读取HDFS中的时候,一定会用到FSDataInputStream类,通过FSDataInputStream以流的形式从HDFS读数据代码如下 ...
读取hdfs目录，并在web页面上展示文件里的内容
最终效果图目录树实体类: /** * @Author: DaleyZou * @Description: hdfs 目录结构的实体类,用于展示目录树的支撑操作 * @Date: Created in ...
Java API 读取HDFS的单文件
HDFS上的单文件: -bash-3.2$ hadoop fs -ls /user/pms/ouyangyewei/data/input/combineorder/repeat_rec_categor ...
java读取HDFS压缩文件乱码
java通过调用HDFS系统的FileSystem等API 直接读取HDFS的压缩文件会产生乱码解决方法: 1.调用解码的API,解码后通过IO流处理. public static void mai ...
Spark读取HDFS文件，任务本地化(NODE_LOCAL)
Spark也有数据本地化的概念(Data Locality),这和MapReduce的Local Task差不多,如果读取HDFS文件,Spark则会根据数据的存储位置,分配离数据存储最近的Execu ...

随机推荐

VMware的包格式vmdk转换为virtualBox的ova
使用winxp的vmdk作为案例 1 使用vmvare导入vmdk的winxp,点击文件---->导出为ovf 2 找到生成的ovf文件 3 打开virtualBox 管理---->导入虚 ...
hexo 博客如何更换电脑
如何在更换电脑后继续使用Hexo部署博客重要目录 _config.yml package.json scaffolds/ source/ themes/ 在新电脑上配置hexo环境:安装node.j ...
OpenJudge 2755:神奇的口袋
总时间限制: 10000ms 内存限制: 65536kB 描述有一个神奇的口袋,总的容积是40,用这个口袋可以变出一些物品,这些物品的总体积必须是40.John现在有n个想要得到的物品,每个物品的体 ...
canal部署启动的时候报错com.alibaba.druid.pool.DruidDataSource - testWhileIdle is true, validationQuery not set
报错信息:com.alibaba.druid.pool.DruidDataSource - testWhileIdle is true, validationQuery not set 解决方法: 找 ...
Docker的基础教程（基于CentOS)
1.查看版本 Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker . 通过 uname -r 命令查看你当前的内核 ...
PHP 获取星期
<?php function getWeek($time = 0) { $week_array=array('日', '一', '二', '三', '四', '五', '六'); //先定义一个 ...
PMBOK(第六版) PMP备考知识总汇！
记录本人学习PMBOK第六版的学习笔记. 备考知识总汇! PMBOK序章 PMP备考指南之相关事项介绍 PMP备考指南之第一章:引论 PMP备考指南之第二章:项目运作环境 PMP备考指南之第三章:项目 ...
Django-03-静态文件配置
一.django静态文件配置原理静态文件配置就是为了让用户请求时django服务器能找到静态文件返回. 首先要理解几个概念: 媒体文件:用户上传的文件静态文件:css,js,image等开发环境 ...
Linux远程管理命令
关机\重启 shutdown 选项时间参数 -r 重启例子: shutdown 1分钟后关机 shutdown now 立刻关机 shutdown –r now 立即重启 shutdown 20 ...
Django模型层之更多操作
Django模型层之更多操作一 .ORM字段 1.1 常用字段 AutoField int自增列,必须填入参数 primary_key=True.当model中如果没有自增列,则自动会创建一个列名为 ...

pyspark读取hdfs 二进制文件

pyspark读取hdfs 二进制文件的更多相关文章

随机推荐

热门专题