spark中数据的读取与保存
1.文本文件
JavaRDD<String> input =sc.textFile(dir)
result.saveAsTextFile(dir);
public class Person {
private String name;
private int age;
public Person(String name, int age) {
this.name = name;
this.age = age;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
}
final Gson gson=new Gson();
Person jack =new Person("jack",21);
String json=gson.toJson(jack);
System.out.println(json);
try {
Person someone=gson.fromJson(json,Person.class);
System.out.println("name if someone is"+someone.getName());
System.out.println("age of someone is"+someone.getAge());
} catch (JsonSyntaxException e) {
e.printStackTrace();
}
Person jack =new Person("jack",21);
String json = JSON.toJSONString(jack);
System.out.println(json);
Person someone=JSON.parseObject(json,Person.class);
public Person(){
}
//创建CSVWriter,文件路径为c://test.csv,分隔符为制表符
CSVWriter writer =new CSVWriter(new FileWriter("C://test.csv"),'\t');
//需要写入csv文件的一行的三个String
String [] line={"aaa","bbb","ccc"};
//写入这一行
writer.writeNext(line);
writer.close();
//创建CSVWriter,文件路径为c://test.csv,分隔符为制表符
CSVWriter writer =new CSVWriter(new FileWriter("C://test.csv"),'\t');
List<String[]> lines=new ArrayList<String[]>();
lines.add(new String []{"hhh","ggg","hhh"});
lines.add(new String[]{"xxx","yyy","zzz"});
writer.writeAll(lines);
writer.close();
//读取csv文件,以行为单位,保存在lines中
JavaRDD<String> lines = sc.textFile("C://test.csv");
//定义如何将一行中的元素读取出来,以String[]的形式返回
class ParseLine implements Function<String,String[]>{
public String[] call(String s) throws Exception {
//新建CSVReader对象,分隔符定为'\t'制表符
CSVReader reader =new CSVReader(new StringReader(s),'\t');
//以数组的形式返回每一行中的元素
return reader.readNext();
}
}
//利用ParseLine,转化处理lines
JavaRDD<String[]> results=lines.map(
new ParseLine()
);
//遍历输出results中的内容
for(String s []: results.collect() ){
System.out.println("this is the elements of one line!");
for(String str:s)
System.out.println(str);
}
//新建PairRDD<String,Integer>
JavaPairRDD<String,Integer> data =sc
.parallelizePairs(Arrays.asList(new Tuple2<String, Integer>("zhouyang", 1),
new Tuple2<String, Integer>("jack", 2),
new Tuple2<String, Integer>("bob", 3)));
//将PairRDD<String,Integer> 转换为hadoop io中对应的格式 PairRDD<Text,IntWritable>
JavaPairRDD<Text,IntWritable> result =data.mapToPair(
new PairFunction<Tuple2<String, Integer>, Text, IntWritable>() {
public Tuple2<Text, IntWritable> call(Tuple2<String, Integer> record) throws Exception {
return new Tuple2(new Text(record._1()),new IntWritable(record._2()));
}
}
);
//将result以SequenceFile保存在指定目录下
result.saveAsHadoopFile("C://hadoop.file",Text.class,IntWritable.class, SequenceFileOutputFormat.class);
JavaPairRDD<Text,IntWritable> input=sc.sequenceFile("c://hadoop.file",Text.class,IntWritable.class);
JavaPairRDD<String,Integer> results =input.mapToPair(
new PairFunction<Tuple2<Text, IntWritable>, String, Integer>() {
public Tuple2<String, Integer> call(Tuple2<Text, IntWritable> record) throws Exception {
return new Tuple2<String,Integer>(record._1().toString(),record._2().get());
}
}
);
for(Tuple2<String,Integer> tuple: results.collect())
System.out.println(tuple._1()+"->" +tuple._2());
JavaPairRDD<String,Integer> data =sc
.parallelizePairs(Arrays.asList(new Tuple2<String, Integer>("zhouyang", 1),
new Tuple2<String, Integer>("jack", 2),
new Tuple2<String, Integer>("bob", 3)));
data.saveAsObjectFile("c://object.file");
JavaRDD<Tuple2<String,Integer>> input=sc.objectFile("c://object.file");
for(Tuple2<String,Integer> tuple:input.collect()){
System.out.println(tuple._1()+" -> "+tuple._2());
}
spark中数据的读取与保存的更多相关文章
- Numpy中数据的常用的保存与读取方法
小书匠 深度学习 文章目录: 1.保存为二进制文件(.npy/.npz) numpy.save numpy.savez numpy.savez_compressed 2.保存到文本文件 numpy. ...
- Python Numpy中数据的常用的保存与读取方法
在经常性读取大量的数值文件时(比如深度学习训练数据),可以考虑现将数据存储为Numpy格式,然后直接使用Numpy去读取,速度相比为转化前快很多. 下面就常用的保存数据到二进制文件和保存数据到文本文件 ...
- Spark SQL数据加载和保存实战
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数 ...
- IOS webview中cookie的读取与保存-b
Cookie 的读取 将它放在 webViewDidFinishLoad 开始后执行 NSArray *nCookies = [[NSHTTPCookieStorage sharedHTTPCooki ...
- spark中数据倾斜解决方案
数据倾斜导致的致命后果: 1 数据倾斜直接会导致一种情况:OOM. 2 运行速度慢,特别慢,非常慢,极端的慢,不可接受的慢. 搞定数据倾斜需要: 1.搞定shuffle 2.搞定业务场景 3 搞定 c ...
- Numpy中数据的常用的保存与读取
保存到文本文件numpy.savetxt()numpy.loadtxt() import numpy as np x= np.arange(0,10,0.1) np.savetxt('save_x', ...
- R语言学习笔记(数据的读取与保存)
library(MASS)#载入package MASSdata(package="MASS") #查看MASS中的数据集data(SP500,package="MASS ...
- 【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
- Ubuntu10.04中利用V4L2读取摄像头数据并保存成文件【转】
转自:http://blog.chinaunix.net/uid-29339876-id-4042245.html 利用V4L2读取UVC摄像头数据并保存成视频文件,主要参考http://linuxt ...
随机推荐
- 几种在shell命令行中过滤adb logcat输出的方法
我们在Android开发中总能看到程序的log日志内容充满了屏幕,而真正对开发者有意义的信息被淹没在洪流之中,让开发者无所适从,严重影响开发效率.本文就具体介绍几种在shell命令行中过滤adblog ...
- notify vs nofifyall
http://stackoverflow.com/questions/37026/java-notify-vs-notifyall-all-over-again Do you want to tell ...
- Android编程之SparseArray<E>详解
最近编程时,发现一个针对HashMap<Integer, E>的一个提示: 翻译过来就是:用SparseArray<E>来代替会有更好性能.那我们就来看看源码中SparseAr ...
- CentOS6.5 安装ntopng-1.2.0
0.准备工作 安装libpcap:最好源码安装. yum install -y libpcap* 安装redis yum install -y redis* 1.安装 tar -zxvf ntopng ...
- FIFO 和 LRU 调度算法
在一个采用页式虚拟存储管理的系统中(字地址序列.页号.块号均从零开始编址),有一用户作业,它依次要访问的字地址序列是:15,128,300,388,246,402,223,142,360,267,若该 ...
- 你的float用对了吗
介绍 很多人都知道float是浮点类型,它不能表示数据范围内的所有数值.但是,实际使用或编码时,你又是否记得这句话呢?下面是stackoverflow中的一个问题: why does a float ...
- iOS之Alcatraz常见插件
转发:http://blog.csdn.net/pingchangtan367/article/details/26689497 对于Xcode是我们的开发环境,ok,怎样提高我们的效率呢,当然是使我 ...
- Bootstrap环境及屏幕适配-(一)
一.环境搭建 1.目录结构 需要引用的文件有, jquery.js.bootstrap.min.js 和 bootstrap.min.css 文件,下面看下在线的文档Hello Word <!D ...
- 不同版本的mysql字符集的默认编写
原来在5.1版本时,为了解决中文乱码问题设置默认字符集为utf8时,在my.ini内的 [mysql] 和 [mysqld] 项中都是写: default-character-set=utf8 到了5 ...
- Linux 软件包安装管理
转自:http://www.cnblogs.com/Quains/archive/2012/01/03/2311049.html 本文主要是记录下RedHat系列的软件包管理. 内容分为以下三个部分: ...